Formato HDF5 — Datos jerárquicos para ciencia e IA

HDF5 es un formato de archivo y biblioteca diseñados para almacenar y gestionar colecciones grandes y complejas de datos. Soporta almacenamiento jerárquico con grupos y datasets, haciéndolo popular en computación científica, aprendizaje automático e investigación.

Tipo MIME

application/x-hdf5

Tipo

Binario

Compresión

Sin pérdida

Ventajas

+ Handles datasets from kilobytes to exabytes
+ Hierarchical structure organizes complex data
+ Built-in compression and chunked storage for performance
+ Parallel I/O support for HPC clusters

Desventajas

− Complex API with a steep learning curve
− Not suited for simple tabular data (use Parquet or CSV)
− File corruption risk with concurrent writes without locks

Cuándo usar .HDF5

Usa HDF5 para grandes datos científicos, pesos de modelos de aprendizaje automático, almacenamiento de arrays n-dimensionales y cualquier dato jerárquico complejo. Para datos tabulares simples, prefiere Parquet o CSV.

Detalles técnicos

Los archivos HDF5 contienen grupos (como directorios) y datasets (arrays n-dimensionales tipados). Los datasets soportan fragmentación (chunking), compresión (gzip, LZF, SZIP), control de endianness y E/S paralela. Los metadatos se almacenan como atributos en grupos/datasets. El tamaño máximo de archivo es de exabytes.

Historia

El HDF Group (originalmente en NCSA) desarrolló HDF5 a mediados de los años 90 como sucesor de HDF4. Se convirtió en el formato estándar para datos científicos y se usa ampliamente en la NASA, laboratorios del DOE, genómica y redes neuronales (pesos de modelos Keras/TensorFlow).

Convertir desde .HDF5

.hdf5 → .bson .hdf5 → .csv .hdf5 → .json .hdf5 → .msgpack .hdf5 → .ndjson .hdf5 → .parquet .hdf5 → .protobuf .hdf5 → .sql .hdf5 → .sqlite .hdf5 → .xml

Convertir a .HDF5

.bson → .hdf5 .csv → .hdf5 .json → .hdf5 .msgpack → .hdf5 .ndjson → .hdf5 .parquet → .hdf5 .protobuf → .hdf5 .sql → .hdf5 .sqlite → .hdf5 .xml → .hdf5

Formatos relacionados

.arrow .avro .bson .geojson .msgpack .ndjson .parquet .protobuf .sqlite

Categories

HDF5 (Hierarchical Data Format 5)