HDF5 (Hierarchical Data Format 5)
HDF5 es un formato de archivo y biblioteca diseñados para almacenar y gestionar colecciones grandes y complejas de datos. Soporta almacenamiento jerárquico con grupos y datasets, haciéndolo popular en computación científica, aprendizaje automático e investigación.
Tipo MIME
application/x-hdf5
Tipo
Binario
Compresión
Sin pérdida
Ventajas
- + Handles datasets from kilobytes to exabytes
- + Hierarchical structure organizes complex data
- + Built-in compression and chunked storage for performance
- + Parallel I/O support for HPC clusters
Desventajas
- − Complex API with a steep learning curve
- − Not suited for simple tabular data (use Parquet or CSV)
- − File corruption risk with concurrent writes without locks
Cuándo usar .HDF5
Usa HDF5 para grandes datos científicos, pesos de modelos de aprendizaje automático, almacenamiento de arrays n-dimensionales y cualquier dato jerárquico complejo. Para datos tabulares simples, prefiere Parquet o CSV.
Detalles técnicos
Los archivos HDF5 contienen grupos (como directorios) y datasets (arrays n-dimensionales tipados). Los datasets soportan fragmentación (chunking), compresión (gzip, LZF, SZIP), control de endianness y E/S paralela. Los metadatos se almacenan como atributos en grupos/datasets. El tamaño máximo de archivo es de exabytes.
Historia
El HDF Group (originalmente en NCSA) desarrolló HDF5 a mediados de los años 90 como sucesor de HDF4. Se convirtió en el formato estándar para datos científicos y se usa ampliamente en la NASA, laboratorios del DOE, genómica y redes neuronales (pesos de modelos Keras/TensorFlow).