๐Ÿ‹
Menu
.parquet Data

Apache Parquet (Armazenamento Colunar)

Apache Parquet e um formato de armazenamento colunar concebido para processamento eficiente de dados. Armazena dados por coluna em vez de por linha, permitindo compressao e desempenho de consulta excelentes para cargas de trabalho analiticas.

Tipo MIME

application/vnd.apache.parquet

Tipo

Binรกrio

Compressรฃo

Sem perdas

Vantagens

  • + Excellent compression through columnar encoding
  • + Fast analytical queries โ€” reads only needed columns
  • + Predicate pushdown skips irrelevant row groups entirely
  • + Standard in Spark, DuckDB, Pandas, and cloud data lakes

Desvantagens

  • โˆ’ Not suited for transactional row-level updates
  • โˆ’ More complex to write than CSV or JSON
  • โˆ’ Schema evolution has some limitations

Quando usar .PARQUET

Use Parquet para pipelines de analise de dados, data lakes, consultas de data warehouse e qualquer cenario onde a leitura de subconjuntos especificos de colunas e mais comum que o scan completo de linhas.

Detalhes tรฉcnicos

O Parquet armazena dados em grupos de linhas contendo pedacos de coluna. Suporta compressao por coluna (Snappy, Gzip, Zstd, LZ4), predicado pushdown, tipos aninhados e evolucao de esquema. Os metadados sao armazenados no rodape do ficheiro.

Histรณrico

O Parquet foi criado pela Cloudera e pelo Twitter em 2013, inspirado no sistema Dremel da Google. Tornou-se um projeto de nivel superior da Apache e o formato padrao para data lakes e pipelines de big data.

Converter de .PARQUET

Converter para .PARQUET

Formatos relacionados

Termos relacionados