Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- sparkstreaming
- grafana
- MSA
- kafka
- BigQuery
- Streamlit
- metadabatase
- 오블완
- amazonlinux
- milvus
- pySpark
- prometheus
- airflow설치
- ubuntu
- docker
- Redshift
- Python
- vectorDB
- dockercompose
- aiagent
- SQL
- 루프백주소
- hadoop
- javascript
- RAG
- 설치
- jmx-exporter
- spark
- Dag
- airflow
Archives
- Today
- Total
목록파케이 (1)
데이터 노트

얼마 전 면접을 보고, 용어나 프로그램들의 기본적인 개념에 대해 부족한 부분이 많은 것 같아 차근차근 정리해보려고 한다.그 중에서 이번에는 parquet 파일이란 무엇이며, 어떠한 장점이 있어 사용되고 있는지 정리해본다. Parquet(파케이) 파일이란?하둡 에코시스템에서 많이 사용되는 파일 포맷 중 하나Twitter, Cloudera에서 개발하여, 현재 Apache에서 관리columnar 저장 포맷 (기존의 row 기반 포맷과 다름)생겨난 배경Twitter에서는 HDFS에 SNS에서 발생한 대량의 데이터를 저장하고 있었는데,데이터의 양이 방대해 너무 많은 디스크를 소모하는 것을 개선하기 위해데이터 사이즈를 줄이는 파일 포맷을 개발하게 됨.→ 작은 파일 사이즈와 낮은 I/O 사용을 목적으로 개발장점압축률..
Insights
2023. 2. 10. 13:20