일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- Streamlit
- prometheus
- amazonlinux
- Dag
- pySpark
- grafana
- spark
- kafka
- javascript
- sparkstreaming
- dockercompose
- jmx-exporter
- metadabatase
- Redshift
- hadoop
- BigQuery
- aiagent
- 설치
- Python
- docker
- SQL
- RAG
- milvus
- 루프백주소
- vectorDB
- ubuntu
- MSA
- 오블완
- airflow설치
- airflow
- Today
- Total
목록Data Engineering/Spark (2)
데이터 노트

PySpark 로 빅데이터 분석하기 with Python 강의를 수강하며 정리한 내용입니다.강의 촬영 시기랑 지금이랑 조금 UI적으로 바뀐 부분들이 있어서 찾아가면서 했다. (크게 다르지는 않음) Databricks의 노트북을 사용하기 위한 세팅 방법에 대해 알아보자. 대략적인 순서1. 계정 생성2. 클러스터 생성3. 노트북 생성4. Table 생성 상세 과정databricks.com/try-databricks 로 접속한다. 접속 후 계정 생성을 한다. (꼭 회사 계정일 필요는 없으므로, 개인 이메일로 작성해도 된다.)무료 버전으로 테스트 할 것이기 때문에, 커뮤니티 에디션으로 시작한다. (초록색 박스 부분 클릭)작업을 하기 위해 Cluster를 생성해준다. (New - Cluster 혹은 Compute..

PySpark 로 빅데이터 분석하기 with Python 강의를 수강하며 정리한 내용입니다. 강의 수강 배경전에 데이터 엔지니어 교육 수강하며 진행한 프로젝트에서, Pyspark를 사용해 보았었는데 기억이 가물 + 좀 더 개념을 정립하고 싶어서 강의를 수강하게 되었다.강의를 수강하며 나름대로 정리하고 기록하며 내 것으로 만들자. Big Data 만약 로컬 컴퓨터에 램보다 더 큰 값을 지닌 데이터가 있을 경우, 어떻게 처리해야 할까?→ 방법 1. sql db를 활용해 스토리지를 램 대신 하드드라이브로 옮기거나→ 방법 2. 분산 시스템을 활용해 여러 기계와 컴퓨터로 데이터를 분배 ⇒ 여기서 스파크가 활용됨! 로컬 시스템과 분산 시스템의 비교 로컬 시스템과 분산 시스템의 비교로컬 시스템 : 단일 컴퓨터. 같은..