일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- javascript
- sparkstreaming
- airflow설치
- metadabatase
- prometheus
- kafka
- aiagent
- RAG
- SQL
- dockercompose
- 루프백주소
- 오블완
- hadoop
- grafana
- jmx-exporter
- ubuntu
- amazonlinux
- pySpark
- Streamlit
- airflow
- Dag
- BigQuery
- MSA
- 설치
- vectorDB
- Redshift
- spark
- docker
- Python
- milvus
- Today
- Total
목록spark (4)
데이터 노트

자세한 코드 정보는 Github에!https://github.com/JHYUNN-LEE/2025-side-MyParkingSpot GitHub - JHYUNN-LEE/2025-side-MyParkingSpot: 서울시 실시간 주차장 현황 대시보드서울시 실시간 주차장 현황 대시보드. Contribute to JHYUNN-LEE/2025-side-MyParkingSpot development by creating an account on GitHub.github.com 개요이전에 실시간 주차장 현황을 보여주는 것에서 발전 시켜서, Spark Streaming으로 실시간 데이터를 집계해서 보여주는 탭을 만들었다.Kafka → Spark Streaming → PostgreSQL → Streamlit 시각화 흐..

자세한 코드 정보는 Github에!https://github.com/JHYUNN-LEE/2025-side-MyParkingSpot GitHub - JHYUNN-LEE/2025-side-MyParkingSpot: 서울시 실시간 주차장 현황 대시보드서울시 실시간 주차장 현황 대시보드. Contribute to JHYUNN-LEE/2025-side-MyParkingSpot development by creating an account on GitHub.github.com개요실시간 데이터 처리를 경험해보고자 했고, 데이터는 실생활에 조금 밀접한 것을 찾고자 했다.그래서 찾게 된 실시간 주차장 현황 정보 데이터.물론 서울시에서 여러 기업과 합작하여 더 다양한 실시간 자료를 보여주는 사이트가 운영 중이지만나는 주차..

PySpark 로 빅데이터 분석하기 with Python 강의를 수강하며 정리한 내용입니다.강의 촬영 시기랑 지금이랑 조금 UI적으로 바뀐 부분들이 있어서 찾아가면서 했다. (크게 다르지는 않음) Databricks의 노트북을 사용하기 위한 세팅 방법에 대해 알아보자. 대략적인 순서1. 계정 생성2. 클러스터 생성3. 노트북 생성4. Table 생성 상세 과정databricks.com/try-databricks 로 접속한다. 접속 후 계정 생성을 한다. (꼭 회사 계정일 필요는 없으므로, 개인 이메일로 작성해도 된다.)무료 버전으로 테스트 할 것이기 때문에, 커뮤니티 에디션으로 시작한다. (초록색 박스 부분 클릭)작업을 하기 위해 Cluster를 생성해준다. (New - Cluster 혹은 Compute..

PySpark 로 빅데이터 분석하기 with Python 강의를 수강하며 정리한 내용입니다. 강의 수강 배경전에 데이터 엔지니어 교육 수강하며 진행한 프로젝트에서, Pyspark를 사용해 보았었는데 기억이 가물 + 좀 더 개념을 정립하고 싶어서 강의를 수강하게 되었다.강의를 수강하며 나름대로 정리하고 기록하며 내 것으로 만들자. Big Data 만약 로컬 컴퓨터에 램보다 더 큰 값을 지닌 데이터가 있을 경우, 어떻게 처리해야 할까?→ 방법 1. sql db를 활용해 스토리지를 램 대신 하드드라이브로 옮기거나→ 방법 2. 분산 시스템을 활용해 여러 기계와 컴퓨터로 데이터를 분배 ⇒ 여기서 스파크가 활용됨! 로컬 시스템과 분산 시스템의 비교 로컬 시스템과 분산 시스템의 비교로컬 시스템 : 단일 컴퓨터. 같은..