'Data Engineering' 카테고리의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/08 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Tags more

Archives

Today

Total

관리 메뉴

목록Data Engineering (14)

데이터 노트

[Spark] Spark 설치 (Databricks 노트북) | PySpark 로 빅데이터 분석하기 - 2

PySpark 로 빅데이터 분석하기 with Python 강의를 수강하며 정리한 내용입니다.강의 촬영 시기랑 지금이랑 조금 UI적으로 바뀐 부분들이 있어서 찾아가면서 했다. (크게 다르지는 않음) Databricks의 노트북을 사용하기 위한 세팅 방법에 대해 알아보자. 대략적인 순서1. 계정 생성2. 클러스터 생성3. 노트북 생성4. Table 생성 상세 과정databricks.com/try-databricks 로 접속한다. 접속 후 계정 생성을 한다. (꼭 회사 계정일 필요는 없으므로, 개인 이메일로 작성해도 된다.)무료 버전으로 테스트 할 것이기 때문에, 커뮤니티 에디션으로 시작한다. (초록색 박스 부분 클릭)작업을 하기 위해 Cluster를 생성해준다. (New - Cluster 혹은 Compute..

Data Engineering/Spark 2024. 9. 24. 23:07

[Spark] Spark 간단 소개 | PySpark 로 빅데이터 분석하기 - 1

PySpark 로 빅데이터 분석하기 with Python 강의를 수강하며 정리한 내용입니다. 강의 수강 배경전에 데이터 엔지니어 교육 수강하며 진행한 프로젝트에서, Pyspark를 사용해 보았었는데 기억이 가물 + 좀 더 개념을 정립하고 싶어서 강의를 수강하게 되었다.강의를 수강하며 나름대로 정리하고 기록하며 내 것으로 만들자. Big Data 만약 로컬 컴퓨터에 램보다 더 큰 값을 지닌 데이터가 있을 경우, 어떻게 처리해야 할까?→ 방법 1. sql db를 활용해 스토리지를 램 대신 하드드라이브로 옮기거나→ 방법 2. 분산 시스템을 활용해 여러 기계와 컴퓨터로 데이터를 분배 ⇒ 여기서 스파크가 활용됨! 로컬 시스템과 분산 시스템의 비교 로컬 시스템과 분산 시스템의 비교로컬 시스템 : 단일 컴퓨터. 같은..

Data Engineering/Spark 2024. 9. 2. 23:02

[Kafka/모니터링] Prometheus에 Kafka JMX Exporter 연결하기(w. Docker compose)

개요Kafka 데이터를 모니터링 하기 위해, Exporter를 연결하여 Prometheus, Grafana 로 모니터링 대시보드를 구축하기 위해 테스트.Kafka Exporter, JMX Exporter 두 가지 수집기 중 JMX Exporter를 Prometheus와 연결하는 작업 시행착오 기록. 환경EC2 서버 내 DockerCompose를 통한 테스트.Kafka, Exporter, Prometheus, Grafana 하나의 서버 내에 같이 존재. 작업 내용Docker Compose Yaml 파일 생성services: grafana: image: "grafana/grafana:9.4.7" ports: - "13000:3000" environment: GF_SECU..

Data Engineering/Monitoring 2024. 8. 19. 22:52

[Airflow] 메타데이터베이스를 통한 dag 실행 이력 조회

작업 배경작업 보고를 위해 얼마나 dag의 수행이 성공적이었고, 속도 면에서 개선이 있었는지 등 판단하기 위해 이력 조회가 필요한 상황이 발생했고, 그래서 작업을 하기 위해 알아보게 되었다. 작업Dag별 수행 시간import psycopg2from psycopg2.extras import RealDictCursorimport csv# PostgreSQL(메타데이터베이스)에 연결conn = psycopg2.connect( dbname="airflow", user="{계정명}", password="{계정 비밀번호}", host="{서비스명}", # Docker Compose에서 정의된 서비스 이름 port="5432")# 커서를 생성cur = conn.cursor(cursor_f..

Data Engineering/Airflow 2024. 8. 15. 16:46

[Docker Compose] Kafka-Prometheus-Grafana 브로커/exporter 컨테이너 올라오지 않는 오류

문제 상황docker-compose.yml 파일을 생성했다.그리고 컨테이너를 올리는데 kafka 브로커 3개와 jmx-exporter 3개 다 안 올라왔다. 오류 찾기 & 해결 과정실패한 컨테이너 오류 확인먼저 브로커 컨테이너 로그를 확인했다.오류 내용 더보기===> Launching ... ===> Launching kafka ... Error: Could not find or load main class '-Xmx1G' Caused by: java.lang.ClassNotFoundException: '-Xmx1G'jmx-exporter 컨테이너 로그 확인.오류 내용 더보기Error: Could not find or load main class '-Xmx128m'오류 원인브로커 컨테이너 : KAFKA_..

Data Engineering/Docker 2024. 6. 5. 23:49

이전 Prev 1 2 3 Next 다음

목록Data Engineering (14)

데이터 노트

티스토리툴바