일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- grafana
- airflow
- 루프백주소
- aiagent
- RAG
- amazonlinux
- spark
- SQL
- BigQuery
- javascript
- Dag
- Python
- ubuntu
- MSA
- airflow설치
- hadoop
- Streamlit
- docker
- Redshift
- vectorDB
- sparkstreaming
- pySpark
- 오블완
- dockercompose
- kafka
- jmx-exporter
- metadabatase
- 설치
- prometheus
- milvus
- Today
- Total
목록airflow (4)
데이터 노트
작업 배경작업 보고를 위해 얼마나 dag의 수행이 성공적이었고, 속도 면에서 개선이 있었는지 등 판단하기 위해 이력 조회가 필요한 상황이 발생했고, 그래서 작업을 하기 위해 알아보게 되었다. 작업Dag별 수행 시간import psycopg2from psycopg2.extras import RealDictCursorimport csv# PostgreSQL(메타데이터베이스)에 연결conn = psycopg2.connect( dbname="airflow", user="{계정명}", password="{계정 비밀번호}", host="{서비스명}", # Docker Compose에서 정의된 서비스 이름 port="5432")# 커서를 생성cur = conn.cursor(cursor_f..

사용할 Airflow 버전 : 2.6.0실행 환경 : Mac 설치1. docker-compose.yaml 파일 다운로드curl -LfO 'https://airflow.apache.org/docs/apache-airflow/2.6.0/docker-compose.yaml' 포함된 내용은 엄청 길어서 그 중 확인이 필요한 서비스 목록 및 내용만 확인해보았다.airflow-scheduler : 모든 task와 DAG를 모니터링airflow-webserver : 에어플로우 웹 서버. http://localhost:8080airflow-worker : 스케줄러로부터 부여된 테스크들을 실행하기 위한 워커airflow-init : 서비스 이니셜라이제이션postgres(DB) : 데이터 베이스redis : 스케줄러에서..
Redshift 상에 구축한 프로시저를 자동화하기 위해 Airflow에 DAG, Task를 생성하였으나,제대로 작동되지 않고 데이터가 들어가지 않았다. 그런데 Airflow 상에서는 제대로 task가 실행되었다고 뜨고,별도의 오류가 없어서 다같이 트러블슈팅을 하였다. 결과론적으로는 시간대 설정의 문제였다.airflow 상에서는 한국 시간대 KST로 설정하여 프로시저가 작동하도록 설정해두었는데,redshift 상에서는 프로시저에서 기간 값 설정을 위해 Declare 문에서 선언한 변수의 시간을 current_date로 설정한 것이 문제였다.-- 기존 프로시저 내 설정DECLARE date_from date:= (current_date -7)::date; date_to date:= (current_da..

오류 상황작성한 Dag 파일이 Airflow Web UI 상에서 인식 되지 않음. 해결 과정 및 방법현재 인식이 되지 않는 Dag 파일은 baljoo_dag.py 1. logs/dag_processor_manager에서 확인2. Dag를 잘 인식하고 있는지 명령어로 확인 -> baljoo 없음3. Dag의 Task를 잘 인식하고 있는지 명령어로 확인 -> 인식 되고 있지 않음4. 명령어로 Dag 파일 실행시켜보기python baljoo_dag.py# 결과airflow/dags/baljoo_dag.py:21 RemovedInAirflow3Warning: Param `schedule_interval` is deprecated and will be removed in a future release. Pleas..