'backfill' 태그의 글 목록

backfill

airflow에서 backfill 실행 2024.01.03
backfill과 airflow 2024.01.02

airflow에서 backfill 실행

데이터왕 2024. 1. 3. 17:19

2024. 1. 3. 17:19

backfill을 할수 있는 조건

모든 dag가 backfill을 필요로 하지 않는다.(full refresh는 필요없음)
일별 시간별 업데이트 할때만 backfill이 필요하다.
데이터 소스에 그날 바뀌거나 새로생긴 레코드를 구분할수 있는 기능이 있어야함
데이터 크기가 커지면 backfill 기능을 필수적으로 구현

daily incremental dag에서 2018년 7월달 데이터를 다시 읽어와야 한다면

하루씩 지금까지 실행?
한번에 여러 날짜를 동시에 실행 , max_active_runs
예상되는 문제
1) 데이터를 요구받는 소스측에서 감당못해 속도를 줄일수 있음
2) 동시 실행시 충돌이 날수도 있음
backfill 실행전 준비사항
1) catchup=True
2) execution_date 사용해서 incremental update가 구현돼있음.
실행순서
1) 실행순서는 날짜/시간순 아니고 랜덤.
2) 날짜순으로 하고 싶으면
커맨드라인에서 실행
airflow dags backfill dag_id -s 2018-07-01 -e 2018-08-01

'airflow(에어플로우)' 카테고리의 다른 글

airflow 실행 환경 관리 (0)	2024.01.04
Airflow에서 _mysql is not defined 에러 (0)	2024.01.03
[airflow 실습] mysql 테이블 redshift로 복사하기 (0)	2024.01.03
No module named MySQLdb 에러 (0)	2024.01.03
airflow에서 primary key 방법2 (0)	2024.01.03

backfill과 airflow

데이터왕 2024. 1. 2. 23:49

2024. 1. 2. 23:49

incremental update가 실패하면?

full refresh를 할때는 새로 지우고 새로만들어서 실패하지 않는다.(backfill 할 필요가없음)
따라서 데이터가 너무 크지 않는 이상은 full refresh를 하는게 좋다.
incremental update 시는 backfill의 문제가 생긴다. 그래서 운영/유지보수의 난이도가 올라간다.

backfill

backfill의 정의 : 실패한 데이터 파이프라인을 재실행 하는경우 or 읽어온 데이터가 문제있어 다시 읽어와야하는 경우
즉 재실행이 얼마나 용이한 구조인지가 중요한데, 그게 잘 디자인된 툴이 airflow이다.
방법 1 backfill 단순하게 하면 어떻게 될까?

1) dag가 이렇게 있다고 가정
from datetime import datetime, timedelta
# 지금 시간 기준으로 어제 날짜를 계산
y = datetime.now() - timedelta(1)
yesterday = datetime.strftime(y, '%Y-%m-%d')

# yesterday에 해당하는 데이터를 소스에서 읽어옴
# 예를 들어 프로덕션 DB의 특정 테이블에서 읽어온다면
sql = f"SELECT * FROM table WHERE DATE(ts) = '{yesterday}'"

2) 기존 변수를 지우고, 날짜를 특정날짜( '2023-01-01') 로 하드코딩
from datetime import datetime, timedelta
yesterday = '2023-01-01'
# yesterday에 해당하는 데이터를 소스에서 읽어옴
# 예를 들어 프로덕션 DB의 특정 테이블에서 읽어온다면
sql = f"SELECT * FROM table WHERE DATE(ts) = '{yesterday}'"

3) 문제점 : 코드를 다시 고쳐줘야하고, 날짜 잘못입력가능, 사람이 실수를 할수있는 포인트가 많음
방법 2 airflow를 이용
1) dag 별로 실행날짜와 결과를 메타데이터 데이터베이스에 기록
2) 모든 dag 실행에는 "execution_date"이 지정돼있음
+ execution_date으로 채워야하는 날짜와 시간이 넘어옴
+ execution_date는 실패한 날짜의 데이터 수집 시작 날짜
3) 이를 바탕으로 데이터를 갱신하게 코드를 작성한다.
4) backfill이 쉬워진다.

start_date와 execution_date

start_date는 (dag)시작되는 날짜임 =데이터수집 시작날짜
execution_date는 (Task Instance) 시작되는 날짜

'airflow(에어플로우)' 카테고리의 다른 글

No module named MySQLdb 에러 (0)	2024.01.03
airflow에서 primary key 방법2 (0)	2024.01.03
데이터 웨어하우스에서 primary key (0)	2024.01.02
airflow dag(기후정보) 실습 (0)	2024.01.02
airflow dag(나라정보) 실습 (0)	2024.01.02

PREV 이전 1 NEXT 다음

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

세상의 모든 데이터

backfill

airflow에서 backfill 실행

'airflow(에어플로우)' 카테고리의 다른 글

backfill과 airflow

'airflow(에어플로우)' 카테고리의 다른 글

+ Recent posts

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역