Type drift 가 silent killer
어제 작동하던 파이프라인이 오늘 깨져, 코드 변경 없이 — upstream source 가 조용히 type 바꿔서. 흔한 패턴:
- 항상 숫자였던 ID column 이 string (
'12345') 으로 옴. - 날짜 column 의 포맷이
YYYY-MM-DD에서DD/MM/YYYY로 변경. - 이전엔 non-null 이었던 column 에 null 시작.
- 일반 텍스트였던 자유 텍스트 필드가 JSON 포함 시작.
- 통화 필드가 "123.45" 에서 "$123.45" 또는 "123,45" 로.
두 단계 방어
- 게이트에서. Schema 검증 (Pandera/GX) 이 drift 일어난 그 날 — downstream consumer 보기 전에 — 잡음.
- At rest. 이번 run profile 을 지난주와 비교하는 스케줄 "profile diff" — 특정 제약에 검증 안 작성됐어도 drift 를 경고로 surface.