첫 규칙: 내부 아니라 결과에 알림
나쁜 모니터링은 CPU spike 에 on-call 호출. 좋은 모니터링은 데이터가 틀리거나 늦었을 때 on-call 호출. 둘은 매우 달라. CPU 는 내부 증상이고 freshness + correctness 가 consumer 가 진짜 신경 쓰는 SLA.
모든 파이프라인이 emit 해야 하는 4가지 신호
- Freshness. 이 테이블 마지막 업데이트 언제? SLA ("매일 오전 9시") 와 비교. 임계 이상 오래되면 알림.
- Volume. 이번 run 에 row 몇 개 land 했어? 후행 7일 band (예: ±3σ) 밖이면 알림.
- Schema. Column 모양 바뀌었어? 검증 실패는 page; soft drift 는 warn.
- 분포. 값 shift 했어? Mean / median / null-rate / cardinality 를 지난주와 비교.
Escalation ladder
모든 신호가 page 아니야. 알림 튜닝:
- Page 깨진 contract 에: schema 변경, SLA 지난 데이터 missing, 검증 hard-fail.
- Slack 경고 신호에: row count band 밖, 분포 drift.
- 대시보드 모든 거에: 모든 run 의 metric, 시간 plot.