Data 도 build artifact
서비스가 dataset (학습 데이터, RAG corpus, knowledge base) 에 의존하면 data 는 ship 되는 것의 일부야. 코드처럼 CI 에서 검증.
뭘 검사
- Schema — 모든 row 가 기대 컬럼 / 필드 + 기대 타입.
- Cardinality — row 수가 기대 범위 (조용한 데이터 손실 없음).
- Null / 완전성 — 필수 필드 채워짐.
- 분포 — baseline 대비 기본 통계 (평균, 레이블 균형) 큰 이동 없음.
- PII / 민감 데이터 — 누출된 이메일, 전화번호, API 키 없음.
- 인코딩 / 형식 — UTF-8, CSV 에 BOM 없음, 줄 끝 혼합 없음.
도구
- Great Expectations — 선언형 expectation, 전체 리포트.
- Pandera — Python decorator 로 schema 검증.
- dbt test — SQL 기반 pipeline 용.
- 커스텀 pytest — 작은 dataset 용.