모델링 전에 봐
training 전에 pandas에서 보낸 1분이 10배로 갚아. tabular EDA 목표는 예쁜 노트북이 아냐 — 모델 안에 숨어버릴 surprise를 미리 발견하는 거야: 비대칭 분포, sentinel 값, 잘못 라벨된 카테고리, time gap, 중복 key, signal 대부분을 담은 소수 row.
가장 먼저 체크할 10가지
- row 수와 unique-key 수.
- column별 null 비율.
- 모든 categorical의 cardinality.
- 모든 numeric의 요약 (min, p25, median, p75, max).
- 숫자인 척하는 sentinel 값 (-1, 999, 9999).
- target의 class balance.
- timestamp가 있다면 time range와 gap.
- 중복 row.
- target의 outlier.
- target과의 상위 상관관계 (linear and rank).
의심의 법칙
한 feature 혼자 너무 predictive 해 보이면, leakage일 가능성 커. target이 너무 깨끗하면, downstream 시스템이 이미 curate 한 거. 축하 전에 의심부터 해.