Profile 안 한 거 검증 못 해
Schema 검증은 데이터 모양 진짜 알 때 가장 유용해. Profiling — 요약 통계, 분포, 결측 패턴, 상관관계, 이상치 만드는 자동화된 탐색 분석 — 이 좋은 검증을 가능하게 하는 upstream 활동. 먼저 profile, 그리고 본 거 기반으로 schema 작성.
Profiling 의 두 풍미
- 수동 / 빠른 —
df.describe(),df.info(),df.isna().mean(),df['col'].value_counts(dropna=False). 일상의 근육 기억. - 자동 리포트 —
ydata-profiling(구pandas-profiling) 이 type 탐지, 분포, 상관, 결측 패턴, 경고 있는 인터랙티브 HTML 리포트 생성. 데이터 안 본 동료에게 profile 넘기기 유용.