Transform 이 로직 사는 곳
Extract 가 byte 를 끌어오고, load 가 쓰고, transform 이 본인 팀이 존재하는 이유의 로직이 앉는 곳. 규율은 모든 transformation 을 명시적, 명명된, 테스트 가능하게 만드는 거 — 200줄 짜리 notebook cell 에 묻혀있지 않게.
Transform 의 네 종류
- 청소 — type 고치기, 날짜 파싱, null 처리, string 정규화.
- Derive — 기존 컬럼에서 새 컬럼 계산 (
amount_local = amount_usd * fx_rate). - Join — 테이블 결합.
- Reshape — pivot, unpivot, group-then-aggregate.
DataFrame 받아서 DataFrame 반환하는 작은 명명 함수로 빌드해. raw.pipe(clean).pipe(derive).pipe(join_customers).pipe(reshape) 인 파이프라인이 contract 처럼 읽히고; do_everything(raw) 의 200 줄 inline 연산은 안 그래.