왜 데이터가 이기나
대부분 production 문제에서 bottleneck은 모델 architecture가 아냐. label 품질, label coverage, feature freshness, train-production 데이터 사이의 갭이 bottleneck이야. label에 일주일 쓰고 모델에 하루 쓰는 팀이, 보통 그 반대로 한 팀을 이겨.
leverage 큰 다섯 데이터 무브
- 판단 호출을 재현 가능한 rule로 바꾸는 labeling guide를 써.
- annotator 간 disagreement를 sampling 해서 팀이 다시 label 해.
- noise가 살 곳이 있도록 명시적 "모르겠음" / "애매함" label을 추가.
- label 품질을 모델 품질만큼 추적해.
- 모델링 전에 rare class와 edge case를 사람이 직접 봐.
Andrew Ng의 data-centric flip
data-centric AI 메시지는, 모델 코드 고정한 채 label을 개선하는 게 종종 모델 튜닝을 이긴다는 거야. 함의는 label review가 어시스턴트 작업이 아니라 엔지니어링 작업이고, 엔지니어 시간이 들어가야 한다는 거.