error가 가장 싼 데이터
Error analysis가 모델이 뭘 틀리는지 자세히, 직접 눈으로 보는 디시플린. 고전 ML에서 가장 leverage 높은 활동이 매 training run 후 50개 error sample하고 failure mode로 tag. 대부분 팀이 건너뛰고, 안 건너뛰는 팀이 안정적으로 ship 해.
재사용 가능한 triage tag set
- Bad label — ground truth 자체가 틀림.
- Hard ambiguous — senior reviewer도 양쪽 다 볼 수 있음.
- Missing feature — 모델이 필요한 feature가 dataset에 없음.
- Distribution shift — example이 training data 같지 않음.
- Genuine model error — 모델이 normal example에 그냥 실수.
follow-through
각 tag가 다른 fix를 가리킴. Bad label은 labeling으로 돌려보냄. Missing feature는 work ticket. Distribution shift는 coverage check 트리거. "Genuine model error"만 더 모델 튜닝 정당화. error tag가 몇 달 무익한 hyperparameter search 방지.