Diversity 가 size 이기지만 size 도 충분히 필요해
'case 몇 개 필요해?' 는 잘못된 질문이야. 옳은 질문은: '우리 case 가 신경 쓰는 모든 동작을 충분한 sample 로 대표해, 신경 쓰는 regression 을 감지할 만큼?'
통계적 floor
binary pass/fail metric 에서 95% confidence 로 5% pass-rate 변화 감지하려면 대략 400 case 필요. 10% 변화 감지하려면 ~100. case 20개만 있으면 suite 가 진짜 regression 과 noise 구분 못 해 — 평균이 10pp 움직여도.
Diversity 차원
- Topic / domain — coding, medical, legal, casual chat 모두 다른 실패 mode.
- Difficulty — easy, medium, hard, edge. easy case 만 있는 suite 는 중요한 regression 숨겨.
- Length — 짧은 input 과 긴 input 은 다른 model 동작 trigger. 항상 둘 다 포함.
- Language / locale — 적어도 top 3 user 언어 sample.
- User intent — informational, navigational, transactional, exploratory.
- Time — 여러 날에 걸쳐 sample. Monday-only sample 은 weekend traffic 놓쳐.
원칙: 10개 차원 고르게 cover 하는 100-case dataset 이 다 똑같이 생긴 1,000-case dataset 보다 더 많이 알려줘.
Imbalance 가 거짓말해
dataset 80% 가 'easy English chitchat' 이면 평균 pass rate 가 그걸 reflect 하고 나머지 20% regression 숨겨. 항상 aggregate 옆에 per-tag pass rate report 해. aggregate 는 exec 용, per-tag breakdown 은 engineer 용.