Eval set이 stale 돼
2025에 build된 golden set이 2026 traffic representative 안 일 수 있어. Category shift, language 변화, user base grew, policy update. 옛 set에 95% score하는 prompt이 실제 current traffic에 measurably worse 가능.
Drift signal
- Prompt 변경 없이 시간 따라 golden set의 pass rate 위로 drift (모델이 어제 질문 답하기 더 좋아짐).
- Eval pass rate stable한데 production complaint rate rise.
- Eval set에 represent 안 된 새 intent가 production에 출현.
- Reference output stale (policy 변경; "correct" 답이 이제 다름).
Maintenance routine
- 분기마다: production case 100개 sample, 분류, eval set distribution이랑 비교.
- 새 intent에서 case 추가.
- 더 representative 안 한 case retire.
- 현재성에 reference output 재 review.