Curated, collected 아님
Golden set은 known-correct output 박힌 hand-curated example. 너의 traffic의 가장 작고 carefully 고른 subset, 모든 변경 validate에 사용. 대부분 프롬프트엔 50 case 충분; high-stakes system은 200–500.
Construction
- Source — intent / category로 stratify해서 진짜 traffic sample.
- Reference output — 너의 best human reviewer나 current best 모델이 produce.
- Annotation — 왜 이 output이 correct; 대안 correct output은 어떻게 생겼나.
- Versioning — golden set이 evolve; version tag, build된 version에 새 prompt 돌려.
Maintenance
- production이 새 failure mode surface하면 새 case 추가.
- underlying behavior가 deprecated되면 case retire.
- 매년 reference output review — 작년 correct가 지금 wrong일 수 있어.
- representativeness audit — set이 traffic distribution 여전히 match?