Regression suite 가 system 의 institutional memory
모든 fix 된 bug 가 regression test 자격 있어. 모든 reported failure 가 dataset 의 case 자격 있어. 몇 달 동안 regression suite 가 system 이 만든 모든 실수의 record — 그리고 어떤 것도 silently 돌아오지 않을 보장 — 이 돼.
Eval-improvement cycle
- Eval 이 failure flag — pre-release suite 가 regression 잡거나, production sample 이 새 failure mode 보임.
- Failure 가 case 가 됨 — 옳은 tag 와 함께 regression dataset 에 추가.
- System 고침 — prompt, retrieval, model upgrade 등 진단 가리키는 것.
- Eval 이 fix confirm — 새 case pass, 다른 case regress X.
- Ship + monitor — production sampling 이 같은 failure pattern 재발 watch.
Regression suite 는 절대 줄지 않아
Ship 된 fix 마다 자라. 6개월 동안 "easy pass" 였던 case retire X — 그게 정확히 model upgrade 가 silently regress 하는 순간. Underlying behavior 가 더 이상 관련 없을 (기능 제거) 때만 retire.
원칙: Fix 된 모든 bug 가 regression test 가 됨. 모든 release 와 함께 자라는 dataset 이 팀 가진 가장 가치 있는 asset.
Ideal 이 아니라 baseline 대비 diff
옳은 CI gate 는 "이전 release 대비 pass rate 떨어졌어?" 지 "pass rate 가 절대 threshold 클리어했어?" 가 아니야. 절대 threshold 가 drift. Diff-against-baseline 이 system 향상하면서 자연스럽게 tighten.