이 track 전체를 묶는 패턴
Eval gate 는 deploy pipeline 의 job — 후보 버전에 대해 eval suite 실행하고 합의된 metric 이 regression 하면 승격 거부.
모양
- 후보 빌드 (모델 checkpoint, prompt 세트, 코드).
- 후보에 대해 eval. 현재 production baseline 과 비교.
- 후보 ≥ baseline (허용 내): 승격, deploy.
- 후보 < baseline: deploy 실패. Diff (어떤 prompt 가 regression) PR 이나 deploy 실패에 표시.
왜 어려운가
- Baseline drift — 언제 baseline 업데이트? 단조 개선엔 매 성공 deploy 마다 자동 업데이트 OK; 동작 변경은 사람 승인 필요.
- 점수 noise — Eval 점수는 분산. 1% 하락은 noise 일 수 있음. 허용 밴드 정의.
- 비용 — 매 PR 의 full eval 비쌈. PR 엔 smoke gate, main merge 엔 full gate.
- Slice regression — 전체 점수 평평할 수 있지만 한국어 입력이 8% 저하. Slice metric 이 잡음.
약속
Eval gate 는 누군가 'just 이 한 케이스 동작' 을 위해 prompt tweak 할 때 gate 가 뭘 깼는지 알려줌. Production 에 더 이상 조용한 regression 없음.