Eval 클래스 셋
필요 — unit eval(단일 프롬프트 → expected 패턴), integration eval(full tool 루프 → expected 행동), quality eval(LLM-as-judge나 held-out set의 human spot-check). 하나라도 skip하면 그 클래스의 regression 빠짐.
모델·프롬프트 핀
Eval 스위트가 measurement 도구. 모델 id 날짜 핀, 프롬프트 git 체크인, 데이터셋 버저닝 필수. 이거 없으면 스위트 drift, 'eval 향상' 무의미해짐.
매 프롬프트 변경에 run
프롬프트를 코드처럼 다뤄 — 변경이 PR 통과, eval 스위트 CI에서 run, regression이 merge 막음. cwk-site가 콘텐츠 생성 프롬프트에 이 패턴 사용; cwkPippa가 페르소나 시스템 프롬프트에. 규율이 변경 안전하게 keep하는 거.
원칙: 프롬프트 git에 있고 eval 없으면 프롬프트 진짜 버저닝 안 된 거. 둘 다 버전, 둘 다 gate.