Eval이 test받는 system이랑 같은 hygiene 받을 자격
Eval은 software야. Version, dependency, 자체 test (judge calibration), lifecycle 가져. Application 코드랑 같은 engineering discipline으로 다뤄.
실용적 hygiene
- Eval script가 prompt 옆 source control에.
- Golden set version (semantic version 또는 date).
- Single command (
pytest evals/) 또는 dedicated runner (Promptfoo, Langfuse)로 돌려. - Report가 queryable form (dashboard, sheet, internal app)에 persist.
- Eval failure를 test failure처럼 triage — flake, real regression, 또는 eval bug.
Cultural piece
팀에서 한 사람만 eval 돌릴 수 있으면 eval fragile. Boring하게 easy하게 만들어. 보상은 prompt iteration이 vibe-driven 대신 data-driven 돼.