모델은 비결정적; test 도 그래야
로컬 학습 / fine-tune 모델은 test 문제가 prompt regression 과 달라. '이 prompt 가 옳은 shape 생산하는가' 가 아냐 — '모델이 hold-out 평가 세트에서 regression 했는가'.
표준 model test
- Held-out 정확도 — 동결 test 세트에서 점수.
- Latency / throughput — 요청당 추론 예산.
- 출력 형식 — 모델이 합의된 schema 여전히 생산?
- Slice metric — 하위 그룹 정확도 (한국어 입력, edge-case 토큰, 긴 context).
- Drift — 최근 traffic 샘플 점수 분포, baseline 대비.
CI 모양
Model test 는 보통 GPU runner + 모델 weight 필요. 세 옵션:
- Self-hosted GPU runner — 매 PR 에 full eval.
- Hosted cloud GPU (Modal, RunPod) — eval 당 과금, 0 으로 스케일.
- CPU-only smoke + 예약 GPU full eval — 저렴한 중간.
ML 에 macOS runner 쓰지 마. Linux 의 10× 비용 + GPU 사용 불가.