네 가지 평가 접근법
1. Perplexity
모델이 테스트 데이터에 얼마나 놀라는지. 낮을수록 좋음. 학습 중 sanity check에 좋지만 작업 품질엔 못 알려줘.
2. 작업 특화 메트릭
Accuracy, F1, BLEU, ROUGE — 작업에 따라. 분류 → accuracy. 요약 → ROUGE. 생성 품질 → 사람 선호율.
3. LLM-as-judge
강한 모델(GPT-4o, Claude)로 출력 평가. 많은 작업에서 놀랍게 안정적이고 사람 평가보다 훨씬 싸.
4. 사람 평가
골드 스탠다드. 도메인 전문가가 관련 차원(정확도, 유용성, 안전, 스타일)에서 출력 평가. 비싸지만 high-stakes use case엔 대체 불가.
결합 평가 전략
네 가지 다 섞어 —
- Perplexity는 학습 시점 모니터링.
- 자동 메트릭은 빠른 반복.
- LLM-as-judge는 모델 버전 비교.
- 사람 평가는 배포 전 최종 검증.