compute하기 easy한 metric은 rarely 중요한 metric
BLEU, ROUGE, exact-match accuracy — pre-LLM NLP 시대 metric이었어, cheap이라. meaning, helpfulness, downstream impact를 poorly capture. 중요한 metric은 task-success: user가 온 거 accomplish했나?
Metric quality tier
- Cheap proxy — schema validity, length, required field presence. Necessary지만 insufficient.
- Local correctness — 답이 reference match / 맞는 source cite? 더 좋음.
- Task success — downstream system / user가 goal accomplish했나? Best.
- Business outcome — 이 prompt 변경이 retention / NPS / time-to-resolution 움직였나? 가장 어렵고, 가장 느리고, 가장 가치.
여러 tier 사용
CI에 cheap proxy. golden-set eval에 local correctness. staged rollout에 task success. 큰 investment에 business outcome. 한 숫자로 compress 시도 X; 다른 질문 답해.