두 옛 metric, 조심히 쓰면 여전히 관련
BLEU 와 ROUGE 는 2000년대 초 machine translation 과 summarization 용으로 발명됐어. 불완전하고, 자주 비판받지만, 여전히 만들어진 좁은 task 에 유용해: reference output 있고, 빠르고 free, 언어 무관 similarity score 원할 때.
BLEU — 번역용
BLEU (Bilingual Evaluation Understudy) 는 candidate output 과 하나 이상의 reference 사이 n-gram overlap 을 측정, 의심스럽게 짧은 output discourage 위한 brevity penalty 와 함께. Score 는 0-1 (또는 일부 라이브러리에서 0-100). 0.3 은 괜찮음, 0.5 는 좋음, 0.7+ 는 실제 번역 task 에서 드물어.
ROUGE — 요약용
ROUGE (Recall-Oriented Understudy for Gisting Evaluation) 는 summarization 자매. ROUGE-N 은 n-gram overlap, ROUGE-L 은 longest common subsequence, ROUGE-W 는 연속 match 에 weight. 더 높은 recall = candidate 가 reference 더 많이 cover.
원칙: BLEU 와 ROUGE 는 surface overlap 측정, 의미 X. Reference 와 단어 공유하는 output 보상. 같은 걸 다르게 말하는 창의적 paraphrase 처벌.
쓰면 안 되는 곳
- Open-ended generation (창작, brainstorming) — 많은 valid output, 어떤 single reference 와도 낮은 overlap.
- Code generation — 다른 코드가 functionally 동일하면서 lexically 거리 멀 수 있음.
- Dialogue — 좋은 답이 reference 와 단어 0개 공유 가능.
- Surface form 보다 의미가 더 중요한 모든 것. BERTScore 또는 LLM judge 써.