Common-sense 와 truthfulness, 두 narrow 하지만 useful benchmark
HellaSwag (Zellers 2019) — common-sense completion
Model 이 짧은 passage 의 가장 plausible 한 continuation 고르는 10,000 multiple-choice 질문. 각 질문에 4 ending; 셋은 adversarial distractor. Common-sense world knowledge — 인간이 당연시하는 종류 — test.
MMLU 처럼 HellaSwag 는 이제 frontier model 에 saturated (90%+). Sanity-check baseline 으로 유용; discriminator 아님.
TruthfulQA (Lin 2021) — known-misconception probe
흔한 false belief 끌어내려 design 된 817 질문 ("유리 물체가 공기 노출되면 깨져?", "손가락 마디 꺾으면 어떻게 돼?"). Benchmark 가 model 이 training data 의 widely-believed-but-wrong 답을 parrot 하는지, 또는 정확하게 "no, 그건 myth" 라고 말하는지 측정.
두 scoring mode: MC1 (single best 답) 과 MC2 (여러 답 rank). Frontier model 이 여전히 어려움 — TruthfulQA score 가 60-75% 범위, saturation 잘 아래.
원칙: HellaSwag 는 common-sense, TruthfulQA 는 외워진 misconception 에 대한 저항. 둘 다 narrow probe — 둘 다 product quality 로 일반화 X.
2026 에 어떻게 읽나
- HellaSwag — 2026 model 이 88% 아래 score 면 뭔가 잘못. 위는 uninformative.
- TruthfulQA — 여전히 differentiating. 65% 에서 75% 로 향상하는 model 이 의미 있음. Truthfulness 중요할 때 (medical, legal, factual QA) 추적할 만.