회의주의 stack
발표의 benchmark 숫자가 outright 거짓말 거의 없지만 거의 항상 favorable framing 최대화하기 위해 present. 아래는 읽는 모든 benchmark claim 에 적용할 회의주의 stack.
1. Cherry-picking
회사가 이긴 benchmark 보여주고 못 이긴 거 조용히 omit. Coding-focused 발표가 HumanEval skip 하면 정보. Math-focused 발표가 GSM8K skip 하면 정보. Omission 이 발표가 말하기 싫은 거 알려줘.
2. Benchmark contamination
Pretraining data 가 인터넷 crawl. 인터넷이 benchmark test set 포함. 많은 widely cited benchmark 가 frontier 모델에 부분 또는 fully memorize. Contamination 의 inflated score 가 진짜 capability gain 처럼 보이고 careful held-out evaluation 만 distinguish 가능.
3. Evaluation protocol 차이
Few-shot count (0-shot vs 5-shot vs CoT-prompted), prompt 포맷, 답 추출 방법 (regex vs structured output vs LLM-judge) — 작은 변화가 score 5–10% swing 가능. 같은 benchmark quote 하는 두 발표가 같은 protocol 안 쓰는 경우.
4. Saturation
MMLU, HellaSwag, ARC-Easy 가 거의 saturated — top 모델이 1–2% 안에 cluster, evaluation noise 안. "MMLU 1.5% gain" headline 무의미. 여전히 discriminate 하는 benchmark 봐 (Frontier Math, ARC-AGI, SWE-Bench Verified, GPQA, AIME).
5. Real test
모델이 너의 actual 워크로드에서 어떻게 수행? Published benchmark 어느 것도 이 substitute 안 해. 가장 cheap sanity check 가 모든 candidate 모델에 small custom eval (실제 use case 미러하는 10–50 예시) 실행. Half 의 시간 leaderboard 순서가 너의 데이터에서 reverse — 그리고 그게 중요한 유일한 순서.
Useful 3rd-party source
Latency, cost, basic capability evaluation 위해 Artificial Analysis 가 provider 가로질러 독립 benchmark 유지. Hugging Face 의 Open LLM Leaderboard 가 continuously 업데이트 ranking 가져. LMSYS Chatbot Arena 가 pairwise human preference 사용, single-axis cherry-picking 에 대부분보다 더 잘 저항. 어느 것도 자체 eval 대체 안 하지만 useful triangulation 점.