각 벤치마크가 뭘 측정하는지, 어떤 게 아직 어려운지 알기는 hype와 유용한 비교의 차이. 프론티어는 빠르게 saturate — 2년 전 SOTA였던 숫자가 오늘은 종종 흥미롭지 않아.
| 벤치마크 | 테스트 | 상태 (2026) |
|---|---|---|
| MMLU | 57과목 multiple choice | Saturated — 최상위 88-92% |
| HumanEval | Python 프로그래밍 문제 164개 | Saturated — 최상위 95%+ |
| GSM8K | 초등 수학 문장제 8.5K | Saturated — 최상위 95%+ |
| AIME 2024 / 2025 | 경쟁 수학 (USA 수학 올림피아드 예선) | Hard — 프론티어 80-95% |
| SWE-bench | 실제 GitHub 이슈, agentic 패치 | Hard — 프론티어 60-75% |
| GPQA | PhD급 과학 multiple choice | Hard — 프론티어 80-85% |
| HLE (Humanity's Last Exam) | 가장 어려운 다도메인 공개 셋 | Very hard — 프론티어 <30% |
| RULER | 다양한 깊이에서 긴 컨텍스트 retrieval | 긴 깊이에서 어려움 |
참고: Gemini 2.5 Pro AIME 2024 92%, GPQA 83%, SWE-bench 63%; Claude 3.7 Sonnet GPQA 84.8%; GPT-5 AIME 2025 94.6%, SWE-bench Verified 74.9%, thinking 모드에서 환각률 ~4.8%.
벤치마크 숫자 책임감 있게 읽기
벤치마크는 게임 가능해(테스트 셋 학습, 벤치마크 스타일 최적화). 프로토콜 없는 숫자는 거의 의미 없음. 봐야 할 것 — thinking 켜고 했나? temperature는? 테스트 셋이 오염됐나? 모델 학습 데이터가 답을 누설했나? 의심스러우면 본인 실제 용도에 가까운 task에서 자체 eval 돌려.