벤치마크 문해력 — MMLU에서 GPQA, HLE까지

각 벤치마크가 뭘 측정하는지, 어떤 게 아직 어려운지 알기는 hype와 유용한 비교의 차이. 프론티어는 빠르게 saturate — 2년 전 SOTA였던 숫자가 오늘은 종종 흥미롭지 않아.

벤치마크	테스트	상태 (2026)
MMLU	57과목 multiple choice	Saturated — 최상위 88-92%
HumanEval	Python 프로그래밍 문제 164개	Saturated — 최상위 95%+
GSM8K	초등 수학 문장제 8.5K	Saturated — 최상위 95%+
AIME 2024 / 2025	경쟁 수학 (USA 수학 올림피아드 예선)	Hard — 프론티어 80-95%
SWE-bench	실제 GitHub 이슈, agentic 패치	Hard — 프론티어 60-75%
GPQA	PhD급 과학 multiple choice	Hard — 프론티어 80-85%
HLE (Humanity's Last Exam)	가장 어려운 다도메인 공개 셋	Very hard — 프론티어 <30%
RULER	다양한 깊이에서 긴 컨텍스트 retrieval	긴 깊이에서 어려움

참고: Gemini 2.5 Pro AIME 2024 92%, GPQA 83%, SWE-bench 63%; Claude 3.7 Sonnet GPQA 84.8%; GPT-5 AIME 2025 94.6%, SWE-bench Verified 74.9%, thinking 모드에서 환각률 ~4.8%.

벤치마크 숫자 책임감 있게 읽기

벤치마크는 게임 가능해(테스트 셋 학습, 벤치마크 스타일 최적화). 프로토콜 없는 숫자는 거의 의미 없음. 봐야 할 것 — thinking 켜고 했나? temperature는? 테스트 셋이 오염됐나? 모델 학습 데이터가 답을 누설했나? 의심스러우면 본인 실제 용도에 가까운 task에서 자체 eval 돌려.

Code

Building your own eval harness·python

# A 30-line harness beats most marketing benchmark numbers
import json

def evaluate(model_fn, eval_set):
    results = []
    for item in eval_set:
        out = model_fn(item['prompt'])
        passed = grade(out, item['expected'])  # task-specific grader
        results.append({**item, 'output': out, 'passed': passed})
    return results

def grade(output, expected):
    # For multiple-choice: exact match.
    # For code: run the code, check tests pass.
    # For free-form: rubric (consistency, length, on-topic).
    # The grader IS your eval — make it match what you actually care about.
    return output.strip() == expected.strip()
# Run this nightly against your candidates. The 'best model'
# becomes a measurable, reproducible answer.

Exercise

본인 앱이 실제로 쓰는 세 카테고리 커버하는 30 prompt 평가 harness 구성(예: '지시 따르기', '구조화된 데이터 추출', '짧은 사실 답변'). 후보 모델 셋 실행. 결과를 각 모델이 광고하는 공개 벤치마크와 비교. 공개와 자체가 얼마나 상관 있나?

벤치마크 문해력 — MMLU에서 GPQA, HLE까지

벤치마크 숫자 책임감 있게 읽기

Code

External links

Exercise

Progress

댓글 0