C.W.K.
Stream
Lesson 06 of 12 · published

벤치마크 문해력 — MMLU에서 GPQA, HLE까지

~12 min · benchmarks, evaluation

Level 0Token
0 XP0/94 lessons0/10 achievements
0/120 XP to next level120 XP to go0% complete

각 벤치마크가 뭘 측정하는지, 어떤 게 아직 어려운지 알기는 hype와 유용한 비교의 차이. 프론티어는 빠르게 saturate — 2년 전 SOTA였던 숫자가 오늘은 종종 흥미롭지 않아.

벤치마크테스트상태 (2026)
MMLU57과목 multiple choiceSaturated — 최상위 88-92%
HumanEvalPython 프로그래밍 문제 164개Saturated — 최상위 95%+
GSM8K초등 수학 문장제 8.5KSaturated — 최상위 95%+
AIME 2024 / 2025경쟁 수학 (USA 수학 올림피아드 예선)Hard — 프론티어 80-95%
SWE-bench실제 GitHub 이슈, agentic 패치Hard — 프론티어 60-75%
GPQAPhD급 과학 multiple choiceHard — 프론티어 80-85%
HLE (Humanity's Last Exam)가장 어려운 다도메인 공개 셋Very hard — 프론티어 <30%
RULER다양한 깊이에서 긴 컨텍스트 retrieval긴 깊이에서 어려움

참고: Gemini 2.5 Pro AIME 2024 92%, GPQA 83%, SWE-bench 63%; Claude 3.7 Sonnet GPQA 84.8%; GPT-5 AIME 2025 94.6%, SWE-bench Verified 74.9%, thinking 모드에서 환각률 ~4.8%.

벤치마크 숫자 책임감 있게 읽기

벤치마크는 게임 가능해(테스트 셋 학습, 벤치마크 스타일 최적화). 프로토콜 없는 숫자는 거의 의미 없음. 봐야 할 것 — thinking 켜고 했나? temperature는? 테스트 셋이 오염됐나? 모델 학습 데이터가 답을 누설했나? 의심스러우면 본인 실제 용도에 가까운 task에서 자체 eval 돌려.

Code

Building your own eval harness·python
# A 30-line harness beats most marketing benchmark numbers
import json

def evaluate(model_fn, eval_set):
    results = []
    for item in eval_set:
        out = model_fn(item['prompt'])
        passed = grade(out, item['expected'])  # task-specific grader
        results.append({**item, 'output': out, 'passed': passed})
    return results

def grade(output, expected):
    # For multiple-choice: exact match.
    # For code: run the code, check tests pass.
    # For free-form: rubric (consistency, length, on-topic).
    # The grader IS your eval — make it match what you actually care about.
    return output.strip() == expected.strip()
# Run this nightly against your candidates. The 'best model'
# becomes a measurable, reproducible answer.

External links

Exercise

본인 앱이 실제로 쓰는 세 카테고리 커버하는 30 prompt 평가 harness 구성(예: '지시 따르기', '구조화된 데이터 추출', '짧은 사실 답변'). 후보 모델 셋 실행. 결과를 각 모델이 광고하는 공개 벤치마크와 비교. 공개와 자체가 얼마나 상관 있나?

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.