C.W.K.
Stream
Lesson 03 of 05 · published

Benchmark 회의적 읽기

~11 min · benchmarks, literacy, evaluation

Level 0Scout
0 XP0/41 lessons0/12 achievements
0/100 XP to next level100 XP to go0% complete

회의주의 stack

발표의 benchmark 숫자가 outright 거짓말 거의 없지만 거의 항상 favorable framing 최대화하기 위해 present. 아래는 읽는 모든 benchmark claim 에 적용할 회의주의 stack.

1. Cherry-picking

회사가 이긴 benchmark 보여주고 못 이긴 거 조용히 omit. Coding-focused 발표가 HumanEval skip 하면 정보. Math-focused 발표가 GSM8K skip 하면 정보. Omission 이 발표가 말하기 싫은 거 알려줘.

2. Benchmark contamination

Pretraining data 가 인터넷 crawl. 인터넷이 benchmark test set 포함. 많은 widely cited benchmark 가 frontier 모델에 부분 또는 fully memorize. Contamination 의 inflated score 가 진짜 capability gain 처럼 보이고 careful held-out evaluation 만 distinguish 가능.

3. Evaluation protocol 차이

Few-shot count (0-shot vs 5-shot vs CoT-prompted), prompt 포맷, 답 추출 방법 (regex vs structured output vs LLM-judge) — 작은 변화가 score 5–10% swing 가능. 같은 benchmark quote 하는 두 발표가 같은 protocol 안 쓰는 경우.

4. Saturation

MMLU, HellaSwag, ARC-Easy 가 거의 saturated — top 모델이 1–2% 안에 cluster, evaluation noise 안. "MMLU 1.5% gain" headline 무의미. 여전히 discriminate 하는 benchmark 봐 (Frontier Math, ARC-AGI, SWE-Bench Verified, GPQA, AIME).

5. Real test

모델이 너의 actual 워크로드에서 어떻게 수행? Published benchmark 어느 것도 이 substitute 안 해. 가장 cheap sanity check 가 모든 candidate 모델에 small custom eval (실제 use case 미러하는 10–50 예시) 실행. Half 의 시간 leaderboard 순서가 너의 데이터에서 reverse — 그리고 그게 중요한 유일한 순서.

Useful 3rd-party source

Latency, cost, basic capability evaluation 위해 Artificial Analysis 가 provider 가로질러 독립 benchmark 유지. Hugging Face 의 Open LLM Leaderboard 가 continuously 업데이트 ranking 가져. LMSYS Chatbot Arena 가 pairwise human preference 사용, single-axis cherry-picking 에 대부분보다 더 잘 저항. 어느 것도 자체 eval 대체 안 하지만 useful triangulation 점.

External links

Exercise

Specific benchmark 이김 headline 한 최근 모델 발표 골라. 발표가 안 보여주는 benchmark 적어도 둘 찾아. 그 benchmark 에 모델 score 찾아 (HF Leaderboard 또는 Artificial Analysis 가 종종 가짐). Framing 과 broader 그림 사이 어떤 gap 적어.

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.