C.W.K.
Stream
Lesson 06 of 07 · published

MTEB, ARC-AGI, Modern Frontier Benchmark

~18 min · benchmarks, mteb, arc-agi, embeddings

Level 0Guesser
0 XP0/55 lessons0/10 achievements
0/150 XP to next level150 XP to go0% complete

알 만한 specialized 와 frontier benchmark

MTEB — Massive Text Embedding Benchmark

MTEB (Muennighoff 2023) 는 embedding model 의 de-facto benchmark. 56+ task 를 retrieval, classification, clustering, semantic similarity, reranking 에 걸쳐. Retrieval 위 embedding model 고르면 MTEB 가 첫 reference.

MTEB 에서 읽을 거:

  • Retrieval sub-leaderboard — RAG 에 가장 관련.
  • Reranking — cross-encoder reranker 쓰면 관련.
  • Multilingual variant (MIRACL, MMTEB) — 비영어 production.

ARC-AGI (Chollet 2019, ARC-AGI-2 in 2025)

각 task 에 input/output example 몇 개와 hold-out test input 있는 abstract-pattern visual puzzle. Memorization 저항 위해 specifically design — 모든 test 항목이 novel. Frontier model 이 2023 5-15% score; 2025 광범위한 test-time compute 로 50-87% 도달. 여전히 일반 지능의 의미 있는 frontier challenge 로 간주.

BIG-Bench Hard

BIG-Bench (Google 2022) 는 200+ 다양한 task bundle. BIG-Bench Hard 는 가장 어려운 23. 익숙치 않은 문제 type 에 걸친 model range stress-test 에 유용.

FrontierMath

Research-mathematician 수준 문제. Memorization 불가능하게 design (문제가 professional mathematician 이 만들고 비밀 유지). 2025 frontier model 이 <10% score, reasoning 의 unsaturated benchmark 중 몇 안 되는.

원칙: Public benchmark 가 saturate 하면 field 가 더 어려운 거 발명. 2026 evaluation 의 "옳은" benchmark 는 아직 안 깨진 frontier-relevant benchmark 야.

Code

MTEB — embedding model 고르기·python
# pip install mteb
import mteb
from sentence_transformers import SentenceTransformer

model = SentenceTransformer("intfloat/e5-large-v2")
tasks = mteb.get_tasks(task_types=["Retrieval"], languages=["eng"])
results = mteb.MTEB(tasks=tasks).run(model, output_folder="results/mteb")

# Each retrieval task reports nDCG@10. Average gives a single comparison number.
# Pick the best model for the retrieval pattern that matches your corpus.

External links

Exercise

MTEB leaderboard 에서 candidate embedding model top 3 골라. 100-query in-domain test set 만들어. 각 model 에 nDCG@10 계산. In-domain test 우승 model 이 보통 MTEB overall 우승 model 과 달라.

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.