퀴즈 · 5 questions
🏆 Public Benchmark
Leaderboard 안 믿으면서 읽기
Level 0Guesser
0 XP0/55 lessons0/10 achievements
0/150 XP to next level150 XP to go0% complete
Quiz
01MMLU 가 주로 측정하는 건?
02Coding agent 에 SWE-bench-Verified 가 HumanEval 보다 의미 있는 이유?
03Chatbot Arena 가 fixed benchmark 보다 잘 측정하는 건?
04왜 public benchmark 가 ship 결정에 충분 X?
05Custom benchmark refresh 의 옳은 cadence 는?
댓글 0
🔔 답글 알림 (로그인 필요)로그인 — 댓글을 남기려면 로그인해 주세요.
아직 댓글이 없어요. 첫 댓글을 남겨보세요.