C.W.K.
Stream
퀴즈 · 5 questions

🏆 Public Benchmark

Leaderboard 안 믿으면서 읽기

Level 0Guesser
0 XP0/55 lessons0/10 achievements
0/150 XP to next level150 XP to go0% complete

Quiz

01MMLU 가 주로 측정하는 건?
02Coding agent 에 SWE-bench-Verified 가 HumanEval 보다 의미 있는 이유?
03Chatbot Arena 가 fixed benchmark 보다 잘 측정하는 건?
04왜 public benchmark 가 ship 결정에 충분 X?
05Custom benchmark refresh 의 옳은 cadence 는?
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.