📏

Eval Quest

최근 수정: 2026-05-04

AI system 에서 정말 중요한 걸 측정

Prompt, model, RAG, tool, agent, safety, production AI workflow 의 evaluation practice 만들기 — vibe 검사에서 ship 하는 측정 규율로.

8 tracks · 55 lessons · ~32h · difficulty: beginner-to-advanced

Level 0Guesser

0 XP0/55 lessons0/10 achievements

0/150 XP to next level150 XP to go0% complete

Eval Quest 는 prompt craft 에서 측정 가능한 AI engineering 으로의 다리야. Vibe 검사의 실패에서 시작해서 dataset 과 grader 의 design, framework 과 benchmark 의 선택, system 과 agent 의 평가, evaluation 을 시간 따라 honest 로 유지하는 운영 practice 까지 걸어가. Chatbot, RAG pipeline, coding agent, 내부 도구 ship 하든 — Eval Quest 가 각 변경이 더 낫게 했는지 더 나쁘게 했는지 추측 아니라 알기 위한 규율 줘.

Tracks

01🎯왜 eval이 중요한가
0/9 lessons
vibe 기반 검사에서 재현 가능한 증거로
'느낌상 괜찮네'에서 '이 동작을 보호하는 측정이 여기 있다'로의 사고 전환. 이후 모든 트랙은 이 규율이 박혔다고 전제하고 시작해.
Lesson list (9)
퀴즈 · 5 문제→
02🗃️Dataset 과 Golden Case
0/7 lessons
Dataset 은 이후 모든 evaluation 의 천장
실제 workload 를 대표하는 input 을 curate 해. grader, framework, judge 가 아무리 좋아도 잘못된 데이터 위 eval suite 는 못 살려.
Lesson list (7)
퀴즈 · 5 문제→
03📊Deterministic Metric
0/6 lessons
먼저 돌려야 할 싸고 빠르고 재현 가능한 측정
Exact match, BLEU, ROUGE, BERTScore, regex, format check, composite. 비싼 LLM judge 부르기 전에 다 써먹어야 할 metric 들이야.
Lesson list (6)
퀴즈 · 5 문제→
04⚖️LLM-as-Judge
0/7 lessons
AI 로 AI 평가 — 힘과 함정
Deterministic grader 가 닿지 못하는 질문에 LLM judge 가 닿아. 하지만 judge 는 편향, 비용, calibration 문제 있어. 이 트랙은 judge 에 휘둘리지 않으면서 휘두르는 법.
Lesson list (7)
퀴즈 · 5 문제→
05🔧Framework 와 Platform
0/7 lessons
promptfoo, DeepEval, Braintrust, lm-eval-harness, RAGAS, Inspect AI
Production 에서 실제로 쓸 도구들. 각각 sweet spot 있어 — brand 가 아니라 일에 맞춰 골라.
Lesson list (7)
퀴즈 · 5 문제→
06🏆Public Benchmark
0/7 lessons
Leaderboard 안 믿으면서 읽기
MMLU, HumanEval, GSM8K, HellaSwag, Chatbot Arena, MTEB, ARC-AGI. 각각 뭘 측정하고, 언제 거짓말하고, model 선택에 어떻게 — product eval 과 헷갈리지 않고 — 쓰는지.
Lesson list (7)
퀴즈 · 5 문제→
07🔬System 과 Agent Eval
0/6 lessons
Single call 이 아니라 composition 평가
RAG, agent, chatbot, code assistant, A/B production test, regression suite. 실제 system 은 pipeline; 그 eval 도 그래야.
Lesson list (6)
퀴즈 · 5 문제→
08🛡️Safety 와 Operations
0/6 lessons
Red teaming, calibration, cost-quality, eval culture 만들기
Evaluation 이 회사 나머지 — 보안, reliability, 비용 규율 — 와 만나는 곳, 그리고 다 stick 하게 하는 팀 practice.
Lesson list (6)
퀴즈 · 5 문제→

이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

🔔 답글 알림 (로그인 필요)

로그인 — 댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.

Tracks

01🎯왜 eval이 중요한가

02🗃️Dataset 과 Golden Case

03📊Deterministic Metric

04⚖️LLM-as-Judge

05🔧Framework 와 Platform

06🏆Public Benchmark

07🔬System 과 Agent Eval

08🛡️Safety 와 Operations