C.W.K.
Stream
← C.W.K. Quests
📏

Eval Quest

최근 수정: 2026-05-04

AI system 에서 정말 중요한 걸 측정

Prompt, model, RAG, tool, agent, safety, production AI workflow 의 evaluation practice 만들기 — vibe 검사에서 ship 하는 측정 규율로.

8 tracks · 55 lessons · ~32h · difficulty: beginner-to-advanced

Level 0Guesser
0 XP0/55 lessons0/10 achievements
0/150 XP to next level150 XP to go0% complete
Eval Quest 는 prompt craft 에서 측정 가능한 AI engineering 으로의 다리야. Vibe 검사의 실패에서 시작해서 dataset 과 grader 의 design, framework 과 benchmark 의 선택, system 과 agent 의 평가, evaluation 을 시간 따라 honest 로 유지하는 운영 practice 까지 걸어가. Chatbot, RAG pipeline, coding agent, 내부 도구 ship 하든 — Eval Quest 가 각 변경이 더 낫게 했는지 더 나쁘게 했는지 추측 아니라 알기 위한 규율 줘.

Tracks

  1. 01🎯왜 eval이 중요한가

    0/9 lessons

    vibe 기반 검사에서 재현 가능한 증거로

    '느낌상 괜찮네'에서 '이 동작을 보호하는 측정이 여기 있다'로의 사고 전환. 이후 모든 트랙은 이 규율이 박혔다고 전제하고 시작해.

    Lesson list (9)퀴즈 · 5 문제
  2. 02🗃️Dataset 과 Golden Case

    0/7 lessons

    Dataset 은 이후 모든 evaluation 의 천장

    실제 workload 를 대표하는 input 을 curate 해. grader, framework, judge 가 아무리 좋아도 잘못된 데이터 위 eval suite 는 못 살려.

    Lesson list (7)퀴즈 · 5 문제
  3. 03📊Deterministic Metric

    0/6 lessons

    먼저 돌려야 할 싸고 빠르고 재현 가능한 측정

    Exact match, BLEU, ROUGE, BERTScore, regex, format check, composite. 비싼 LLM judge 부르기 전에 다 써먹어야 할 metric 들이야.

    Lesson list (6)퀴즈 · 5 문제
  4. 04⚖️LLM-as-Judge

    0/7 lessons

    AI 로 AI 평가 — 힘과 함정

    Deterministic grader 가 닿지 못하는 질문에 LLM judge 가 닿아. 하지만 judge 는 편향, 비용, calibration 문제 있어. 이 트랙은 judge 에 휘둘리지 않으면서 휘두르는 법.

    Lesson list (7)퀴즈 · 5 문제
  5. 05🔧Framework 와 Platform

    0/7 lessons

    promptfoo, DeepEval, Braintrust, lm-eval-harness, RAGAS, Inspect AI

    Production 에서 실제로 쓸 도구들. 각각 sweet spot 있어 — brand 가 아니라 일에 맞춰 골라.

    Lesson list (7)퀴즈 · 5 문제
  6. 06🏆Public Benchmark

    0/7 lessons

    Leaderboard 안 믿으면서 읽기

    MMLU, HumanEval, GSM8K, HellaSwag, Chatbot Arena, MTEB, ARC-AGI. 각각 뭘 측정하고, 언제 거짓말하고, model 선택에 어떻게 — product eval 과 헷갈리지 않고 — 쓰는지.

    Lesson list (7)퀴즈 · 5 문제
  7. 07🔬System 과 Agent Eval

    0/6 lessons

    Single call 이 아니라 composition 평가

    RAG, agent, chatbot, code assistant, A/B production test, regression suite. 실제 system 은 pipeline; 그 eval 도 그래야.

    Lesson list (6)퀴즈 · 5 문제
  8. 08🛡️Safety 와 Operations

    0/6 lessons

    Red teaming, calibration, cost-quality, eval culture 만들기

    Evaluation 이 회사 나머지 — 보안, reliability, 비용 규율 — 와 만나는 곳, 그리고 다 stick 하게 하는 팀 practice.

    Lesson list (6)퀴즈 · 5 문제
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.