C.W.K.
Stream
Lesson 01 of 10 · published

프롬프트 전 eval — 거꾸로 work이 이김

~16 min · evaluation, process

Level 0수련생
0 XP0/100 lessons0/14 achievements
0/120 XP to next level120 XP to go0% complete

Prompt 전에 test 작성

Serious prompt work에 가장 강한 workflow: 프롬프트 작성 전에 representative input 20개와 expected output (또는 pass/fail criteria) 작성. 그러면 프롬프트가 eval 만족하는 뭔가 search. eval 없으면 너가 시도한 example에 pleasant해 보이는 거 위로 iterate.

eval set 모양

  • Input — 진짜 traffic에서 draw, 만든 거 X.
  • Pass criteria — 가능한 곳에 programmatic (must_contain, must_not_contain, schema match), 필요한 곳에 human-judged.
  • Coverage — happy path, edge case, hostile input, refusal case.
  • Stable identifier — 각 case가 id 가져서 version 사이로 track 가능.

왜 prompt-by-feel 이김

  • 프롬프트 done인지 알아 — eval pass할 때.
  • 'small tweak'이 뭔가 깰 때 regression catch.
  • eval이 프롬프트의 spec — 다음 사람 onboarding 쉬워.

Code

Eval-first prompt workflow·python
# 1. Write the eval
cases = [
    {"id": "happy-1", "input": "...", "must_contain": ["approved"]},
    {"id": "refund-1", "input": "...", "must_not_contain": ["approved"]},
    {"id": "empty",    "input": "",     "must_match_schema": EmptyError},
    # ...20 total
]

# 2. Iterate the prompt
while True:
    score = run_eval(cases, prompt)
    if score == len(cases): break
    prompt = improve(prompt, score.failures)

External links

Exercise

Ship하거나 update하려는 프롬프트 골라. 변경 전에 진짜 traffic에서 20개 eval case 작성. 현재 프롬프트 돌려. 실제 pass rate 메모.

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.