Prompt 전에 test 작성
Serious prompt work에 가장 강한 workflow: 프롬프트 작성 전에 representative input 20개와 expected output (또는 pass/fail criteria) 작성. 그러면 프롬프트가 eval 만족하는 뭔가 search. eval 없으면 너가 시도한 example에 pleasant해 보이는 거 위로 iterate.
eval set 모양
- Input — 진짜 traffic에서 draw, 만든 거 X.
- Pass criteria — 가능한 곳에 programmatic (must_contain, must_not_contain, schema match), 필요한 곳에 human-judged.
- Coverage — happy path, edge case, hostile input, refusal case.
- Stable identifier — 각 case가 id 가져서 version 사이로 track 가능.
왜 prompt-by-feel 이김
- 프롬프트 done인지 알아 — eval pass할 때.
- 'small tweak'이 뭔가 깰 때 regression catch.
- eval이 프롬프트의 spec — 다음 사람 onboarding 쉬워.