C.W.K.
Stream
Lesson 05 of 10 · published

Prompt regression test

~12 min · evaluation, regression

Level 0수련생
0 XP0/100 lessons0/14 achievements
0/120 XP to next level120 XP to go0% complete

Prompt CI

Prompt이 source control에 살면 eval suite가 모든 변경에 CI로 돌아야. Merge gate가 "새 prompt가 golden set에서 regress 안 해". 없으면 prompt이 sprint 사이로 drift, quality 변화가 user complain 전까지 invisible.

enforce할 것

  • Golden set의 pass rate ≥ baseline.
  • Per-category pass rate (refund, complaint 등)이 X% 이상 regress X.
  • Call당 cost가 sign-off 없이 Y% 이상 increase X.
  • Latency p95가 Z% 이상 regress X.

이게 바꾸는 것

  • Prompt PR이 description에 eval 결과 포함.
  • Failure가 reviewer한테 visible, buried X.
  • Golden set이 팀의 quality 공유 정의.

Code

Prompt merge gating GitHub Action·yaml
name: prompt-eval
on: pull_request
jobs:
  eval:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4
      - uses: actions/setup-python@v5
      - run: pip install -e .
      - run: python scripts/run_eval.py --golden-set goldens/v3.jsonl --gate

External links

Exercise

모든 prompt 변경에 golden-set eval 돌리는 CI job 추가. regression에 merge block. baseline document.

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.