C.W.K.
Stream
Lesson 06 of 07 · published

Skill 테스팅과 iteration

~14 min · skills, testing, iteration, evaluation

Level 0🌱 입문자
0 XP0/70 lessons0/11 achievements
0/120 XP to next level120 XP to go0% complete

Skill 이 코드; 코드처럼 다뤄

Skill 이 동작 변경 — 조용히, test suite 에 안 보이는 방식으로. 방어: 작은 eval 하네스. input 폴더 + expected-output 스케치, 각자에 Skill run 하는 스크립트, diff eyeball. unit test X, regression eyeballing — 그리고 surprise 잡기에 충분.

eval run 할 4 모먼트: (1) Skill body 변경, (2) paths: 변경, (3) underlying 모델 업그레이드, (4) Skill 변경 머지 전. 이 중 어느 거 skip = blind tuning.

Code

An eval harness for one Skill·text
.claude/skills/security-audit/
├── SKILL.md
└── tests/
    ├── inputs/
    │   ├── safe-route.ts          ← shouldn't flag anything
    │   ├── sql-injection.ts       ← should flag CWE-89 high
    │   └── auth-bypass.ts         ← should flag CWE-287 high
    ├── expected/
    │   ├── safe-route.expected.md
    │   ├── sql-injection.expected.md
    │   └── auth-bypass.expected.md
    └── run.sh
tests/run.sh — run + diff each input·bash
#!/usr/bin/env bash
set -euo pipefail
cd "$(dirname "$0")"

for input in inputs/*.ts; do
  name=$(basename "$input" .ts)
  expected="expected/${name}.expected.md"
  actual=$(claude -p "/security-audit $input" \
    --output-format text --allowedTools "Read")
  echo "=== $name ==="
  diff <(echo "$actual") "$expected" || echo "DIFF"
done

External links

Exercise

Skill 1개 위해 3-input eval 하네스 빌드. expected output 한 번 캡처. 하네스 run, diff eyeball. 그 다음 Skill 작은 변경 + re-run. 뭐가 shift 했나 적어.

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.