Skill 이 코드; 코드처럼 다뤄
Skill 이 동작 변경 — 조용히, test suite 에 안 보이는 방식으로. 방어: 작은 eval 하네스. input 폴더 + expected-output 스케치, 각자에 Skill run 하는 스크립트, diff eyeball. unit test X, regression eyeballing — 그리고 surprise 잡기에 충분.
eval run 할 4 모먼트: (1) Skill body 변경, (2) paths: 변경, (3) underlying 모델 업그레이드, (4) Skill 변경 머지 전. 이 중 어느 거 skip = blind tuning.