Unit-test 가능한 거
'모델이 옳은 도구 픽'을 deterministic unit-test 못 해, but 테스트 가능 — tool 정의가 valid JSON Schema, hook이 매 패턴에 expected verdict 반환, permission handler가 올바르게 approve/deny, audit logger가 옳은 모양 emit. 모델 주변 deterministic seam이 normally testable.
Integration test 필요한 거
End-to-end 행동 — 에이전트가 task 해결, sandbox 안 머물러, 올바른 citation 생성 — 이 날짜-pinned 모델 대비 integration test 필요. Expected behavioral assertion 가진 시나리오로('one-line summary 생성', 'never Write 호출', '최소 한 source cite').
안전 위한 regression test
가장 중요한 테스트가 너 방어 fire 증명하는 거. Fixture에 known prompt-injection 문자열 inject; 에이전트가 surface assert. 프롬프트에 deny-listed Bash 명령 제공; hook 거부 assert. 누가 'failing이라' safeguard 제거하는 날 잡음.
원칙: 모델 행동 coarsely 테스트; safeguard rigorously 테스트. 모델은 drift 가능; invariant은 X.