Tool 은 바뀌어. Schema 는 drift 해. 모델은 업데이트해. Contract 가 drift 하면 fail 하는 test 가 없으면 — agent 는 누군가 알아채기 전 몇 주를 조용히 degrade 해. Tool contract test 는 사 둘 수 있는 가장 싼 보험이야.
세 모양으로 시작:
- Schema validity: 모든 tool 정의가 valid JSON Schema 이고, provider SDK 를 경고 없이 round-trip. 빠른 unit test 하나.
- Selection accuracy: prompt 와 호출돼야 할 tool 을 짝지은 fixture 파일. 작은 (싼) 모델로 각 prompt 돌리고, tool name 검사, pass/fail 율 보고. 모델 지능 측정 아니야 — 네 description 이 여전히 제대로 steering 하는지 측정하는 거야.
- Argument correctness: 더 작은 fixture 셋에 핵심 인자도 assert. 모델이 user 메시지에서
customer_id="C-9"를 잘 넘겼나? 날짜를 정확하게 format 했나? Argument test 가 description regression 을 잡아.
함정은 over-test. Tool call 사이의 모델 prose 의 정확한 단어를 assert 하지 마 — release 마다 의미 없이 drift 해. 구조 를 assert 해: 어느 tool, 어떤 인자, loop 종료 여부. Prose assertion 은 flake 인내하는 end-to-end test 에 남겨둬.
Tool description 이나 schema 가 바뀔 때 CI 에서 돌리고, provider 의 latest model 로 nightly 돌려. 모델 업그레이드가 selection 율을 조용히 바꾸는 걸 처음 잡았을 때 — 왜 이게 항상 진짜 카테고리의 test 였는지 이해하게 될 거야.",