Agent는 distribution으로 test한다
tool, parser, schema, permission check에는 전통적인 unit test가 여전히 중요해. 하지만 agent behavior는 non-deterministic이니까 dataset eval, trace grading, adversarial case, human correction metric도 필요하다.
Security는 대부분 boundary 문제야
Prompt injection은 또 다른 prompt 하나로 해결되지 않아. external text는 authority가 아니라 data로 취급해. trusted instruction과 untrusted content를 분리하고, dangerous tool은 executor policy와 human review 뒤에 둬. trace에서 secret은 redact하되 debug할 구조는 남겨.
Blast radius로 deploy해
draft-writing agent는 sync로 돌고 rollback이 쉬워도 돼. deployment agent는 background execution, approval interrupt, resumable state, cancellation, audit log, staged rollout이 필요해. 같은 model family라도 product boundary가 다르다.