Production loop는 평범하게 실패해
tool은 timeout나고, API는 partial data를 주고, 모델은 맞는 tool에 틀린 argument를 넣고, loop는 step budget을 다 쓰고, context는 꽉 차서 제일 중요한 decision이 시야 밖으로 밀려난다. 이거 특별한 사고 아니야. 그냥 화요일이야.
진짜 single-agent loop는 failure를 exception dump가 아니라 structured observation으로 다룬다. 모델에게는 recovery할 만큼의 정보가 필요하고, operator에게는 debug할 만큼의 정보가 필요해.
Context budget은 safety budget이야
context window가 꽉 찰 때까지 밀어붙이지 마. margin이 사라지면 tool result, recovery, compaction, human handoff를 넣을 공간도 사라진다. 좋은 agent는 벽에 박기 전에 멈춘다.
낙관보다 recoverability
모든 tool result는 성공 여부, retry 가능성, 바뀐 state, 다음 safe action을 말해야 해. error는 type, message, retryability, compact trace id를 가져야 한다.