replay할 수 없으면 개선할 수도 없어
Agent observability는 console log보다 훨씬 넓어. model call, tool call, input, output, cost, latency, approval, error, stop reason의 trace가 필요하다. 그리고 실패를 eval case로 바꾸는 길도 있어야 해.
evaluation이 loop를 닫는다. production failure는 golden test, grader, regression suite, prompt/tool change로 승격돼야 한다.
decision path를 trace해
agent가 왜 tool을 골랐는지, tool이 뭘 돌려줬는지, 어떤 state가 바뀌었는지, human approval이나 guardrail이 run에 영향을 줬는지 기록해. secret은 redaction하되 debug할 구조는 남겨야 한다.
현재 OpenAI Agents 문서는 trace를 model call, tool call, handoff, guardrail, custom span의 structured record로 설명해. trace grading은 final answer만 보는 대신 decision path 자체를 평가하게 해준다.
non-deterministic system은 heroic demo 하나가 아니라 dataset 위에서 평가해. task completion, accuracy, tool efficiency, cost, latency, human correction rate를 추적한다.