C.W.K.
Stream
Lesson 02 of 05 · published

Observability와 Evaluation

~32 min · observability, evals

Level 0Observer
0 XP0/40 lessons0/12 achievements
0/100 XP to next level100 XP to go0% complete

replay할 수 없으면 개선할 수도 없어

Agent observability는 console log보다 훨씬 넓어. model call, tool call, input, output, cost, latency, approval, error, stop reason의 trace가 필요하다. 그리고 실패를 eval case로 바꾸는 길도 있어야 해.

evaluation이 loop를 닫는다. production failure는 golden test, grader, regression suite, prompt/tool change로 승격돼야 한다.

decision path를 trace해

agent가 왜 tool을 골랐는지, tool이 뭘 돌려줬는지, 어떤 state가 바뀌었는지, human approval이나 guardrail이 run에 영향을 줬는지 기록해. secret은 redaction하되 debug할 구조는 남겨야 한다.

현재 OpenAI Agents 문서는 trace를 model call, tool call, handoff, guardrail, custom span의 structured record로 설명해. trace grading은 final answer만 보는 대신 decision path 자체를 평가하게 해준다.

non-deterministic system은 heroic demo 하나가 아니라 dataset 위에서 평가해. task completion, accuracy, tool efficiency, cost, latency, human correction rate를 추적한다.

Code

Trace event·json
{"run_id":"run_42","agent":"support_triage","event":"tool_call","tool":"web_search","args_redacted":{"query":"current docs"},"latency_ms":840,"cost_usd":0.002,"approval":"not_required","guardrail":"passed","ok":true,"next_decision":"read top official source"}

External links

Exercise

배포할 수도 있는 agent용 eval metric 다섯 개를 설계해봐. cost metric과 human-correction metric을 하나씩 포함해.
Hint
behavior가 개선/퇴보하면 metric도 움직여야 해.

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.