Log 없는 budget은 연극
token 사용량, cache hit, truncation, compaction event, output 길이 안 log하면 추측하는 거야. 좋은 context operation은 지루할 만큼 측정 가능해. session당 token 지출을 처음 graph로 그려보면 생각보다 5배 비싼 워크플로 적어도 하나는 발견한다.
최소 telemetry 계약
모든 long run은 input token, output token, cached token, model id, request latency, checkpoint/compaction 발생 여부 기록해야 해. 그 데이터가 trim/cache/split/handoff 시점을 — 전체 session 다시 안 돌리고 — 알려준다.
Telemetry는 작업 옆에 살아야
agent에겐 context metric이 인프라 trivia가 아니야. task 절반에서 quality가 바뀐 이유를 설명한다. long session 망가졌을 때 처음 볼 곳은 chat history가 아니라 token graph야.