Tool이 context 오염 가능
20,000 line 반환하는 tool은 기술적으로 성공이고 운영적으로 해롭다. 모형이 그 blob을 미래 turn에 carry해야 — 거기서 actual task와 경쟁. Long session은 tool dump 누적해 모든 중요한 게 tar -tvf output에 묻혀.
Task-shaped tool result
좋은 tool은 task-shaped 관찰 반환 — 뭐 바뀌었나, 뭐 실패했나, 관련 line, count, path, 다음 제안 check. Raw output은 파일이나 log에, 필요할 때만 slice 로드. Summary는 evidence 보존 — line number, command, exit code — 전체 flood를 미래 turn 다 끌고 가지 말고.
Compact는 vague 아니야
Summary는 모형이 reason 가능하게. 'Tests failed' 너무 compact. '2 failing tests in auth/session.spec.ts at lines 42 (expected 401 got 200) and 88 (timeout)'이 맞는 density.
거대한 tool dump는 모든 미래 turn의 context 세금.