대화가 context보다 커져
1M-토큰 window에서도 매우 긴 대화는 결국 "full" 느낌 — attention degrade, cost 오름, latency suffer. Compaction은 옛 turn을 summary로 교체해서 active context lean하게 유지하는 deliberate process.
3가지 compaction 전략
- Sliding window — 마지막 N turn verbatim 유지; 이전 drop. Cheap; context 잃음.
- Summary buffer — 옛 turn을 running summary로 교체. gist 유지; verbatim 잃음.
- Hybrid — pinned system + 옛 거 summary + 마지막 N turn verbatim. Serious system의 default.
verbatim 유지할 것
- 현재 task와 intermediate 결과.
- active loop의 tool call.
- user가 방금 reference한 거 ("as you said earlier").
요약할 것
- Resolved sub-task.
- 다시 quote 안 될 background context.
- 더 이상 relevant 안 한 tool 결과.