모든 거 보내는 것보다 요약하는 게 싸
문서가 50k 토큰인데 답에는 conclusion만 필요하면 — 문서 한 번 offline 요약, summary 저장, query 시 summary 보내. user가 같은 답을 5% 토큰으로 받아. 비싼 부분 — 50k 토큰 읽기 — 한 번 일어나.
compression 두 패턴
- Static compression — ingest 시 summary 생성. chunk와 summary 둘 다 embed; summary 먼저 retrieve, 필요할 때만 chunk drill.
- Dynamic compression — query 시 긴 chunk를 비싼 모델 가기 전에 cheap 모델로 다시 써. chat history compaction에 유용.
fidelity tradeoff
Compressed context는 정보 잃어. Summary는 interpretation, original text 아니야. 정확한 quote 필요한 task (legal, audit, citation)에 summary는 insufficient — original 가용 유지, 둘러싼 context만 compress. gist 충분한 task (intent classification, routing)에 summary가 net win.