C.W.K.
Stream
Lesson 08 of 10 · published

Context compression — 필요 없는 거 요약

~14 min · context, compression, cost

Level 0수련생
0 XP0/100 lessons0/14 achievements
0/120 XP to next level120 XP to go0% complete

모든 거 보내는 것보다 요약하는 게 싸

문서가 50k 토큰인데 답에는 conclusion만 필요하면 — 문서 한 번 offline 요약, summary 저장, query 시 summary 보내. user가 같은 답을 5% 토큰으로 받아. 비싼 부분 — 50k 토큰 읽기 — 한 번 일어나.

compression 두 패턴

  • Static compression — ingest 시 summary 생성. chunk와 summary 둘 다 embed; summary 먼저 retrieve, 필요할 때만 chunk drill.
  • Dynamic compression — query 시 긴 chunk를 비싼 모델 가기 전에 cheap 모델로 다시 써. chat history compaction에 유용.

fidelity tradeoff

Compressed context는 정보 잃어. Summary는 interpretation, original text 아니야. 정확한 quote 필요한 task (legal, audit, citation)에 summary는 insufficient — original 가용 유지, 둘러싼 context만 compress. gist 충분한 task (intent classification, routing)에 summary가 net win.

Code

ingest 시 static compression·python
def summarize(chunk: str) -> str:
    return client.messages.create(
        model="claude-haiku-4-5",  # cheap, fast
        max_tokens=128,
        messages=[{"role": "user",
                    "content": f"Summarize in 2 sentences:\n{chunk}"}],
    ).content[0].text

for doc in docs:
    for chunk in chunk_doc(doc):
        index.upsert(
            id=chunk.id,
            text=chunk.text,
            summary=summarize(chunk.text),  # used in low-cost retrieval pass
        )

External links

Exercise

어떤 문서는 reference (거의 verbatim quote 안 함), 어떤 건 evidence (자주 quote)인 corpus 골라. reference doc에 static summary 만들어. cost와 quality 변화 측정.

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.