Window는 계약이지 영혼이 아니야

안에 실제로 들어있는 것

context window는 한 요청에서 모형이 사용할 수 있는 token 범위야. system prompt, 대화, 파일, 검색된 chunk, tool output, 그리고 지금 생성 중인 답변까지 다 여기에 들어가. model weight도 아니고, 디스크의 모든 파일도 아니고, 여태까지의 모든 대화도 아니야. 한 turn 단위의 운영 계약이지.

그래서 "전에 말했잖아"가 항상 통하지 않는다. 그 사실이 현재 window에 없고, retrieval로 들어오지도 않았고, durable memory에도 없으면 모형이 안정적으로 못 써. 진짜로 못 보는 거야 — 잊은 게 아니라 처음부터 가진 적이 없어.

숨은 절반 — output

window에는 답변 쓸 공간도 남아있어야 해. reasoning model은 보이지 않는 reasoning token도 같은 budget에서 깎아 써. input으로 끝까지 밀어넣으면 효율이 아니라 모형이 일을 끝낼 자리를 뺏는 거야.

들어가는 것 vs 안 들어가는 것

들어감: system prompt, 대화 turn 전부, tool/function call 결과, retrieval로 가져온 RAG chunk, 생성 중인 응답. 안 들어감: model weight, 다른 session, 아빠 터미널, 안 읽은 디스크 파일, 안 첨부한 브라우저 탭, 보내지 않은 metadata.

Context는 기억이 아니라 활성 작업대다. 작업대가 커도 올라간 재료가 틀렸거나 작업할 빈틈이 없으면 의미 없어.

Code

활성 context 경계·text

Context window = system prompt
              + 대화 history (모든 turn)
              + retrieval로 가져온 docs (이번 요청에 로드된 RAG chunk)
              + tool/function 결과 (이번 요청에 반환된 것)
              + 생성 중인 output (+ 숨은 reasoning token)

NOT in window = model weights
              + 다른 session/chat
              + 안 읽은 디스크 파일
              + 사람만 알고 안 적은 사실

window는 요청 단위·python

# 매 API call마다 fresh window가 새로 잡힌다.
# 옛 turn이 보이는 건 client가 다시 보내주기 때문.
response = client.messages.create(
    model="claude-sonnet-4-7",
    max_tokens=4096,                # output 예약
    system=SYSTEM_PROMPT,           # input에 포함
    messages=conversation_history,  # 모든 옛 turn 다시 token 비용 발생
)
print(response.usage)  # input_tokens, output_tokens 둘 다 과금

Window는 계약이지 영혼이 아니야

안에 실제로 들어있는 것

숨은 절반 — output

들어가는 것 vs 안 들어가는 것

Code

External links

Exercise

Progress

댓글 0