안에 실제로 들어있는 것
context window는 한 요청에서 모형이 사용할 수 있는 token 범위야. system prompt, 대화, 파일, 검색된 chunk, tool output, 그리고 지금 생성 중인 답변까지 다 여기에 들어가. model weight도 아니고, 디스크의 모든 파일도 아니고, 여태까지의 모든 대화도 아니야. 한 turn 단위의 운영 계약이지.
그래서 "전에 말했잖아"가 항상 통하지 않는다. 그 사실이 현재 window에 없고, retrieval로 들어오지도 않았고, durable memory에도 없으면 모형이 안정적으로 못 써. 진짜로 못 보는 거야 — 잊은 게 아니라 처음부터 가진 적이 없어.
숨은 절반 — output
window에는 답변 쓸 공간도 남아있어야 해. reasoning model은 보이지 않는 reasoning token도 같은 budget에서 깎아 써. input으로 끝까지 밀어넣으면 효율이 아니라 모형이 일을 끝낼 자리를 뺏는 거야.
들어가는 것 vs 안 들어가는 것
들어감: system prompt, 대화 turn 전부, tool/function call 결과, retrieval로 가져온 RAG chunk, 생성 중인 응답. 안 들어감: model weight, 다른 session, 아빠 터미널, 안 읽은 디스크 파일, 안 첨부한 브라우저 탭, 보내지 않은 metadata.
Context는 기억이 아니라 활성 작업대다. 작업대가 커도 올라간 재료가 틀렸거나 작업할 빈틈이 없으면 의미 없어.