컨텍스트 윈도우 함의

컨텍스트 윈도우는 모델이 한 요청에서 처리할 수 있는 최대 토큰 수. 함의가 앱 설계, 비용, latency, 아키텍처에 cascade.

컨텍스트	텍스트 등가	유용한 용도
4K	~3,000단어 / 6페이지	짧은 대화, 단순 도구
32K	~24,000단어 / 48페이지	긴 문서, 집중적 코드 리뷰
128K	~96,000단어 / 200페이지	책, 큰 코드베이스
1M	~750,000단어 / 1,500페이지	전체 저장소, 장문 연구
10M	~7.5M단어	문서 corpus 전체, LLaMA 4 Scout

Trade-off들

비용. 토큰당 API 가격은 긴 prompt가 비례적으로 더 비싸다는 뜻. $1.25/1M에서 1M 토큰 prompt는 입력 읽는 데만 $1.25.
Latency. Prefill(prompt 처리)는 컨텍스트 길이에 선형 + 연산 바인딩. 70B 모델의 128K prefill은 출력 시작 전 몇 초 걸려.
KV-cache 메모리. 컨텍스트 길이에 선형. 128K에선 30+ GB 가능.
깊이에서 품질. 모델은 "lost in the middle" 효과 — 깊이 50K 정보가 깊이 1K 정보만큼 안정적으로 검색 안 될 수 있어, 둘 다 광고된 컨텍스트 윈도우 안에 있어도.

안 쓸 컨텍스트에 돈 내지 마. RAG(retrieval-augmented generation)가 종종 모든 문서를 긴 컨텍스트 모델에 욱여넣는 거 이겨 — 비용에서도, 깊이에서의 품질에서도.

Code

Cost estimator: long context vs RAG·python

# Hypothesis: 'just send the whole 200-page doc' vs 'retrieve top 5 chunks of 1000 tokens.'
def cost(input_tokens, output_tokens, in_per_1m, out_per_1m):
    return input_tokens / 1e6 * in_per_1m + output_tokens / 1e6 * out_per_1m

# 200-page doc ≈ 100K tokens
long_ctx  = cost(100_000, 500, 1.25, 10.00)    # Gemini 2.5 Pro
rag_5x1k  = cost(5_000, 500, 1.25, 10.00)
print(f"Long context: ${long_ctx:.4f},  RAG: ${rag_5x1k:.4f}")
# RAG is ~20× cheaper per query. Often the better default.

Trade-off들

Code

External links

Exercise

Progress

댓글 0