컨텍스트 윈도우는 모델이 한 요청에서 처리할 수 있는 최대 토큰 수. 함의가 앱 설계, 비용, latency, 아키텍처에 cascade.
| 컨텍스트 | 텍스트 등가 | 유용한 용도 |
|---|---|---|
| 4K | ~3,000단어 / 6페이지 | 짧은 대화, 단순 도구 |
| 32K | ~24,000단어 / 48페이지 | 긴 문서, 집중적 코드 리뷰 |
| 128K | ~96,000단어 / 200페이지 | 책, 큰 코드베이스 |
| 1M | ~750,000단어 / 1,500페이지 | 전체 저장소, 장문 연구 |
| 10M | ~7.5M단어 | 문서 corpus 전체, LLaMA 4 Scout |
Trade-off들
- 비용. 토큰당 API 가격은 긴 prompt가 비례적으로 더 비싸다는 뜻. $1.25/1M에서 1M 토큰 prompt는 입력 읽는 데만 $1.25.
- Latency. Prefill(prompt 처리)는 컨텍스트 길이에 선형 + 연산 바인딩. 70B 모델의 128K prefill은 출력 시작 전 몇 초 걸려.
- KV-cache 메모리. 컨텍스트 길이에 선형. 128K에선 30+ GB 가능.
- 깊이에서 품질. 모델은 "lost in the middle" 효과 — 깊이 50K 정보가 깊이 1K 정보만큼 안정적으로 검색 안 될 수 있어, 둘 다 광고된 컨텍스트 윈도우 안에 있어도.
안 쓸 컨텍스트에 돈 내지 마. RAG(retrieval-augmented generation)가 종종 모든 문서를 긴 컨텍스트 모델에 욱여넣는 거 이겨 — 비용에서도, 깊이에서의 품질에서도.