C.W.K.
Stream
Lesson 05 of 12 · published

컨텍스트 윈도우 함의

~10 min · context-window, long-context

Level 0Token
0 XP0/94 lessons0/10 achievements
0/120 XP to next level120 XP to go0% complete

컨텍스트 윈도우는 모델이 한 요청에서 처리할 수 있는 최대 토큰 수. 함의가 앱 설계, 비용, latency, 아키텍처에 cascade.

컨텍스트텍스트 등가유용한 용도
4K~3,000단어 / 6페이지짧은 대화, 단순 도구
32K~24,000단어 / 48페이지긴 문서, 집중적 코드 리뷰
128K~96,000단어 / 200페이지책, 큰 코드베이스
1M~750,000단어 / 1,500페이지전체 저장소, 장문 연구
10M~7.5M단어문서 corpus 전체, LLaMA 4 Scout

Trade-off들

  • 비용. 토큰당 API 가격은 긴 prompt가 비례적으로 더 비싸다는 뜻. $1.25/1M에서 1M 토큰 prompt는 입력 읽는 데만 $1.25.
  • Latency. Prefill(prompt 처리)는 컨텍스트 길이에 선형 + 연산 바인딩. 70B 모델의 128K prefill은 출력 시작 전 몇 초 걸려.
  • KV-cache 메모리. 컨텍스트 길이에 선형. 128K에선 30+ GB 가능.
  • 깊이에서 품질. 모델은 "lost in the middle" 효과 — 깊이 50K 정보가 깊이 1K 정보만큼 안정적으로 검색 안 될 수 있어, 둘 다 광고된 컨텍스트 윈도우 안에 있어도.

안 쓸 컨텍스트에 돈 내지 마. RAG(retrieval-augmented generation)가 종종 모든 문서를 긴 컨텍스트 모델에 욱여넣는 거 이겨 — 비용에서도, 깊이에서의 품질에서도.

Code

Cost estimator: long context vs RAG·python
# Hypothesis: 'just send the whole 200-page doc' vs 'retrieve top 5 chunks of 1000 tokens.'
def cost(input_tokens, output_tokens, in_per_1m, out_per_1m):
    return input_tokens / 1e6 * in_per_1m + output_tokens / 1e6 * out_per_1m

# 200-page doc ≈ 100K tokens
long_ctx  = cost(100_000, 500, 1.25, 10.00)    # Gemini 2.5 Pro
rag_5x1k  = cost(5_000, 500, 1.25, 10.00)
print(f"Long context: ${long_ctx:.4f},  RAG: ${rag_5x1k:.4f}")
# RAG is ~20× cheaper per query. Often the better default.

External links

Exercise

50페이지 문서 가져와. 두 파이프라인 구현 — (a) 문서 전체 + 질문을 1M 컨텍스트 모델에 보냄, (b) 문서 chunk + embed + top-5 chunk retrieve + 그것들 + 질문 보냄. 품질(수동 채점), 비용, latency 측정. 어떤 차원에서 어느 게 이기나?

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.