예산이 진짜 사는 곳
현재 Claude 모델이 큰 context window 지원(표준 Sonnet/Opus에 200K 토큰, opt-in 모델엔 더 긴 윈도우). '긴 게' 능력이지 instruction 아냐. 비용은 input 토큰 따라 — 모델이 다 필요했든 아니든 150K 토큰 보내면 150K input 토큰 비용.
Effective vs theoretical 컨텍스트
Theoretical 컨텍스트는 API 한도. Effective 컨텍스트는 모델이 실제로 잘 attend하는 슬라이스. Long-context retrieval('needle in a haystack' 벤치)이 Claude 강하다 보여주지만, careful 프롬프트 구조(질문 가까이 critical 정보 두기)가 더 도움. 마지막에 둘 수 있었던 fact 하나 때문에 모델한테 100K 토큰 dig하라고 의존하지 마.
보내기 전에 토큰 카운트
messages.count_tokens() 엔드포인트가 completion 안 돌리고 input 토큰 수 반환 — 예산 플래닝에 완벽. CI에서 프롬프트가 너 정한 예산 아래 머무는지 assert; 프로덕션에서 surprise 성장 로그.
원칙: Context window는 길이지 destination 아냐. 모델이 필요한 곳 도달하는 가장 짧은 길로 여행.