C.W.K.
Stream
Lesson 03 of 05 · published

Output과 Reasoning Token도 비용이야

~24 min · output, reasoning, limits

Level 0Window Watcher
0 XP0/50 lessons0/13 achievements
0/100 XP to next level100 XP to go0% complete

Input은 청구서의 절반일 뿐

context window는 보내는 것뿐 아니라 모형이 답변할 공간도 담아야 해. reasoning model은 직접 보이지 않는 reasoning token도 같은 request budget에서 깎아 써. window 가득 source material 쑤셔넣고 30페이지 rewrite 부탁하면, 실패를 설계한 거야.

Reasoning model이 산수를 바꾼다

OpenAI o-series, Claude extended-thinking model은 답하기 전에 수천 hidden reasoning token 쏟아낼 수 있어. 어떤 provider는 청구하고 어떤 건 안 해. 다 per-request token cap에선 깎인다. '들어갈' 요청이 reasoning이 여유 다 먹어서 중간에 실패할 수 있어.

Output은 명시적으로 예약

긴 task엔 output budget부터 정해. 그 다음 source material이 얼마나 들어갈지 결정. 거꾸로 같지만, 모형이 중요한 부분 직전에 답을 truncate하는 걸 한 번 보고 나면 명백해진다.

Truncation 룰: output reserve 없이 긴 input은 careful이 아니야. 성공 요청 코스프레하는 지연 truncation 버그야.

Code

로딩 전에 예약·python
WINDOW = 400_000
RESERVE_OUTPUT     = 40_000
RESERVE_REASONING  = 30_000   # extended-thinking budget
SAFETY_MARGIN      = 40_000

USABLE_INPUT = WINDOW - RESERVE_OUTPUT - RESERVE_REASONING - SAFETY_MARGIN
print(USABLE_INPUT)  # 290_000
budget 템플릿 두 개·yaml
budgets:
  small_window_128k:
    input:     80_000
    output:    20_000
    reasoning: 12_000
    margin:    16_000
  long_window_400k:
    input:     260_000
    output:    50_000
    reasoning: 40_000
    margin:    50_000

External links

Exercise

128K 모형과 400K 모형용 budget 설계. input 전에 output, reasoning, safety margin 예약. 둘 usable input 비율 비교.

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.