Output과 Reasoning Token도 비용이야

Input은 청구서의 절반일 뿐

context window는 보내는 것뿐 아니라 모형이 답변할 공간도 담아야 해. reasoning model은 직접 보이지 않는 reasoning token도 같은 request budget에서 깎아 써. window 가득 source material 쑤셔넣고 30페이지 rewrite 부탁하면, 실패를 설계한 거야.

Reasoning model이 산수를 바꾼다

OpenAI o-series, Claude extended-thinking model은 답하기 전에 수천 hidden reasoning token 쏟아낼 수 있어. 어떤 provider는 청구하고 어떤 건 안 해. 다 per-request token cap에선 깎인다. '들어갈' 요청이 reasoning이 여유 다 먹어서 중간에 실패할 수 있어.

Output은 명시적으로 예약

긴 task엔 output budget부터 정해. 그 다음 source material이 얼마나 들어갈지 결정. 거꾸로 같지만, 모형이 중요한 부분 직전에 답을 truncate하는 걸 한 번 보고 나면 명백해진다.

Truncation 룰: output reserve 없이 긴 input은 careful이 아니야. 성공 요청 코스프레하는 지연 truncation 버그야.

Code

로딩 전에 예약·python

WINDOW = 400_000
RESERVE_OUTPUT     = 40_000
RESERVE_REASONING  = 30_000   # extended-thinking budget
SAFETY_MARGIN      = 40_000

USABLE_INPUT = WINDOW - RESERVE_OUTPUT - RESERVE_REASONING - SAFETY_MARGIN
print(USABLE_INPUT)  # 290_000

budget 템플릿 두 개·yaml

budgets:
  small_window_128k:
    input:     80_000
    output:    20_000
    reasoning: 12_000
    margin:    16_000
  long_window_400k:
    input:     260_000
    output:    50_000
    reasoning: 40_000
    margin:    50_000

Output과 Reasoning Token도 비용이야

Input은 청구서의 절반일 뿐

Reasoning model이 산수를 바꾼다

Output은 명시적으로 예약

Code

External links

Exercise

Progress

댓글 0