Input은 청구서의 절반일 뿐
context window는 보내는 것뿐 아니라 모형이 답변할 공간도 담아야 해. reasoning model은 직접 보이지 않는 reasoning token도 같은 request budget에서 깎아 써. window 가득 source material 쑤셔넣고 30페이지 rewrite 부탁하면, 실패를 설계한 거야.
Reasoning model이 산수를 바꾼다
OpenAI o-series, Claude extended-thinking model은 답하기 전에 수천 hidden reasoning token 쏟아낼 수 있어. 어떤 provider는 청구하고 어떤 건 안 해. 다 per-request token cap에선 깎인다. '들어갈' 요청이 reasoning이 여유 다 먹어서 중간에 실패할 수 있어.
Output은 명시적으로 예약
긴 task엔 output budget부터 정해. 그 다음 source material이 얼마나 들어갈지 결정. 거꾸로 같지만, 모형이 중요한 부분 직전에 답을 truncate하는 걸 한 번 보고 나면 명백해진다.
Truncation 룰: output reserve 없이 긴 input은 careful이 아니야. 성공 요청 코스프레하는 지연 truncation 버그야.