두 budget, 두 failure mode
Reasoning 모델은 thinking 토큰을 output 토큰이랑 별도로 bill해. Thinking budget이 user한테 invisible인데 청구서엔 매우 visible. 반대로 output max_tokens가 너무 작으면 모델이 답 중간에 truncate해. 두 budget 의도적으로 set 필요.
thinking budget 세팅
- Trivial classification — off나 'low'. 최대 몇 백 토큰.
- Multi-step planning — 4k–10k 토큰. branch 공간 줘.
- Hard math, deep code analysis — 20k+. budget 더 주는 게 도움 되는지 테스트; diminishing return 들어와.
output budget 세팅
max_tokens를 expected output shape에 margin 두고 match. JSON object 5개 field → 512 max_tokens 충분. Long-form essay → 2k–4k. Truncated output은 반복적인 incident 패턴; max_tokens explicit하게 만들고 response가 cap 칠 때 alert 추가.