Reasoning 토큰도 토큰
프롬프트가 reasoning이랑 work한다고 validate되면 종종 reasoning step compress 가능 — non-reasoning 모델로 switch, reasoning effort 낮추기, 또는 프롬프트에서 CoT strip. reasoning은 scaffolding이었어; 프롬프트 right되면 scaffolding이 load-bearing 아닐 수 있어.
compression 테스트
- Full reasoning으로 돌려. output과 정확도 capture.
- reasoning off (또는 'low')로 돌려. 비교.
- 정확도 unchanged면 compress.
- 특정 subset에서 정확도 drop하면 그 subset에만 reasoning gate (call 앞에 cheap classifier).
왜 중요한가
Reasoning 비용은 traffic으로 scale. 대부분 call이 필요 없는데 모든 call에 reasoning 돌리는 production system이 marginal 정확도에 월 수만 달러 지불. Routing이 lever.