긴 reasoning이 deep reasoning 아니야
8,000 토큰을 restatement, hedging, shallow exploration으로 채우는 reasoning chain이 200 토큰 chain (constraint 이름, 한 접근 시도, verify)보다 deep하지 않아. 길이가 effort처럼 보이지만 정확도와 항상 correlate 안 해.
theatre 증상
- 뭐 하기 전에 질문을 paragraph로 paraphrase하는 reasoning.
- 실제 reconsider 없이 "let me reconsider" 반복.
- 최종 답에 영향 안 주는 consideration list.
- budget으로 늘어나는데 conclusion 안 바꾸는 branch count.
뭘 할까
- thinking budget 낮춰. 정확도 hold하면 budget이 bloat였어.
- reasoning 구조 prompt: "constraint 이름 붙여, 그 다음 한 접근 propose, 그 다음 verify."
- non-reasoning 모델로 switch. 정확도 비교.