Native reasoning은 별도 API surface
Claude는 Extended Thinking; OpenAI는 o-series와 GPT-5.5 reasoning-effort knob; Gemini는 Thinking 모드. interchangeable 아니고, 한 곳에서 work하는 프롬프트가 다른 곳에서 반드시 work하지 않아.
Provider별 quirk
- Claude (Extended Thinking) — 토큰 단위 explicit thinking budget. Thinking이 response의 별도 부분 (operator한테 보임, 항상 user한테는 X). thinking에 prompt 가능 ('constraint 먼저 요약, 그 다음…'), 근데 모델이 budget 사용 결정.
- OpenAI o-series와 GPT-5.5 — reasoning_effort parameter (low / medium / high). reasoning 토큰 billed인데 developer한테 return X. 다른 prompt 스타일: instruction이 더 짧은 경향; over-prompting이 모델 planning 방해 가능.
- Gemini Thinking — thinking budget을 generation config로 configure. output 행동 Claude 비슷, specific 차이 있음.
native reasoning 쓸 때
- ordinary output이 step 놓치는 hard, multi-step task.
- latency 감당 가능한 task (reasoning 느림).
- cost 감당 가능한 task (reasoning 토큰 billable).
skip하는 때
- Low-latency real-time UX (reasoning이 초 추가).
- Trivial classification이나 formatting.
- Tight 토큰 budget.