OpenAI o-series
OpenAI 가 commercial reasoning-model 카테고리 개척. o1 (2024) 이 "thinking" 표시기와 함께 hidden chain-of-thought 도입. o3 (2025 초) 가 inference compute scale 로 Frontier Math 와 ARC-AGI 에서 극적 gain 보여줌. o4-mini (2025년 4월) 가 reasoning 중 native tool use 추가, 모델이 thought 중 tool 호출 가능. 정확한 backbone (dense vs MoE) 비공개지만 reasoning 행동은 순수 training + inference 스토리.
Anthropic Claude with extended thinking
Claude 3.7 Sonnet (2025년 2월) 이 visible (그러나 부분적으로 summarized) thinking block 과 함께 extended thinking 도입. Claude 4 (2025 중) 가 budget control refine. 같은 checkpoint 가 configuration flag 로 standard 와 extended-thinking mode 둘 다 서빙. Visible thinking quality 가 특히 focus, feature 와 함께 faithfulness research 발표.
Google Gemini thinking modes
Gemini 2.0 Flash Thinking (2024년 12월) 이 visible reasoning 노출. Gemini 2.5 Pro/Flash (2025) 가 explicit thinking-budget control 추가. Gemini 3.0, 3.1 이 더 어려운 task 에 더 큰 budget allocate 하는 "Deep Think" mode 와 함께 계속. Pricing 이 thinking-token cost 반영; budget 이 API surface 의 일부.
DeepSeek-R1 — open-weight reasoning frontier
DeepSeek-R1 (2025년 1월) 이 reasoning 을 open-weight 만듦. V3 와 같은 671B-A37B MoE backbone 위, SFT cold-start → GRPO RL → rejection sampling refinement 통해 학습. Visible <think> block. R1-Zero (no-SFT variant) 가 pure RL 에서 emergent reasoning 시연. 함께 R1 과 R1-Zero 가 시대의 가장 중요한 open-weight reasoning release 라고 주장.
Qwen3 with dual-mode operation
Qwen3 시리즈 (2025) 가 단일 checkpoint 에서 thinking 과 non-thinking mode 지원. 같은 weights, 두 행동. GSPO (Generalized Simple Policy Optimization) 로 학습. 같은 모델이 flag 토글로 quick conversational query 와 complex problem 둘 다 서빙 가능, separate fast 와 reasoning model 배포 필요 제거.
Cross-family 패턴
모두 비슷한 backbone (decoder-only Transformer, dense or MoE) 위 비슷한 training pipeline (SFT + verifiable reward 와 RL) 통해 비슷한 capability 도달. 차이는 visibility 선택, pricing 모델, post-training 데이터 quality 에 살아. 다시, architecture 가 differentiator 아냐.