Reasoning 은 행동이지 backbone 아냐

2025–2026 LLM 담론에서 가장 헷갈리는 단일 용어

2026년 LLM 대화 어디든 들어가면 "reasoning model" 이 architecture 인 것처럼 쓰여. 아냐. 2024–2026 의 모든 주요 reasoning model 이 standard Transformer decoder 사용 — dense 또는 MoE — non-reasoning 형제와 동일하거나 거의 동일. Reasoning 은 두 곳에 살아: post-training (axis 2) 과 inference (axis 3). Backbone 은 unchanged.

가장 깨끗한 증거: DeepSeek-R1 vs DeepSeek-V3

둘 다 같은 671B-A37B MoE backbone 공유. 같은 expert 수, 같은 router, 같은 attention, 같은 vocab. R1 의 reasoning 능력은 완전히 GRPO 강화학습 post-training + inference 시 extended chain-of-thought 생성에서 와. Reasoning 이 새 architecture 필요했으면 이게 불가능.

2026년에 "reasoning model" 이 실제로 의미하는 것

최종 답 전에 intermediate chain-of-thought 토큰 생성하도록 학습 (보통 RL 통해).
extended-thinking inference 로 서빙 — 모델이 (또는 의무적으로) 생각하는 데 많은 토큰 쓸 수 있어.
그 thinking token 들 visible, hidden, 또는 summarized 만드는 메커니즘 선택적.

같은 checkpoint 테스트

같은 모델 checkpoint 가져와서 configuration flag 하나 뒤집어서 fast mode 또는 thinking mode 행동 둘 다 얻을 수 있으면 — reasoning 은 학습 위에 순수 inference 선택. Qwen3 dense 모델이 정확히 이걸 함. 같은 weights, 두 mode. Reasoning 이 architecture 아님의 empirical 증거.

왜 혼란이 마케팅에 profitable

"Architectural breakthrough" 가 "같은 backbone 위에 더 잘한 RL" 보다 더 rare 하고 defensible 하게 들려. Reasoning model 을 "architecture" 라고 frame 하면 recipe 대신 competitive moat 로 frame — 그리고 recipe 는 copy 하기 더 쉬워.

이걸로 뭐 해야 해

모델이 "revolutionary reasoning architecture" claim 하면 architecture 가 아니라 마케팅 budget 에 대한 evidence 로 다뤄. Technical report 찾아, 실제 변화 찾아, 어떤 축에 사는지 확인. Diff 가 training 과 inference 에 살면 architecture 안 바뀐 거.

Exercise

'reasoning architecture' 또는 'reasoning engine' phrase 쓰는 모델 발표 하나 찾아. 링크된 technical report 또는 model card 읽어. 적어: (1) 실제 변화가 어떤 축에 사는지, (2) 발표가 architectural-sounding term 뒤에 숨기는 training-recipe 차이가 뭔지. Calibration 연습 — hype filter 학습.