2022년쯤부터 라벨이 의미를 잃었어
2020년 GPT-3 나왔을 때 "이거 Transformer 야" 라고 말하면 진짜 정보였어. 2022년쯤 되니까 모든 LLM이 Transformer decoder로 수렴해 버려서, 이제 "Transformer 야" 는 동어반복이야 — "이 차에 바퀴 있어" 처럼. 바퀴 있는 차는 Smart Fortwo 일 수도 F-150 일 수도 있고, Transformer LLM 두 개도 MacBook 에서 도는 7B 일 수도 있고 H100 한 랙이 필요한 671B 일 수도 있어.
정보는 이제 backbone 자체 가 아니라 backbone에 무엇을 했는가 에 살아. 2026년에 두 모델의 차이가 "다른 attention" 이거나 "새로운 architecture" 인 경우는 거의 없어. 차이는 네 개의 독립 축에 살아.
이 퀘스트가 존재하는 이유
변화가 어떤 축에 사는지 못 부르면, 그 변화의 cost shape, latency, transferability 를 추론할 수 없어. 모든 발표문이 똑같이 흥분되거나 똑같이 의심스럽게 보일 거야. 이 퀘스트는 다음 뉴스 사이클에도 살아남는 어휘를 줘.
이 퀘스트가 아닌 것 셋: 논문 일대기 sweep 도 아니고, benchmark 응원도 아니고, "Mamba 부터 Hyena 까지 모든 architecture 설명" 도 아니야. 그것들이 매달릴 작동하는 나침반이야.
다음 네 레슨이 끝났을 때 못하면 실패
"DeepSeek-V3 671B-A37B MoE with auxiliary-loss-free balancing, FP8 training, GRPO post-training, sigmoid routing, MLA attention, hidden CoT" 를 읽고 어떤 단어가 어떤 축에 사는지 못 짚으면 퀘스트가 일을 못한 거야. 단어 외우지 마. 단어를 담는 *축* 을 배워.