"Transformer 야" 만으로는 이제 아무 정보도 안 줘

2022년쯤부터 라벨이 의미를 잃었어

2020년 GPT-3 나왔을 때 "이거 Transformer 야" 라고 말하면 진짜 정보였어. 2022년쯤 되니까 모든 LLM이 Transformer decoder로 수렴해 버려서, 이제 "Transformer 야" 는 동어반복이야 — "이 차에 바퀴 있어" 처럼. 바퀴 있는 차는 Smart Fortwo 일 수도 F-150 일 수도 있고, Transformer LLM 두 개도 MacBook 에서 도는 7B 일 수도 있고 H100 한 랙이 필요한 671B 일 수도 있어.

정보는 이제 backbone 자체 가 아니라 backbone에 무엇을 했는가 에 살아. 2026년에 두 모델의 차이가 "다른 attention" 이거나 "새로운 architecture" 인 경우는 거의 없어. 차이는 네 개의 독립 축에 살아.

이 퀘스트가 존재하는 이유

변화가 어떤 축에 사는지 못 부르면, 그 변화의 cost shape, latency, transferability 를 추론할 수 없어. 모든 발표문이 똑같이 흥분되거나 똑같이 의심스럽게 보일 거야. 이 퀘스트는 다음 뉴스 사이클에도 살아남는 어휘를 줘.

이 퀘스트가 아닌 것 셋: 논문 일대기 sweep 도 아니고, benchmark 응원도 아니고, "Mamba 부터 Hyena 까지 모든 architecture 설명" 도 아니야. 그것들이 매달릴 작동하는 나침반이야.

다음 네 레슨이 끝났을 때 못하면 실패

"DeepSeek-V3 671B-A37B MoE with auxiliary-loss-free balancing, FP8 training, GRPO post-training, sigmoid routing, MLA attention, hidden CoT" 를 읽고 어떤 단어가 어떤 축에 사는지 못 짚으면 퀘스트가 일을 못한 거야. 단어 외우지 마. 단어를 담는 *축* 을 배워.

Code

Pseudocode: 2026년에 'Transformer 야' 가 주는 정보·python

# 2020년에는 이걸로 충분했어:
def what_is(model):
    return "a Transformer"

# 2026년에는 follow-up 네 개를 물어봐야 돼:
def what_actually_is(model):
    return {
        "backbone":       model.architecture,        # dense / MoE / hybrid
        "post_training":  model.training_recipe,     # SFT / RLHF / GRPO / DPO
        "inference":      model.inference_strategy,  # std / extended-thinking / TTS
        "product":        model.product_layer,       # RAG / tools / agents
    }

Exercise

지난 6개월 동안 LLM 발표문 세 개 골라봐 (Llama, Qwen, DeepSeek, Gemini, Claude — 아무거나). 각각이 leading 하는 한 문장만 적어. 그 문장 안의 phrase 마다 'backbone', 'training', 'inference', 'product' 라벨 붙여봐. 셋 중 둘은 backbone 거의 안 나오고 training/inference/product 위주일 거야.