🧭

Beyond the Transformer Quest

최근 수정: 2026-05-04

포스트-Transformer 시대의 아키텍처 문해력

2026년에 "이 모델은 Transformer야" 라고 말하는 건 사실상 아무 정보도 안 줘. 현대 LLM은 네 개의 독립 축 — backbone, post-training, inference 전략, 제품 동작 — 에서 갈라지고, 이걸 구분할 줄 아는 게 발표문을 *읽는 사람*과 발표문에 *읽히는 사람*의 차이야. 이 퀘스트는 그 field guide.

8 tracks · 41 lessons · ~18h · difficulty: intermediate-to-advanced

Level 0Scout

0 XP0/41 lessons0/12 achievements

0/100 XP to next level100 XP to go0% complete

거의 모든 주요 LLM이 여전히 Transformer decoder backbone을 쓰지만, 같은 backbone을 가진 두 모델이 완전히 다른 종처럼 행동할 수 있어 — 하나는 싸고 하나는 비싸고, 하나는 30초 동안 생각을 스트리밍하고 하나는 한 박자에 답하고, 하나는 노트북에 들어가고 하나는 랙이 필요해. 차이는 backbone이 아니라 *backbone에 무엇을 더 했는가*야. 이 퀘스트는 그 네 축을 정리해 줘 — backbone 아키텍처 (dense / MoE / hybrid), post-training (SFT, RLHF, GRPO, DPO), inference 전략 (extended thinking, test-time compute, speculative decoding), 제품 동작 (RAG, tool, agent) — 그리고 이걸 작동하는 나침반으로 바꿔 줘. 다 끝나면 235B-A22B 표기를 한눈에 읽고, model card 만 보고 cost 모양을 예측하고, 마케팅과 아키텍처를 분리하고, 'breakthrough' 가 post-training 인지 inference 인지 정말 새 wiring 인지 구분할 수 있어.

Tracks

01🧭현대 LLM 의 네 축
0/5 lessons
Backbone, training, inference, product — 다른 모든 것의 나침반
모든 현대 LLM 이 네 축의 교차점에 살아. 변화가 사는 축을 부를 수 있게 되면 마케팅 언어가 그것들을 한 phrase 로 collapse 하는 거에 더 이상 fool 안 돼.
Lesson list (5)
퀴즈 · 5 문제→
02🧱Dense Models — 기본 frontier
0/5 lessons
모든 토큰이 모든 파라미터 활성화 — 작동하는 가장 단순한 거
Dense 가 잘 이해된 baseline. Llama, Gemma, Qwen, Mistral, Phi. 2026 에 dense 가 여전히 이기는 곳, 포기하는 거, 알아야 할 패밀리.
Lesson list (5)
퀴즈 · 5 문제→
03🔀Mixture of Experts (MoE)
0/6 lessons
Layer 마다 많은 expert, 토큰당 몇 개만 발화 — 감당 가능 compute 의 frontier capacity
모든 토큰이 모든 expert 필요 안 해. MoE 가 메모리와 compute 의 등식 깨고, 실제로 서빙 가능한 trillion-parameter 모델 문 열어.
Lesson list (6)
퀴즈 · 6 문제→
04🧠Reasoning-Oriented Models
0/5 lessons
같은 backbone, 다른 training 과 inference — 어려운 문제에 더 길게 생각
Reasoning 이 행동이지 architecture 아냐. RL post-training + extended-thinking inference 가 분해, verify, one-shot generation 못 해결하는 문제에 옳은 답 도달하는 모델 produce.
Lesson list (5)
퀴즈 · 6 문제→
05🚫Architecture 가 NOT 인 것
0/6 lessons
RAG, tool, agent, long context, speculative decoding — 다 architecture 의 옷 입어, 어느 것도 아냐
LLM 담론의 가장 흔한 혼란이 application layer 를 backbone 변화로 mistake. 이 track 이 마케팅 어휘집을 그 아래 네 축으로 디코드.
Lesson list (6)
퀴즈 · 6 문제→
06⚖️Real-World 비교
0/4 lessons
워크로드별 dense, MoE, reasoning 선택 — 그리고 cost-and-latency napkin 수학
Production 결정 표. 워크로드 bottleneck 을 그것 다루는 paradigm 에 매핑. 배포 전 cost 와 latency 추정.
Lesson list (4)
퀴즈 · 5 문제→
07🔍모델 발표 읽기
0/5 lessons
다섯 질문, 한 어휘집, hype 없음
Framework 를 모든 새 release 에 적용. 표기에서 dense vs MoE 식별. Benchmark 회의적 읽기. License 가 실제 허용하는 거 알기. 있는 거만큼 carefully 없는 거 읽기.
Lesson list (5)
퀴즈 · 5 문제→
08🔮Emerging Frontier
0/5 lessons
Hybrid, Mamba, RWKV — 실제로 다음, 그리고 여전히 같은 것
Post-Transformer 아이디어가 실제 ship 하는 곳 (hybrid), 안 하는 곳 (frontier scale 의 pure SSM), hype 에 drowning 없이 frontier 읽는 법.
Lesson list (5)
퀴즈 · 5 문제→

이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

🔔 답글 알림 (로그인 필요)

로그인 — 댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.

Tracks

01🧭현대 LLM 의 네 축

02🧱Dense Models — 기본 frontier

03🔀Mixture of Experts (MoE)

04🧠Reasoning-Oriented Models

05🚫Architecture 가 NOT 인 것

06⚖️Real-World 비교

07🔍모델 발표 읽기

08🔮Emerging Frontier