C.W.K.
Stream
← C.W.K. Quests
🧭

Beyond the Transformer Quest

최근 수정: 2026-05-04

포스트-Transformer 시대의 아키텍처 문해력

2026년에 "이 모델은 Transformer야" 라고 말하는 건 사실상 아무 정보도 안 줘. 현대 LLM은 네 개의 독립 축 — backbone, post-training, inference 전략, 제품 동작 — 에서 갈라지고, 이걸 구분할 줄 아는 게 발표문을 *읽는 사람*과 발표문에 *읽히는 사람*의 차이야. 이 퀘스트는 그 field guide.

8 tracks · 41 lessons · ~18h · difficulty: intermediate-to-advanced

Level 0Scout
0 XP0/41 lessons0/12 achievements
0/100 XP to next level100 XP to go0% complete
거의 모든 주요 LLM이 여전히 Transformer decoder backbone을 쓰지만, 같은 backbone을 가진 두 모델이 완전히 다른 종처럼 행동할 수 있어 — 하나는 싸고 하나는 비싸고, 하나는 30초 동안 생각을 스트리밍하고 하나는 한 박자에 답하고, 하나는 노트북에 들어가고 하나는 랙이 필요해. 차이는 backbone이 아니라 *backbone에 무엇을 더 했는가*야. 이 퀘스트는 그 네 축을 정리해 줘 — backbone 아키텍처 (dense / MoE / hybrid), post-training (SFT, RLHF, GRPO, DPO), inference 전략 (extended thinking, test-time compute, speculative decoding), 제품 동작 (RAG, tool, agent) — 그리고 이걸 작동하는 나침반으로 바꿔 줘. 다 끝나면 235B-A22B 표기를 한눈에 읽고, model card 만 보고 cost 모양을 예측하고, 마케팅과 아키텍처를 분리하고, 'breakthrough' 가 post-training 인지 inference 인지 정말 새 wiring 인지 구분할 수 있어.

Tracks

  1. 01🧭현대 LLM 의 네 축

    0/5 lessons

    Backbone, training, inference, product — 다른 모든 것의 나침반

    모든 현대 LLM 이 네 축의 교차점에 살아. 변화가 사는 축을 부를 수 있게 되면 마케팅 언어가 그것들을 한 phrase 로 collapse 하는 거에 더 이상 fool 안 돼.

    Lesson list (5)퀴즈 · 5 문제
  2. 02🧱Dense Models — 기본 frontier

    0/5 lessons

    모든 토큰이 모든 파라미터 활성화 — 작동하는 가장 단순한 거

    Dense 가 잘 이해된 baseline. Llama, Gemma, Qwen, Mistral, Phi. 2026 에 dense 가 여전히 이기는 곳, 포기하는 거, 알아야 할 패밀리.

    Lesson list (5)퀴즈 · 5 문제
  3. 03🔀Mixture of Experts (MoE)

    0/6 lessons

    Layer 마다 많은 expert, 토큰당 몇 개만 발화 — 감당 가능 compute 의 frontier capacity

    모든 토큰이 모든 expert 필요 안 해. MoE 가 메모리와 compute 의 등식 깨고, 실제로 서빙 가능한 trillion-parameter 모델 문 열어.

    Lesson list (6)퀴즈 · 6 문제
  4. 04🧠Reasoning-Oriented Models

    0/5 lessons

    같은 backbone, 다른 training 과 inference — 어려운 문제에 더 길게 생각

    Reasoning 이 행동이지 architecture 아냐. RL post-training + extended-thinking inference 가 분해, verify, one-shot generation 못 해결하는 문제에 옳은 답 도달하는 모델 produce.

    Lesson list (5)퀴즈 · 6 문제
  5. 05🚫Architecture 가 NOT 인 것

    0/6 lessons

    RAG, tool, agent, long context, speculative decoding — 다 architecture 의 옷 입어, 어느 것도 아냐

    LLM 담론의 가장 흔한 혼란이 application layer 를 backbone 변화로 mistake. 이 track 이 마케팅 어휘집을 그 아래 네 축으로 디코드.

    Lesson list (6)퀴즈 · 6 문제
  6. 06⚖️Real-World 비교

    0/4 lessons

    워크로드별 dense, MoE, reasoning 선택 — 그리고 cost-and-latency napkin 수학

    Production 결정 표. 워크로드 bottleneck 을 그것 다루는 paradigm 에 매핑. 배포 전 cost 와 latency 추정.

    Lesson list (4)퀴즈 · 5 문제
  7. 07🔍모델 발표 읽기

    0/5 lessons

    다섯 질문, 한 어휘집, hype 없음

    Framework 를 모든 새 release 에 적용. 표기에서 dense vs MoE 식별. Benchmark 회의적 읽기. License 가 실제 허용하는 거 알기. 있는 거만큼 carefully 없는 거 읽기.

    Lesson list (5)퀴즈 · 5 문제
  8. 08🔮Emerging Frontier

    0/5 lessons

    Hybrid, Mamba, RWKV — 실제로 다음, 그리고 여전히 같은 것

    Post-Transformer 아이디어가 실제 ship 하는 곳 (hybrid), 안 하는 곳 (frontier scale 의 pure SSM), hype 에 drowning 없이 frontier 읽는 법.

    Lesson list (5)퀴즈 · 5 문제
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.