C.W.K.
Stream
Lesson 05 of 05 · published

왜 Transformer 가 여전히 dominate (그리고 어떻게 current 유지)

~10 min · frontier, transformers, literacy

Level 0Scout
0 XP0/41 lessons0/12 achievements
0/100 XP to next level100 XP to go0% complete

Transformer 가 displace 안 된 다섯 이유

1. Ecosystem maturity

vLLM, TensorRT-LLM, llama.cpp, MLX, SGLang — 전체 서빙 stack 이 attention-based Transformer 에 최적화. Non-Transformer architecture 로 switch 는 inference-optimization 스토리 처음부터 다시 발견 의미. 그 cost 거대.

2. Scaling-law 자신감

Transformer scale 어떻게 알아. Chinchilla, Llama 3 scaling 작업, DeepSeek scaling note — Transformer 파라미터와 compute 가 어떻게 trade off 하는지 십년 empirical 자신감. Alternative architecture 가 100B 파라미터 위에서 이 characterization 부족; 누구도 less-charted scaling curve 에 multi-million-dollar training run 베팅 안 원해.

3. Benchmark 디자인 bias

대부분 evaluation benchmark 가 Transformer 가 잘하는 task — 긴 passage 위 exact recall, precise multi-step reasoning, structured QA — 주위 디자인. Bounded recurrent state 의 alternative architecture 가 benchmark 따라 더-혹은-덜 가능, benchmark 분포 자체가 attention 선호.

4. 산업 risk tolerance

Training run 이 $50M 들면 "promising new architecture" 가 팀이 고르는 거 아냐. Proven architecture 이김. 합리적 — architectural 변화의 first-mover penalty 가 entire training pipeline 다시 함 의미 가능.

5. Reasoning 워크로드가 attention 강점 필요

Extended chain-of-thought reasoning 이 thinking-token sequence 위 exact recall 의존. SSM 과 recurrent variant 가 과거 context 를 bounded state 로 compress, 그런 reasoning 더 어려워. Reasoning paradigm 이 다소 예상 외로 attention 강점을 더 valuable 만듦, 덜 아냐.

Drowning 없이 current 유지하는 법

  • Primary 출처. Model card, system card, technical report. 가장 reliable.
  • Survey paper. Annual/quarterly survey 가 noisy paper firehose 종합. 매년 2–3 개 읽을 가치.
  • Curated 뉴스레터. Sebastian Raschka 의 Ahead of AI, Nathan Lambert 의 Interconnects, Hugging Face 블로그. Selective, high-signal.
  • 커뮤니티. r/LocalLLaMA 가 open-weight tinkering, Papers with Code 가 code-linked paper.

3-질문 filter

어떤 architectural claim 에 대해: (1) Backbone 변화, training 변화, inference 변화 중? (2) Peer-reviewed 또는 technical-report writeup 있어? (3) Open frontier 에서 누군가 reproduce 가능? "Yes" 가 둘 미만이면 회의로 다뤄.

피할 것

Twitter/X hype thread, YouTube clickbait, product 출시 lab 의 마케팅 블로그 포스트. 정보 spread 위해 디자인, inform 안. Default 회의.

External links

Exercise

위 list 에서 high-signal 출처 셋 골라 (또는 자체 등가물). 구독 / bookmark. 다음 2주 동안 발표하는 거 다 네 축 lens 통해 읽어 — 새 article 마다 변화가 어떤 축에 사는지 식별. 2주 후 LLM-land 의 'real news' 가 무엇인지 훨씬 좋은 calibration 가져.

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.