영향: 번역에서 GPT, BERT, 그리고 현대 LLM 스택으로

트랜스포머는 2017년에 번역 모델로 발표됐어. 2년 안에 번역에서 빠져나와 의미 있는 거의 모든 NLP 시스템의 공통 기반이 됐고, 5년 안에 언어 자체를 벗어났지.

초기의 결정적 후속작들:

GPT-1 (2018년 6월, OpenAI): 117M짜리 decoder-only 트랜스포머. BooksCorpus에 next-token prediction으로 사전학습 → downstream task에 fine-tune. "pre-train then fine-tune" 레시피가 여기서 탄생해.
BERT (2018년 10월, Google): 340M짜리 encoder-only 트랜스포머, masked language modeling으로 사전학습. 몇 년간 모든 NLU 벤치마크 SOTA 점령.
T5 (2019년 10월, Google): "모든 NLP task = text-to-text." 풀 encoder-decoder 사용해서 번역/요약/분류/QA를 단일 프레임에 통합.
GPT-3 (2020년 5월, OpenAI): 175B 파라미터로, 스케일이 in-context learning을 켠다는 걸 보여줬어 — fine-tune 없이 prompt 안의 예시만으로 새 task 푸는 능력.

2024~2026년 기준, 프론티어 모델 전부 — GPT-4/5, LLaMA 4, Gemini 2.5 Pro, Claude 3.7 Sonnet, Mistral Large, Qwen 3 — 다 트랜스포머 변종이야. 2017년 논문의 unit cell은 그대로고, 스케일 + 학습 데이터 + post-training(RLHF, DPO, GRPO, Constitutional AI)만 진화한 거지.

Code

Family tree (rough)·text

2017  Transformer (encoder-decoder, translation)
  ├── 2018  GPT-1     (decoder-only, next-token)        ─┐
  ├── 2018  BERT      (encoder-only, masked LM)          │
  ├── 2019  GPT-2 / RoBERTa / T5 / BART / XLNet         │
  ├── 2020  GPT-3 (175B, in-context learning)            ├─→ all decoder-only
  ├── 2022  Chinchilla / PaLM / Codex                    │   from 2022
  ├── 2023  LLaMA / GPT-4 / Claude 2 / Mistral 7B        │
  ├── 2024  LLaMA 3.x / Gemini 1.5 / Claude 3 / Mixtral  │
  └── 2025  GPT-5 / LLaMA 4 / Gemini 2.5 / Claude 3.7   ─┘

Exercise

최신 프론티어 모델 셋 골라(예: GPT-5, LLaMA 4 Scout, Gemini 2.5 Pro), 공식 모델 카드나 release notes에서 아키텍처 디테일(파라미터 수, layer 수, d_model, attention 종류, vocab 크기, context 길이) 찾아서 표로 정리해. 어떤 숫자가 공개돼 있고 어떤 게 비공개인지, 어떤 설계 선택이 이제 거의 보편이 됐는지 관찰해 봐.

영향: 번역에서 GPT, BERT, 그리고 현대 LLM 스택으로

Code

External links

Exercise

Progress

댓글 0