트랜스포머는 2017년에 번역 모델로 발표됐어. 2년 안에 번역에서 빠져나와 의미 있는 거의 모든 NLP 시스템의 공통 기반이 됐고, 5년 안에 언어 자체를 벗어났지.
초기의 결정적 후속작들:
- GPT-1 (2018년 6월, OpenAI): 117M짜리 decoder-only 트랜스포머. BooksCorpus에 next-token prediction으로 사전학습 → downstream task에 fine-tune. "pre-train then fine-tune" 레시피가 여기서 탄생해.
- BERT (2018년 10월, Google): 340M짜리 encoder-only 트랜스포머, masked language modeling으로 사전학습. 몇 년간 모든 NLU 벤치마크 SOTA 점령.
- T5 (2019년 10월, Google): "모든 NLP task = text-to-text." 풀 encoder-decoder 사용해서 번역/요약/분류/QA를 단일 프레임에 통합.
- GPT-3 (2020년 5월, OpenAI): 175B 파라미터로, 스케일이 in-context learning을 켠다는 걸 보여줬어 — fine-tune 없이 prompt 안의 예시만으로 새 task 푸는 능력.
2024~2026년 기준, 프론티어 모델 전부 — GPT-4/5, LLaMA 4, Gemini 2.5 Pro, Claude 3.7 Sonnet, Mistral Large, Qwen 3 — 다 트랜스포머 변종이야. 2017년 논문의 unit cell은 그대로고, 스케일 + 학습 데이터 + post-training(RLHF, DPO, GRPO, Constitutional AI)만 진화한 거지.