encoder-decoder Transformer는 아키텍처를 둘로 분할 — 입력을 양방향으로 소비하는 encoder + cross-attention 통해 encoder의 표현에 attend하면서 autoregressive로 출력 생성하는 decoder. 이 모양은 2017 논문의 원조이고, 깔끔한 입력→출력 매핑이 있는 task엔 여전히 옳은 도구.
- T5 (Raffel et al., 2019). "Text-to-Text Transfer Transformer." 모든 NLP task를 text-to-text로 프레임 — 번역/요약/분류/QA가 다 "입력 → 출력" 생성 task가 돼. span corruption(연속 span 가리고 예측)으로 사전학습.
- BART (Lewis et al., 2019). 텍스트 손상(masking, deletion, shuffling, rotation) 후 재구성으로 사전학습된 denoising autoencoder. 요약과 구조화된 재작성 task에 강함.
- Whisper (OpenAI, 2022). 음성 인식용 encoder-decoder. encoder가 log-mel 스펙트로그램(오디오 프레임을 patch 토큰으로) 소비, decoder가 cross-attention으로 텍스트 생성. 다국어, 강건, open weight.
- NLLB (Meta, 2022). No Language Left Behind. 200+ 언어 가로질러 저자원 번역 최적화 encoder-decoder.
"나한테 말해 줘" 용도엔 decoder-only가 encoder-decoder 영역을 먹어 들어왔어. 하지만 번역, ASR, 잘 정의된 구조화 생성 task에선 encoder-decoder가 여전히 옳은 모양 — 명시적 2단계 구조가 task와 정렬.