BERT(Bidirectional Encoder Representations from Transformers, Devlin et al., 2018)는 masked language modeling으로 Transformer encoder를 사전학습하면, task별 fine-tune으로 모든 NLU 벤치마크의 SOTA를 밀어 올릴 만큼 강력한 표현이 나온다는 걸 보여줬어.
아키텍처: 12 (base) 또는 24 (large) layer, d_model 768 또는 1024, 12 또는 16 head, vocab 30,522 (WordPiece). 사전학습: masked LM (15% 랜덤 가린 토큰 예측) + Next Sentence Prediction (나중에 불필요하다고 밝혀짐). BookCorpus + Wikipedia, ~3.3B 토큰으로 학습.
왜 encoder-only가 LLM에선 인기 잃었나
양방향 attention은 이해엔 좋지만 생성엔 나빠 — 모든 토큰이 미래 토큰 보니까 autoregressive 샘플링 불가능. 2022년 즈음 분야는 단일 causal 스택으로 이해와 생성 둘 다 처리하는 decoder-only 모델로 통합. BERT의 자손들은 두 거점에 생존:
- Retrieval용 embedding 모델. BGE, E5, gte, mxbai-embed — 다 encoder-only Transformer를 vector search용 문장 embedding 생산하도록 fine-tune. RAG의 핵심 인프라.
- 분류 head. 짧은 입력에 fine-tune된 분류기를 하루 1억 번 호출해야 하면, 110M 파라미터 BERT-base가 7B 파라미터 LLM보다 극적으로 싸고 종종 더 정확.