Encoder-only — BERT, RoBERTa, 그리고 embedding 시대

BERT(Bidirectional Encoder Representations from Transformers, Devlin et al., 2018)는 masked language modeling으로 Transformer encoder를 사전학습하면, task별 fine-tune으로 모든 NLU 벤치마크의 SOTA를 밀어 올릴 만큼 강력한 표현이 나온다는 걸 보여줬어.

아키텍처: 12 (base) 또는 24 (large) layer, d_model 768 또는 1024, 12 또는 16 head, vocab 30,522 (WordPiece). 사전학습: masked LM (15% 랜덤 가린 토큰 예측) + Next Sentence Prediction (나중에 불필요하다고 밝혀짐). BookCorpus + Wikipedia, ~3.3B 토큰으로 학습.

왜 encoder-only가 LLM에선 인기 잃었나

양방향 attention은 이해엔 좋지만 생성엔 나빠 — 모든 토큰이 미래 토큰 보니까 autoregressive 샘플링 불가능. 2022년 즈음 분야는 단일 causal 스택으로 이해와 생성 둘 다 처리하는 decoder-only 모델로 통합. BERT의 자손들은 두 거점에 생존:

Retrieval용 embedding 모델. BGE, E5, gte, mxbai-embed — 다 encoder-only Transformer를 vector search용 문장 embedding 생산하도록 fine-tune. RAG의 핵심 인프라.
분류 head. 짧은 입력에 fine-tune된 분류기를 하루 1억 번 호출해야 하면, 110M 파라미터 BERT-base가 7B 파라미터 LLM보다 극적으로 싸고 종종 더 정확.

Code

BERT for classification·python

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

tok = AutoTokenizer.from_pretrained("bert-base-uncased")
model = AutoModelForSequenceClassification.from_pretrained("bert-base-uncased", num_labels=2)

inputs = tok("The model is helpful.", return_tensors="pt")
with torch.no_grad():
    logits = model(**inputs).logits
print(torch.softmax(logits, dim=-1))
# After fine-tuning, this gives a 2-class probability.

Sentence embeddings with E5·python

from sentence_transformers import SentenceTransformer

# Modern encoder-only embedding model
m = SentenceTransformer("intfloat/multilingual-e5-large-instruct")
emb = m.encode([
    "Transformers changed AI.",
    "트랜스포머가 AI를 바꿨다.",
])
# emb is (2, 1024) — embeddings live in the same space across languages.

Encoder-only — BERT, RoBERTa, 그리고 embedding 시대

왜 encoder-only가 LLM에선 인기 잃었나

Code

External links

Exercise

Progress

댓글 0