C.W.K.
Stream
Lesson 01 of 11 · published

Encoder-only — BERT, RoBERTa, 그리고 embedding 시대

~12 min · bert, encoder-only, embeddings

Level 0Token
0 XP0/94 lessons0/10 achievements
0/120 XP to next level120 XP to go0% complete

BERT(Bidirectional Encoder Representations from Transformers, Devlin et al., 2018)는 masked language modeling으로 Transformer encoder를 사전학습하면, task별 fine-tune으로 모든 NLU 벤치마크의 SOTA를 밀어 올릴 만큼 강력한 표현이 나온다는 걸 보여줬어.

아키텍처: 12 (base) 또는 24 (large) layer, d_model 768 또는 1024, 12 또는 16 head, vocab 30,522 (WordPiece). 사전학습: masked LM (15% 랜덤 가린 토큰 예측) + Next Sentence Prediction (나중에 불필요하다고 밝혀짐). BookCorpus + Wikipedia, ~3.3B 토큰으로 학습.

왜 encoder-only가 LLM에선 인기 잃었나

양방향 attention은 이해엔 좋지만 생성엔 나빠 — 모든 토큰이 미래 토큰 보니까 autoregressive 샘플링 불가능. 2022년 즈음 분야는 단일 causal 스택으로 이해와 생성 둘 다 처리하는 decoder-only 모델로 통합. BERT의 자손들은 두 거점에 생존:

  • Retrieval용 embedding 모델. BGE, E5, gte, mxbai-embed — 다 encoder-only Transformer를 vector search용 문장 embedding 생산하도록 fine-tune. RAG의 핵심 인프라.
  • 분류 head. 짧은 입력에 fine-tune된 분류기를 하루 1억 번 호출해야 하면, 110M 파라미터 BERT-base가 7B 파라미터 LLM보다 극적으로 싸고 종종 더 정확.

Code

BERT for classification·python
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

tok = AutoTokenizer.from_pretrained("bert-base-uncased")
model = AutoModelForSequenceClassification.from_pretrained("bert-base-uncased", num_labels=2)

inputs = tok("The model is helpful.", return_tensors="pt")
with torch.no_grad():
    logits = model(**inputs).logits
print(torch.softmax(logits, dim=-1))
# After fine-tuning, this gives a 2-class probability.
Sentence embeddings with E5·python
from sentence_transformers import SentenceTransformer

# Modern encoder-only embedding model
m = SentenceTransformer("intfloat/multilingual-e5-large-instruct")
emb = m.encode([
    "Transformers changed AI.",
    "트랜스포머가 AI를 바꿨다.",
])
# emb is (2, 1024) — embeddings live in the same space across languages.

External links

Exercise

작은 RAG 데모 — 짧은 문서 100개를 110M 파라미터 BERT 파생 embedding 모델(BGE-base 또는 E5-base)과 7B decoder-only LLM의 hidden state로 둘 다 embedding. 'AI에 관한 가장 좋은 책' 쿼리. retrieval 품질과 latency 비교. 어느 쪽이 이기나? 왜?

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.