왜 Transformer가 RNN을 대체했나

2020 변곡점

2020년쯤엔 Transformer가 NLP에서 LSTM/GRU를 대체했어. 세 구체적 이점이 변화 이끌어:

Training 병렬성. RNN은 순차 — step 5는 step 4 끝나야 시작. 1,000 토큰 sequence는 GPU 수 무관하게 1,000번 순차 연산 필요. Transformer는 attention으로 모든 위치 동시 처리. 같은 model, 10–100배 빠른 training.
장거리 의존성. LSTM에선 토큰 1에서 토큰 1,000까지 정보가 999번 비선형 변환 거쳐야 살아남아. Transformer는 모든 토큰이 모든 다른 토큰에 직접 attend — 거리가 정확히 attention 1 step.
Scaling 법칙. Transformer model은 파라미터와 데이터 늘리면 예측 가능하게 개선. LSTM은 데이터 더 줘도 못 뚫는 천장 만남. GPT와 BERT가 Transformer scaling이 질적 능력 점프 만든다는 걸 증명.

RNN은 죽지 않았어. LSTM과 GRU는 여전히 on-device/edge 배포 (sequence 길이 무관 상수 메모리), 실시간 스트리밍 (오디오 처리, 센서 데이터), Transformer의 데이터 굶주림이 단점인 작은 dataset에 유용. 이런 경우 2026년에도 RNN이 맞는 도구.

Code

BERT fine-tuning in one line via KerasHub·python

import keras_hub
import tensorflow as tf

# pip install keras-hub
classifier = keras_hub.models.BertTextClassifier.from_preset(
    "bert_base_en_uncased",
    num_classes=2,
)

classifier.compile(
    optimizer=tf.keras.optimizers.Adam(5e-5),
    loss='sparse_categorical_crossentropy',
    metrics=['accuracy'],
)

# Fine-tune on your dataset
classifier.fit(train_dataset, validation_data=val_dataset, epochs=3)
# Expect: ~93%+ on IMDB (vs ~88% for custom LSTM)

왜 Transformer가 RNN을 대체했나

2020 변곡점

Code

Progress

댓글 0