2020 변곡점
2020년쯤엔 Transformer가 NLP에서 LSTM/GRU를 대체했어. 세 구체적 이점이 변화 이끌어:
- Training 병렬성. RNN은 순차 — step 5는 step 4 끝나야 시작. 1,000 토큰 sequence는 GPU 수 무관하게 1,000번 순차 연산 필요. Transformer는 attention으로 모든 위치 동시 처리. 같은 model, 10–100배 빠른 training.
- 장거리 의존성. LSTM에선 토큰 1에서 토큰 1,000까지 정보가 999번 비선형 변환 거쳐야 살아남아. Transformer는 모든 토큰이 모든 다른 토큰에 직접 attend — 거리가 정확히 attention 1 step.
- Scaling 법칙. Transformer model은 파라미터와 데이터 늘리면 예측 가능하게 개선. LSTM은 데이터 더 줘도 못 뚫는 천장 만남. GPT와 BERT가 Transformer scaling이 질적 능력 점프 만든다는 걸 증명.
RNN은 죽지 않았어. LSTM과 GRU는 여전히 on-device/edge 배포 (sequence 길이 무관 상수 메모리), 실시간 스트리밍 (오디오 처리, 센서 데이터), Transformer의 데이터 굶주림이 단점인 작은 dataset에 유용. 이런 경우 2026년에도 RNN이 맞는 도구.