LSTM 게이트가 있어도, 시퀀스 앞쪽 정보는 수백 번의 순차 변환을 거치면서 흐려져. 이게 긴 의존성 문제야. 2010년대 내내 RNN의 실전 컨텍스트가 수백 토큰 수준에 머문 진짜 이유지.
두 가지 실패 모드가 같이 작용해. 첫째는 forward: 정보가 거치는 모든 위치마다 고정 크기 hidden state로 lossy 압축이 들어가. 200번째 위치에 도달할 때면 1번째 위치 신호는 199겹의 섞임 밑에 깔려 있어. 둘째는 backward: 학습 중 gradient가 그 모든 단계를 거꾸로 통과해야 하는데, 자코비안 곱셈이 반복되면서 지수적으로 줄어들어. 그 유명한 vanishing gradient야.
attention이 질적으로 다른 이유
self-attention은 모든 두 위치 사이를 한 hop으로 만들어 — 어떤 두 토큰이든 하나의 가중치 행렬이 직접 비교해. 따라갈 사슬 자체가 없으니까, forward 정보 손실도 backward gradient 감쇠도 거리에 따라 누적되지 않아. 비용은 O(n²) 연산량으로 나타나지, gradient 병리로 나타나지 않는 거지.
"긴 컨텍스트가 attention 이후에야 실용화됐다"는 가장 깔끔한 한 줄 설명이 이거야. 요즘 트랜스포머는 128K, 1M, 심지어 10M 토큰(LLaMA 4 Scout)까지 가 — RNN이 좋아진 게 아니라, attention이 거리를 lossy하게 만들던 메커니즘 자체를 제거한 거야.