Dropout은 학습 중 activation 일부를 랜덤하게 0으로 만들어 — 네트워크가 단일 유닛에 의존하기보다 중복 표현을 학습하게 강제. 원조 Transformer는 dropout 0.1(base)/0.3(big)을 attention 가중치, sublayer 출력, embedding에 적용.
모던 큰 사전학습 모델은 종종 사전학습 중 dropout을 아예 안 써, 또는 아주 작은 값(0.0–0.05). 이유는 regime 의존적. 2020년 이전 모델은 비교적 작은 데이터셋에서 여러 epoch 학습 — overfitting 위험 실재, dropout 도움. 모던 프론티어 모델은 수조 토큰에서 ~1 epoch 학습 — 각 예시가 한 번 보임, overfitting이 구조적으로 불가능, dropout은 그저 noise로 학습을 늦출 뿐.
2026년에도 dropout이 여전히 쓰이는 곳: 작은 base에 작은 데이터셋 fine-tune, distillation run, 불확실성 추정용 dropout 기반 방법(예: MC Dropout). 대규모 사전학습엔 분야가 떠났어.