YaRN("Yet another RoPE extensioN", Peng et al. 2023)은 RoPE 기반 모델을 긴 컨텍스트로 확장하는 데 production에서 가장 성공한 기법. Llama 3랑 많은 커뮤니티 fine-tune이 YaRN 또는 YaRN 모양 레시피 사용.
YaRN이 이용하는 통찰
RoPE는 여러 주파수의 sinusoid로 위치를 인코딩. 고주파 차원(작은 θ)은 빨리 한 바퀴 돌아 — 가까운 위치 구별하는 친구들. 저주파 차원은 천천히 돌아 — 멀리 떨어진 위치 구별하고, 따라서 컨텍스트 확장 시 분포 밖으로 나가는 친구들.
순진한 Position Interpolation은 모든 주파수를 균일하게 재스케일 — 동작은 하는데 모델이 이미 학습한 local 패턴을 압축. NTK-aware scaling은 저주파 차원만 재스케일하고 고주파는 그대로 둬. YaRN은 여기에 temperature-scaled attention 수정을 더해서 결과 개선.
영수증
YaRN은 LLaMA 모델을 4K → 128K 컨텍스트로 확장 시 풀 재학습 대비 약 10배 적은 fine-tuning 토큰, 이전 보간 방법 대비 2.5배 적은 학습 step을 보였어. Llama 3는 8K 학습 base를 release 모델 카드의 128K 컨텍스트로 확장하는 데 YaRN 스타일 스케줄 사용.