세 Computation Paradigm

같은 parameter, 세 execution pattern

RetNet 의 헤드라인 엔지니어링 주장은 같은 학습된 parameter 가 다른 시나리오에 각각 optimal 한 세 호환 가능 mode 에서 실행 가능하다는 것:

Parallel mode (O(n²)). Attention 계산과 동일: n×n score matrix 만들기 (exponential-decay mask 와 함께), softmax-normalize, V 곱하기. 학습 중 사용 — full sequence 한 번에 가지고 GPU parallelism 최대화하고 싶을 때. 표준 attention 과 같은 matmul-friendly compute pattern.

Recurrent mode (토큰 당 O(1)). State s 유지하고 토큰마다 update. Autoregressive 추론 중 사용. Constant memory, 토큰 당 constant compute. 이게 long-context generation 이기는 mode.

Chunkwise recurrent mode (O(N·B)). Sequence 를 size B chunk 로 split. 각 chunk 안에서 parallel mode 사용. Chunk 사이는 recurrent mode (chunk-end state 를 forward 로 pass). 긴-sequence 학습 또는 긴 추론 prompt 의 pre-fill 중 사용. 약간의 학습-시간 parallelism 을 single attention matrix 에 안 들어가는 sequence 처리 능력과 거래.

왜 세 mode 가 두 mode 보다 큰가

많은 architecture 가 parallel 과 recurrent 형태 가져. RetNet 의 chunkwise mode 는 dual-form 이 실제 scale 하게 만드는 다리 — chunking 없으면 long sequence 에서 O(n²) 메모리 (parallel) 내거나 GPU parallelism 완전 포기 (pure recurrent). Chunked 가 long context 에서 학습하면서도 GPU 잘 사용하게 해.

벤치마크 숫자

원본 RetNet 논문이 6.7B scale 에서 보고: 비교 가능 size Transformer 대비 8.4× 빠른 decode, 70% 적은 메모리, 7× 학습 speedup. 큰 숫자고 측정된 regime 에 진짜야. 같은 scale 의 오늘날 최적화된 FA3+GQA Transformer 대비 유지되는지는 — 모든 architecture 비교 숫자처럼 — 어떤 baseline 을 신뢰하느냐의 함수.

Exercise

이전 lesson 의 parallel 과 recurrent retention 구현 가져와서 chunkwise mode 추가. 길이 1024 sequence 를 128 chunk 로 split 했을 때, chunkwise mode 가 parallel mode 와 동일 output 산출 확인. 이 운동의 핵심은 chunk-boundary state-passing 어디서 일어나는지 느끼는 거 — 그게 세-paradigm 스토리가 실제 작동하게 하는 엔지니어링 트릭.

같은 parameter, 세 execution pattern

왜 세 mode 가 두 mode 보다 큰가

벤치마크 숫자

External links

Exercise

Progress

댓글 0