왜 Convolution 다시 봐?

Convolution 으로 돌아가는 case

Convolution 이 attention 이기기 전 dominant sequence-mixing primitive 였어. 잘 이해된 수학적 속성, 잘 테스트된 kernel, 그리고 재검토할 가치 있는 세 구조적 advantage: shift-invariance (sequence 어디 나타나든 같은 패턴 인식), natural FFT computation O(L log L) cost 에, position 전반 parameter sharing (size k kernel 이 어디든 적용되는 weight 한 set).

Historical objection: 표준 1D convolution 이 fixed receptive field. Kernel size k convolution 이 k-token window 안 정보만 mix 가능. Long-range dependency 다루려면 천문학적으로 큰 kernel 필요 — kernel weight 가 저장돼야 하고, 비례 메모리 필요.

Implicit-filter 잠금 해제

Hyena 의 통찰: filter 를 저장 안 해도 돼. position 을 input 으로 받고 filter weight 출력하는 작은 neural network 에서 on-the-fly 생성. 이 트릭과 함께, filter 가 임의로 길게 — full sequence length 라도 — 한 번에 메모리에 존재 안 하고. Filter 생성하는 FFN 이 filter 가 얼마나 길든 fixed parameter count.

이게 positional encoding 과 같은 엔지니어링 패턴: 명시적 position embedding 학습 (position 당 parameter 하나) 대신, function 사용 (RoPE 가 position 의 함수인 각도로 회전). Implicit filter 가 convolution analog. Compute cost 가 "giant filter 저장" 에서 "매 position 에서 작은 FFN 호출" 로 옮겨가 — 모던 hardware 에서 훨씬 나은 거래.

Exercise

tiny implicit-filter convolution 구현: (positional encoding, layer index) 받아서 1024-tap filter 출력하는 3-layer MLP, torch.fft.rfft / irfft 통해 1024-length signal 에 적용. FFT-based application 이 같은 filter 의 명시적 conv1d 와 같은 결과 주는지 확인. 둘 다 시간 재. FFT 경로가 ~512+ filter tap 에서 앞서 — 그 crossover 가 Hyena 스토리 시작되는 곳.

Convolution 으로 돌아가는 case

Implicit-filter 잠금 해제

External links

Exercise

Progress

댓글 0