Convolution 으로 돌아가는 case
Convolution 이 attention 이기기 전 dominant sequence-mixing primitive 였어. 잘 이해된 수학적 속성, 잘 테스트된 kernel, 그리고 재검토할 가치 있는 세 구조적 advantage: shift-invariance (sequence 어디 나타나든 같은 패턴 인식), natural FFT computation O(L log L) cost 에, position 전반 parameter sharing (size k kernel 이 어디든 적용되는 weight 한 set).
Historical objection: 표준 1D convolution 이 fixed receptive field. Kernel size k convolution 이 k-token window 안 정보만 mix 가능. Long-range dependency 다루려면 천문학적으로 큰 kernel 필요 — kernel weight 가 저장돼야 하고, 비례 메모리 필요.
Implicit-filter 잠금 해제
Hyena 의 통찰: filter 를 저장 안 해도 돼. position 을 input 으로 받고 filter weight 출력하는 작은 neural network 에서 on-the-fly 생성. 이 트릭과 함께, filter 가 임의로 길게 — full sequence length 라도 — 한 번에 메모리에 존재 안 하고. Filter 생성하는 FFN 이 filter 가 얼마나 길든 fixed parameter count.
이게 positional encoding 과 같은 엔지니어링 패턴: 명시적 position embedding 학습 (position 당 parameter 하나) 대신, function 사용 (RoPE 가 position 의 함수인 각도로 회전). Implicit filter 가 convolution analog. Compute cost 가 "giant filter 저장" 에서 "매 position 에서 작은 FFN 호출" 로 옮겨가 — 모던 hardware 에서 훨씬 나은 거래.