한 paragraph 안의 operator
Hyena (Poli et al., 2023.2, ICML 2023, arXiv:2302.10866) 는 multiplicative gating 과 implicit long convolution 을 interleave 하는 operator 로 build. order-N Hyena operator 가 alternating sequence 로 N convolution 과 N gate 적용. 각 filter 가 positional encoding 받는 작은 FFN 으로 implicit 하게 생성.
Complexity 는 O(L · D · (log L + D)), L 은 sequence length, D 는 model dimension. log L 항이 FFT 에서. Short sequence 에서는 attention 의 O(L² · D) cost 와 비슷 (L ~ D 에 대략 비교 가능). Hyena advantage 가 sequence length 따라 scale: 8K 토큰에서 Hyena 는 attention 보다 약 2× 빠름; 64K 토큰에서 100× 빠름. Sequence 가 길수록 gap 커.
Multiplicative gating 부분
Convolution 만으로는 모델한테 attention 과 경쟁할 충분한 nonlinear capacity 안 줘. Hyena 가 convolution layer 사이에 multiplicative gating 추가: x ← x * gate(v), v 는 학습된 per-token modulator. GLU 와 SwiGLU activation 에서 보는 같은 종류 gating, 그냥 Hyena operator 안 적용. 이게 Hyena 한테 language task 에 경쟁력 있을 만한 expressive power 주는 것.
Speed 가 실제 어디서 중요한가
8K 에서 2× speedup 은 흥미롭지만 transformative 하지 않아 — FlashAttention 이 naive attention 대비 비교 가능 speedup 사. 64K 에서 100× speedup 이 Hyena 가 deployment 선택으로 중요해지기 시작하는 곳. 그리고 megabase-scale genomic sequence 에서는 비교 자체가 안 돼 — Transformer 가 그 length 에서 전혀 못 돌아, Hyena 는 가능.