StripedHyena 와 Real-World Performance

StripedHyena-7B — 첫 신뢰할 만한 Hyena LLM

StripedHyena-7B (Together AI, 2023.12) 가 표준 벤치마크에서 Llama-2 7B 와 Mistral 7B 와 competitive 한 첫 alternative architecture. 트릭은 hybrid: 모델 bulk 위해 다수 Hyena layer 사용, 모델이 정확한 recall 필요한 곳에 표준 attention layer (RoPE 와) 소수. SSM 공간에 emerge 한 같은 hybrid 패턴.

학습이 dramatically 빨라 — Transformer baseline 대비 128K context 에서 50%+ 빠른 학습. paper-only 숫자 아냐; StripedHyena codebase 가 open 이고 speedup 이 reproducible.

StripedHyena 2 — multi-scale operator

StripedHyena 2 (2025.2, arXiv:2503.01868) 가 진짜 새로운 거 도입: 다른 sequence range 에 specialize 된 세 operator type. Hyena-SE 가 short-range efficient mixing 처리. Hyena-MR 가 medium-range. Hyena-LI 가 deep range 위해 long implicit convolution 사용. 모델의 다른 layer 가 capture 하려는 dependency scale 기준으로 다른 operator 할당.

이 multi-scale 디자인이 Hyena 외에서도 흥미 — family 전반 미래 hybrid architecture 에 나타날 수 있는 (그리고 아마 나타날) 패턴. 모든 range 처리하도록 강요받은 operator 하나 대신, 가장 잘하는 range 에 specialize 된 operator 할당.

Killer app: Evo 2

스토리가 흥미로워지는 곳. 가장 영향력 있는 Hyena 배포가 chatbot 아냐. Evo 2 — viable mitochondrial genome 생성하는 1M context 의 40B parameter genomic 모델. StripedHyena 2 가 powering. Arc Institute, Stanford, Together AI 가 build.

Genomics 가 Hyena 의 profile 이 완벽 fit 하는 곳: 극히 긴 sequence (DNA 가닥이 수십억 base 까지), 자연어보다 더 regular, 더 local 한 패턴, 그리고 full sequence 전반 statistical 패턴 capturing 보다 정확한 recall 이 덜 중요. 1M context length 의 Transformer 는 specialized 인프라 없이 사실상 불가능; Hyena 는 native 처리.

Exercise

Evo 2 announcement 와 함께 오는 technical appendix 중 하나 읽어. 팀이 Transformer 나 SSM 대신 왜 Hyena 골랐다고 묘사하는지 specifically 메모. 추론은: "필요한 context length 가 수백만, recall 이 우리가 원하는 main capability 아님, statistical 패턴 capture 가 그것". 그 추론 template — architecture 를 데이터 모양에 매치 — 이 build 할 수 있는 어떤 non-language 워크로드에도 portable.