Jamba 1.0 — 첫 production hybrid Mamba
AI21 Labs 의 Jamba (2024.3) 가 scale 에서 ship 한 첫 production-grade Mamba-based 모델. 총 52B / active 12B Mixture-of-Experts 로. Architecture: block 당 7 Mamba layer + 1 attention layer, 2 layer 마다 MoE. Effective 256K context. Apache 2.0 license, open weight.
Jamba 가 중요한 이유는 세상에서 best 모델이라서 (아니었어) 가 아니라 hybrid SSM-attention 이 productionize 가능 증명해서야. Jamba 전엔 hybrid architecture 가 research 논문. Jamba 후에는 enterprise procurement target.
Jamba 1.5 — 검증
Jamba 1.5 (2024.8) 가 두 버전 ship: Large (94B/398B MoE) 와 Mini (12B). Mini 가 대부분 팀이 실제 evaluate 할 버전 — 관리 가능한 parameter count, 잘 documented, commercial license 와 함께 open weight 가용.
Jamba 1.5 의 헤드라인 벤치마크 결과는 256K context 의 RULER. RULER 는 game 하기 어렵게 디자인된 long-context 벤치마크 — 모델이 그렇게 많은 토큰을 technically accept 가능하느냐가 아니라, full claimed context window 를 실제 사용하는지 테스트. Jamba 1.5 가 release 시 RULER 에서 effective 256K context 달성한 유일한 모델. 의미 있는 주장 — 많은 "long context" Transformer 가 RULER 의 depth recall test 에서 무너져.
배포 스토리
Jamba 1.5 는 AWS Bedrock, Azure AI Studio, Google Cloud Vertex 에 가용. 세 major hyperscaler 전부 production 배포는 enterprise customer 한테 중요한 종류. Hybrid architecture 는 AI21 한테 research curiosity 아냐 — commercial offering.
Jamba 의 디자인 탐색에서 핵심 경험적 발견: 1:7 attention-to-Mamba 비율이 optimal point. 더 높은 attention 비율이 quality 를 significantly 개선 안 했지만 cost 는 증가. 더 낮은 비율은 recall degrade 시작. 결과는 비슷한 effective size 의 pure Transformer 대비 약 10× KV-cache 감소.