C.W.K.
Stream
Lesson 11 of 11 · published

State-space 대안 — Mamba, RWKV, 그리고 다음 후보

~12 min · mamba, rwkv, ssm

Level 0Token
0 XP0/94 lessons0/10 achievements
0/120 XP to next level120 XP to go0% complete

모든 시퀀스 아키텍처가 Transformer는 아니야. State-space 모델(SSM)과 RNN-Transformer 하이브리드 일부가 O(n) 복잡도 대안 제공 — 언어 품질에 가까워지는 중이고 긴 컨텍스트에선 의미 있게 싸.

Mamba (Gu & Dao, 2023)

Mamba는 self-attention을 selective state-space 모델로 대체 — 어떤 정보를 유지/망각할지 결정하는 입력 의존 state transition 행렬. attention의 O(n²) 대신 O(n) 연산 + O(1) state. Mamba 1이 비교 가능한 Transformer 대비 긴 시퀀스에서 throughput 5배, wall-clock 3배 속도 시연.

Mamba 2 (2024)는 SSM을 구조화된 linear attention으로 재구성, 같은 연산을 행렬곱으로 표현. 결과: Mamba 1보다 학습 2-8배 빠름 + 구현 단순.

RWKV

RNN-Transformer 하이브리드 — Transformer처럼 병렬 학습, RNN처럼 O(1) 메모리로 추론. V4-V8 거치며 트릭 누적 — multi-headed 행렬 state, 동적 LoRA 기반 토큰 shifting, attention-free 혼합 layer. 많은 벤치마크에서 비교 가능 품질, 극적으로 낮은 추론 메모리.

아키텍처학습 컴퓨트추론 메모리긴 컨텍스트 동작
Transformer (dense attention)O(n²)O(n)1× (베이스라인)
Mamba 1O(n)O(1)throughput 5배
Mamba 2O(n)O(1)Mamba 1보다 학습 2-8배 빠름
RWKV (V6+)O(n) 학습, O(1) 추론O(1)비교 가능 품질, 더 작은 메모리

이론적 우위에도 불구하고 SSM은 2026년 기준 production 언어 task에서 Transformer를 밀어내지 못했어. attention의 직접적 any-position 연결성이 복잡 추론에 여전히 강력하고, 엔지니어링 생태계(Flash Attention, vLLM, 학습 프레임워크)가 Transformer에서 효율의 마지막 한 방울까지 짜내도록 튜닝됐거든. 하이브리드 — attention과 SSM layer 번갈아 — 가 활발한 연구 방향(예: Jamba, Zamba).

Code

Conceptual SSM (selective state space)·python
# Vastly simplified — real Mamba is O(n) via clever scan algorithms.
def selective_ssm_step(x, h, A, B, C):
    # Input-dependent A, B, C (computed from x)
    h = A * h + B * x        # update state
    y = C * h                # produce output
    return y, h

# Iterating over the sequence:
h = torch.zeros(state_size)
outs = []
for t in range(seq_len):
    A_t, B_t, C_t = make_matrices(x[t])  # input-dependent!
    y, h = selective_ssm_step(x[t], h, A_t, B_t, C_t)
    outs.append(y)
# In Mamba, this scan is computed in parallel with O(n) total compute.

External links

Exercise

Mamba 2 introduction 읽어. 저자들이 차별점으로 주장하는 가장 중요한 성질 하나 식별. 그 다음 Hugging Face에서 오픈소스 Mamba 2 모델 찾아서 긴 컨텍스트 retrieval task에 돌려. 어디서 Transformer와 매치하나? 어디서 뒤처지나?

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.