State-space 대안 — Mamba, RWKV, 그리고 다음 후보

모든 시퀀스 아키텍처가 Transformer는 아니야. State-space 모델(SSM)과 RNN-Transformer 하이브리드 일부가 O(n) 복잡도 대안 제공 — 언어 품질에 가까워지는 중이고 긴 컨텍스트에선 의미 있게 싸.

Mamba (Gu & Dao, 2023)

Mamba는 self-attention을 selective state-space 모델로 대체 — 어떤 정보를 유지/망각할지 결정하는 입력 의존 state transition 행렬. attention의 O(n²) 대신 O(n) 연산 + O(1) state. Mamba 1이 비교 가능한 Transformer 대비 긴 시퀀스에서 throughput 5배, wall-clock 3배 속도 시연.

Mamba 2 (2024)는 SSM을 구조화된 linear attention으로 재구성, 같은 연산을 행렬곱으로 표현. 결과: Mamba 1보다 학습 2-8배 빠름 + 구현 단순.

RWKV

RNN-Transformer 하이브리드 — Transformer처럼 병렬 학습, RNN처럼 O(1) 메모리로 추론. V4-V8 거치며 트릭 누적 — multi-headed 행렬 state, 동적 LoRA 기반 토큰 shifting, attention-free 혼합 layer. 많은 벤치마크에서 비교 가능 품질, 극적으로 낮은 추론 메모리.

아키텍처	학습 컴퓨트	추론 메모리	긴 컨텍스트 동작
Transformer (dense attention)	O(n²)	O(n)	1× (베이스라인)
Mamba 1	O(n)	O(1)	throughput 5배
Mamba 2	O(n)	O(1)	Mamba 1보다 학습 2-8배 빠름
RWKV (V6+)	O(n) 학습, O(1) 추론	O(1)	비교 가능 품질, 더 작은 메모리

이론적 우위에도 불구하고 SSM은 2026년 기준 production 언어 task에서 Transformer를 밀어내지 못했어. attention의 직접적 any-position 연결성이 복잡 추론에 여전히 강력하고, 엔지니어링 생태계(Flash Attention, vLLM, 학습 프레임워크)가 Transformer에서 효율의 마지막 한 방울까지 짜내도록 튜닝됐거든. 하이브리드 — attention과 SSM layer 번갈아 — 가 활발한 연구 방향(예: Jamba, Zamba).

Code

Conceptual SSM (selective state space)·python

# Vastly simplified — real Mamba is O(n) via clever scan algorithms.
def selective_ssm_step(x, h, A, B, C):
    # Input-dependent A, B, C (computed from x)
    h = A * h + B * x        # update state
    y = C * h                # produce output
    return y, h

# Iterating over the sequence:
h = torch.zeros(state_size)
outs = []
for t in range(seq_len):
    A_t, B_t, C_t = make_matrices(x[t])  # input-dependent!
    y, h = selective_ssm_step(x[t], h, A_t, B_t, C_t)
    outs.append(y)
# In Mamba, this scan is computed in parallel with O(n) total compute.

State-space 대안 — Mamba, RWKV, 그리고 다음 후보

Mamba (Gu & Dao, 2023)

RWKV

Code

External links

Exercise

Progress

댓글 0