SSM 이 attention 과 어떻게 다른가

근본적으로 다른 두 메모리 모델

Attention 과 SSM 은 "같은 연산의 두 algorithm" 이 아냐. sequence memory 를 다루는 진짜 다른 두 방법. 가장 명확한 view: attention 은 database, SSM 은 stream summary.

위치 i 의 attention layer 는 모든 이전 토큰의 value 에 대해 명시적 per-token weight 를 끌어와. full n×n attention matrix 가 database — 각 cell 이 두 토큰 사이 직접 연결, 모델이 원하면 어떤 과거 토큰에서든 현재로 정보 라우팅 가능. 위치 i 의 SSM 은 현재 input x_i 와 현재 state h_i 만 접근 가능. h_i 는 recurrence 를 통과해 살아남은 무엇 — 위치 j<i 의 특정 토큰으로 돌아가는 길 없음.

강점 쪽

SSM 은 자원 소비에서 이겨. 추론 시 constant memory. linear compute. 자라날 KV-cache 없음. Transformer 가 OOM 나는 sequence length 에서 consumer hardware 에서도 가능. 관련 정보 대부분이 state 에 잡히는 워크로드 — audio 의 streaming inference, time-series forecasting, bulk content 가 중요한 long-form text — 에는 환상적이야.

약점 쪽

SSM 은 특정 과거 토큰의 정확한 retrieval 이 필요한 task 에서 잃어. SSM 한테 긴 passage 보여주고 "두 번째 paragraph 의 세 번째 숫자가 뭐였어?" 물으면 — pure SSM 은 systematic 하게 실패. 정보는 거기 있었지만, recurrence 의 일은 summarization 이지 indexing 이 아냐. 2025 NeurIPS 논문 "Achilles' Heel of Mamba" 가 이를 엄밀히: pure SSM 은 Transformer 가 안 가진 associative recall 의 provable failure mode 가 있고, 그 failure mode 는 더 많은 데이터로 patch 안 돼 — structural.

이게 핵심 거래야. SSM 과 Transformer 를 single benchmark 에서 비교하면서 어느 쪽이 "더 나아" 묻고 있다면, 잘못된 질문 하는 거야. 옳은 질문: 내 워크로드가 full window 에 대한 정확한 recall 을 신경 쓰나, 낮은 cost 의 steady summarization 을 신경 쓰나?

Exercise

작은 associative-recall 테스트 직접 돌려봐. "key1=val1 key2=val2 ... keyN=valN. What is val of key3?" 형태의 synthetic data 생성, N 을 256 까지. 작은 Transformer (≤10M param) 와 비슷한 크기 Mamba 학습. Transformer 는 100% accuracy 에 쉽게 도달; Mamba 는 N 자라면서 그 한참 아래에서 plateau. 이게 recall gap, 네 손에서.