Signal-to-noise 문제
Post-Transformer 공간이 single 엔지니어가 careful 하게 읽을 수 있는 것보다 월 당 더 많은 논문 발표. 모든 거 읽기 시도가 잘못된 전략 — burn out, 가장-marketed 논문 (항상 best 아닌) 한테 속고, 최신 acronym 쫓으면서 fundamental 추적 잃어.
옳은 전략은 작은 수의 high-signal source 따라가고 책상 가로지르는 어떤 새 것에든 이전 트랙의 네-질문 framework 적용. Widely skim, 뭔가 네-질문 filter 통과할 때만 deeply read.
High-signal source list
- GitHub 의 state-spaces/mamba (18K+ stars). Issue, PR, discussion 이 working 지식 사는 곳. Blog 보다 commit 더 많이 read.
- RWKV Foundation (rwkv.com) RWKV roadmap 과 버전 추적 위해.
- Hugging Face blog ecosystem 지원으로 실제 ship 할 새 모델 architecture announcement 위해.
- Latent Space podcast / blog architecture 연구자와의 high-quality interview 위해 — framing 이 종종 논문 자체보다 더 명확.
- Papers With Code, sequence modeling section, benchmark-tracked architecture 비교 위해.
- NeurIPS / ICML / ICLR architecture 트랙 그 해의 가장-cited architecture work 위해 — spotlight 논문 read, 나머지 대부분 skip.
주의해서 read 할 거
- 벤치마크 결과 — 비교가 최적화된 FA3+GQA Transformer 대비인지 naive baseline 대비인지 항상 체크. 많은 "X 가 Transformer 이김" 결과가 fair baseline 아래 사라져.
- Scaling 주장 — 대부분 architecture 비교가 <10B scale 에서 테스트. 70B+ 에서 행동 다를 수 있어. "1B 에서 작동" 이 "70B 에서 작동" 의미한다고 가정 마.
- Production 주장 — 논문 demo 와 실제 production 배포 구분. "배포 가능" 과 "scale 에서 배포됨" 이 매우 다른 거.
Fundamental 은 안 움직여
모든 architecture churn 통해, fundamental tradeoff 가 stable: recall vs 압축. 이 quest 의 모든 architecture 가 이 spectrum 에 다른 선택. Transformer 가 cost 에 recall 최대화. Pure SSM 이 recall cost 에 efficiency 최대화. Hybrid 가 둘 다 유지 시도, usable recall 위해 작은 efficiency tax.
워크로드가 recall-vs-압축 spectrum 어디 앉는지 이해하면, 최신 20 architecture acronym 외운 underlying tradeoff 안 외운 사람보다 더 durable mental model 가져. Architecture 가 계속 evolve 할 거; underlying tradeoff 가 underlying tradeoff 계속 일 거. Fundamental 에 anchor; 새 work sample.