C.W.K.
Stream
Lesson 05 of 05 · published

빠져 죽지 않고 Current 유지하기

~12 min · staying-current, habits, fundamentals

Level 0Observer
0 XP0/50 lessons0/14 achievements
0/100 XP to next level100 XP to go0% complete

Signal-to-noise 문제

Post-Transformer 공간이 single 엔지니어가 careful 하게 읽을 수 있는 것보다 월 당 더 많은 논문 발표. 모든 거 읽기 시도가 잘못된 전략 — burn out, 가장-marketed 논문 (항상 best 아닌) 한테 속고, 최신 acronym 쫓으면서 fundamental 추적 잃어.

옳은 전략은 작은 수의 high-signal source 따라가고 책상 가로지르는 어떤 새 것에든 이전 트랙의 네-질문 framework 적용. Widely skim, 뭔가 네-질문 filter 통과할 때만 deeply read.

High-signal source list

  • GitHub 의 state-spaces/mamba (18K+ stars). Issue, PR, discussion 이 working 지식 사는 곳. Blog 보다 commit 더 많이 read.
  • RWKV Foundation (rwkv.com) RWKV roadmap 과 버전 추적 위해.
  • Hugging Face blog ecosystem 지원으로 실제 ship 할 새 모델 architecture announcement 위해.
  • Latent Space podcast / blog architecture 연구자와의 high-quality interview 위해 — framing 이 종종 논문 자체보다 더 명확.
  • Papers With Code, sequence modeling section, benchmark-tracked architecture 비교 위해.
  • NeurIPS / ICML / ICLR architecture 트랙 그 해의 가장-cited architecture work 위해 — spotlight 논문 read, 나머지 대부분 skip.

주의해서 read 할 거

  • 벤치마크 결과 — 비교가 최적화된 FA3+GQA Transformer 대비인지 naive baseline 대비인지 항상 체크. 많은 "X 가 Transformer 이김" 결과가 fair baseline 아래 사라져.
  • Scaling 주장 — 대부분 architecture 비교가 <10B scale 에서 테스트. 70B+ 에서 행동 다를 수 있어. "1B 에서 작동" 이 "70B 에서 작동" 의미한다고 가정 마.
  • Production 주장 — 논문 demo 와 실제 production 배포 구분. "배포 가능" 과 "scale 에서 배포됨" 이 매우 다른 거.

Fundamental 은 안 움직여

모든 architecture churn 통해, fundamental tradeoff 가 stable: recall vs 압축. 이 quest 의 모든 architecture 가 이 spectrum 에 다른 선택. Transformer 가 cost 에 recall 최대화. Pure SSM 이 recall cost 에 efficiency 최대화. Hybrid 가 둘 다 유지 시도, usable recall 위해 작은 efficiency tax.

워크로드가 recall-vs-압축 spectrum 어디 앉는지 이해하면, 최신 20 architecture acronym 외운 underlying tradeoff 안 외운 사람보다 더 durable mental model 가져. Architecture 가 계속 evolve 할 거; underlying tradeoff 가 underlying tradeoff 계속 일 거. Fundamental 에 anchor; 새 work sample.

External links

Exercise

본인 "architecture watch list" build. 위 list 에서 source 셋 골라, 그것들 skim 할 30-min weekly slot 설정, 눈 catch 하는 어떤 새 거든 네-질문 framework 적용. 네 질문 다 통과하는 거 deeper read. 하나 이상 fail 하는 거 archive. 3 개월 후 calibrated, low-effort feed 가져, burn out 시키지 않고 실제 중요한 development 도 안 missing.

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.