Architecture 를 data shape 에 매치
- MLP — tabular numeric feature, fixed-size embedding, flat vector 의 단순 regression/classification. 진짜 tabular data 에 gradient boosting 에 자주 짐, learned backbone 위 head 로 유용.
- CNN — image, 2-D spatial signal (spectrogram), video frame, low-dimensional structured grid. Locality 와 translation 의 강한 inductive bias. 거의 모든 거에 pretrained backbone 사용 가능.
- RNN / LSTM / GRU — constant per-token cost requirement 의 streaming sequence, RL policy, transformer attention 의 quadratic cost 가 아픈 embedded system. 일반 use 에 transformer 로 largely 대체.
- Transformer — text, code, global dependency 의 long sequence, multi-modal. 2026 년 거의 모든 sequence-shaped 의 default.
- State-Space Model (Mamba, Mamba-2, RWKV) — transformer 의 O(n²) attention 이 너무 비싼 매우 long sequence. Sequence length 에 linear. 여전히 emerging.
- Foundation model (CLIP, DINOv2, SAM, GPT-class LLM) — black-box embedding 또는 fine-tunable base 로 사용. 'foundation model 그냥 써' 답이 진짜 application 의 surprising fraction 을 cover.
팁: Architecture 의 inductive bias 를 data 의 structure 에 매치. 100-feature tabular dataset 에 attention 적용 안 하기, text 에 CNN 적용 안 하기. Mismatched architecture 도 'work' 하지만 parameter 낭비, 더 나쁜 generalization.
'Foundation model first' shortcut
대부분 application work 에 올바른 수: 관련 foundation model (vision-language 에 CLIP, general vision 에 DINOv2, text 에 Llama / Qwen / GPT-class LLM) 골라, data embed, tiny head train. Architecture 결정의 90% 건너뜀.
원칙: 2026 년 architecture 결정이 대부분 'custom CNN 의 shape 가 뭐?' 가 아니라 '어떤 foundation model 부터 시작?'. 받아들여 — leverage 가 backbone 이 아니라 data 와 head 에 있어.