Deep learning 이 자주 이기는 3 패턴
Perception — raw pixel/waveform/text 를 구조화된 prediction 으로 변환. Image classification, object detection, ASR, OCR, NER. 수십 년의 hand-crafted feature pipeline 이 몇 년만에 대체됐어.
Generation — data distribution 을 따르는 구조화된 output 생성. Translation, image synthesis, code completion, TTS, music generation. Model 이 data manifold 를 배우고 거기서 sampling 해.
Context 하의 sequence reasoning — 긴 input 을 받아 global structure 에 의존하는 output 생성. Document understanding, code refactoring across many files, multi-turn dialog, agentic tool use. Transformer 가 여기서 강한 이유 — attention 이 모든 token 이 모든 token 을 보게 해.
왜 이 패턴들이 비슷한가
셋 다 high-dimensional, redundant, latent structure 가 많은 data 의 learned representation 에서 이득 봐. 그리고 셋 다 pretraining 이 보답하는 곳이야 — open web 으로 pretrain 된 model 은 대부분의 패턴을 이미 봤어, 본인 task 로 가리키기만 하면 돼.
경계 사례들
Deep learning 이 자동으로 사람이나 classical method 를 이기는 게 아닌 곳: feature engineering 이 강한 tabular (gradient boosting 여전히 승), pretraining 옵션 없는 작은 dataset, interpretability 가 hard requirement 인 문제, 틀리는 비용이 느린 비용보다 큰 곳. 다음 lesson 이 정확히 그 경계에 대한 거야.