3 개의 변곡점
Deep learning 의 modern 역사는 짧고 강렬해. 2012 — AlexNet: GPU 두 장으로 train 한 CNN 이 ImageNet top-5 error 를 하룻밤에 거의 반으로 깎았어. Neural net 에 회의적이었던 community 가 1 년 만에 pivot 했지. 2014–2017 — architecture 러쉬: VGG, GoogLeNet, ResNet, attention, seq2seq, batch normalization, Adam. 우리가 지금도 쓰는 toolbox 가 이때 만들어졌어. 2017 — Transformer: Attention Is All You Need 가 GPU/TPU 에서 horizontally scale 되는 recurrence-free architecture 를 제안. 2018 년에 BERT 와 GPT 가 NLP 를 먹었고, 2020 년에 vision (ViT) 과 speech 까지 먹었어.
가능하게 한 재료들
알고리즘 천재성만으로 된 게 아냐. 세 가지가 align 해야 했어: data (ImageNet, open web), compute (GPU 가 graphics 부속에서 general-purpose tensor engine 으로), differentiable software (Theano, Caffe, 그 다음 PyTorch 와 TensorFlow). 1995 년 연구자들도 비슷한 idea 가 있었지만 셋 다 없었어.
다음 10 년에 대해 알려주는 것
각 변곡점은 돌이켜보면 명백하고 그 순간엔 충격적이야. Arc 는 멈추지 않았어 — foundation model, multi-modal training, reasoning-oriented post-training 이 현재 frontier. 패턴은 같아: 더 좋은 representation, 더 많은 data, 더 많은 compute, 더 좋은 software. 어떤 재료가 본인 문제의 binding constraint 인지 직관 키우는 게 날짜 외우는 것보다 유용해.