같은 루프, 여러 번
루프 봤어:
- 파라메트릭 모델 정의 (선형 회귀: ).
- 손실 함수 픽 (회귀엔 MSE).
- Gradient descent 로 파라미터 최적화.
- 검증/테스트 데이터 hold out 해 overfitting 감지.
이제 stack 해. 신경망 = 그저 비선형 활성 사이에 끼우고 함께 합성된 많은 선형 회귀. 각 layer = 그 다음 ReLU 나 sigmoid. 마지막 layer = 회귀 (또는 분류) head. 모든 W 와 b 를 backprop 으로 한 번에 최적화 (다음 트랙).
개념적 연속성
| 선형 회귀 | 딥러닝 |
|---|---|
| 2 파라미터 (w, b) | 수백만 또는 수십억 파라미터 |
| Closed-form 해 | Gradient descent (closed form X) |
| 1 라인 | Stack 된 변환 |
| MSE loss | MSE / cross-entropy / 등 |
| 데이터 + 단순 모델로 overfitting 통제 | 데이터 + dropout + weight decay + early stopping 으로 overfitting 통제 |
같은 chassis, 더 많은 마력.
트랙 보상
유니버설 학습 루프 배움: 파라메트릭 모델 + loss + 옵티마이저 + held-out 평가. 선형 회귀 = seed. 모든 신경망 = 같은 아이디어 강화 버전. 다음 두 트랙 (Calculus, Backprop) 가 거대 모델에서 이 루프 작동시키는 메커닉 줘.