모든 걸 시작한 1958 모델
Frank Rosenblatt 의 perceptron (1958) 은 single-output binary classifier: y = sign(w · x + b). Rosenblatt 는 아름다운 convergence theorem 을 증명했어 — data 가 linearly separable 이면 그의 학습 rule 이 finite step 안에 분리 hyperplane 을 찾아. 언론은 self-aware machine 의 씨앗이라고 했고, 그건 예상대로 곱게 늙지 못했지.
Minsky 와 Papert 의 Perceptrons (1969) 가 single perceptron 이 XOR 을 못 배운다는 걸 지적했어 — non-linear decision boundary 가 필요한 문제. 이 책이 뒤따른 AI winter 의 원인으로 자주 비난받는데, 실제 이유는 아무도 multilayer network 를 효과적으로 train 하는 법을 몰랐던 거야. Backprop 이 거의 20 년 뒤에 그걸 풀었지.
왜 아직 가르치는가
Perceptron 은 'output 에 step 있는 linear model' 의 가장 단순한 예야. 모든 modern classifier — softmax, sigmoid, cross-entropy — 가 더 부드럽고 differentiable 한 사촌이야. Perceptron 을 이해하면 나머지 math 가 신비롭지 않고 필연적으로 느껴져.
Perceptron rule 의 모양
Misclassify 된 예시마다, weight vector 를 positive 였어야 할 input 쪽으로 (또는 negative 였어야 할 것에서 멀리) 밀어: w := w + η y x. 변장한 gradient descent 야 — hinge 모양 loss 의 gradient + step function on top.