Skip connection 의 코드 패턴: x = Conv2D(...)(input); x = Conv2D(...)(x); output = keras.layers.add([x, input]). 즉 두 layer 통과한 결과에 *원본 입력을 더해서* 다음으로 넘김. ResNet 의 핵심 발상.
왜 효과 있나? (1) gradient 가 identity path 통해 흘러서 vanishing 완화. (2) layer 가 *residual* (잔차) 만 학습하면 됨 — identity 위에 작은 보정. (3) 깊이 2x 해도 수렴 가능. 50 layer ResNet 이 그래서 가능했어.