정규화 vs 표준화: 숫자 길들이는 두 방법

같은 목표, 다른 vibe

숫자가 있어. 미친 듯 다른 스케일에 살아 — 픽셀 0~255, 나이 18~90, 가격 달러 vs 원. 신경망에 raw 로 넣으면 trouble: 큰 feature 가 그냥 큼이라는 이유로 gradient 지배. 그래서 압축. 두 가지 주요 flavor:

정규화 (Min-Max) — 값을 고정 범위 (보통 $[0, 1]$ ) 에 짜넣기. 공식: $x_{norm} = \frac{x - x _{m i n}}{x _{m a x} - x _{m i n}}$ . 픽셀 / 255 가 canonical 예시.
표준화 (Z-score) — shift 하고 scale 해서 평균 0, 표준편차 1. 공식: $z = \frac{x - μ}{σ}$ . 데이터를 표준 정규분포 모양으로 강제.

언제 뭘 써

정규화는 모양 보존. 0~255 에서 균일해 보였으면 /255 해도 0~1 에서 균일해 보임 — 작아질 뿐. 픽셀처럼 모든 항목이 구조적으로 같은 종류일 때 좋음.

표준화는 모양도 바꿔 — outlier 끌어들이지만 결과가 bounded 아님. Z-score 는 -3, +5 등 가능. 이미 좀 normal 같은 표 형식 feature (나이, 키, 연봉) 에 좋음.

정규화는 범위 압축. 표준화는 모양 정렬. 다른 수술 — 데이터가 뭐 필요한지 따라 골라.

왜 네 신경망이 신경 써

신경망은 gradient 로 weight 갱신. Feature A 가 0~1 이고 feature B 가 0~1,000,000 이면, B 의 gradient 가 B weight 를 지배해서 신경망이 A 에 사실상 눈먼 상태. 정규화하면 같은 언어. 안 하면 epoch 낭비 (또는 그냥 수렴 안 함).

Code

두 flavor 4줄에·python

import numpy as np

img = np.random.randint(0, 256, size=(64, 64, 3)).astype(np.float32)

# Min-max 정규화 → [0, 1]
img_norm = img / 255.0
print(img_norm.min(), img_norm.max())   # 0.0  1.0 (또는 근사)

# Z-score 표준화 → 평균 0, 표준편차 1
mean, std = img.mean(), img.std()
img_std = (img - mean) / std
print(img_std.mean().round(3), img_std.std().round(3))  # ~0.0  ~1.0

PyTorch flavor·python

import torch

# 같은 연산을 PyTorch 로 — 같은 vibe, GPU-ready
x = torch.randn(1000) * 50 + 100   # 평균 100, 표준편차 50, 매우 안 정규화

x_norm = (x - x.min()) / (x.max() - x.min())  # [0, 1]
x_std  = (x - x.mean()) / x.std()             # 평균 0, 표준편차 1

Exercise

[0, 1000] 범위 임의 정수 100개 1-D NumPy 배열. (a) min-max 정규화, (b) z-score 표준화 적용. 각각 mean & std 출력. 어느 게 보장된 범위? 어느 게 보장된 평균?

Hint

np.random.randint(0, 1001, size=100). 그러고 나누고 (빼고-나누고). '보장된' 답은 '정규화' '표준화' — 근데 외우는 게 lesson 이 아니라 *숫자로 보는* 게 lesson.