궁극의 정규화: 극한 스케일 압축

숫자가 우주를 가로지를 때

어떤 양은 미친 스케일에 살아. 별 밝기 — 태양에서 먼 은하까지. 지진 매그니튜드 — 거의 못 느낀 미진에서 대륙 흔드는 재앙까지. 소리 — 속삭임에서 제트 엔진까지. 언어 모델에서 확률 — "매우 흔함" 에서 "사실상 절대".

이걸 선형 스케일에 plot 하면 실패 — 작은 값이 보이지 않게 짓눌림. 로그가 압축. 지수 범위를 선형 느낌으로 변환.

데시벨: 네 귀가 이미 함

데시벨 스케일이 음 강도를 로그로 측정: $dB = 10 lo g_{10} (I / I_{0})$ . 0 dB = 청력 임계. 60 dB = 대화. 120 dB = 제트 엔진. 10 dB 단계마다 실제 음 에너지 10× 변화. 네 귀가 이미 이렇게 인식 — 강도가 ~10× 되면 "두 배 시끄럽다" 들림. 엔지니어가 dB 를 사람 인식에 맞게 만들었고, 그 인식 자체가 로그.

왜 AI 가 로그 사랑

세 가지 일:

수치 안정성. 작은 확률 곱셈 ( $1 0^{- 50} \times 1 0^{- 50}$ ) 이 float32 에서 0 으로 underflow. 로그 합 (-50 + -50 = -100) 은 안 그래.
손실 함수. Cross-entropy 손실 = $- \sum y_{i} lo g (\overset{y}{^}_{i})$ . 로그가 정답 근처엔 부드러운 gradient, 매우-틀림엔 가혹한 페널티 — 정확히 우리가 원하는 비대칭.
시각화. 손실 곡선이 보통 로그 y축에 — 초기 극적 drop 이 후기 미묘한 개선 묻지 않게.

로그 = 극한 범위용 압축기. 자릿수 가로지르는 데이터엔 선형 사고가 죽음. 로그로 전환하면 구조가 다시 보임.

Code

와일드 범위를 선형 단계로 압축·python

import numpy as np

# 별 밝기 — 자릿수 떨어진
brightness = np.array([1e-3, 1e-1, 1e1, 1e3, 1e5, 1e7])

# 선형 plot 은 작은 거 압축
print(brightness)

# 로그 스케일이 비교 가능하게
print(np.log10(brightness))   # [-3 -1  1  3  5  7]

# 데시벨 — 음 강도에 정확히 같은 아이디어
intensity = np.array([1e-12, 1e-9, 1e-6, 1e-3, 1])
dB = 10 * np.log10(intensity / 1e-12)
print(dB)       # [  0  30  60  90 120]

Exercise

1~10000 임의 100개 생성. 선형 x축에 히스토그램, 그 다음 로그 x축. 로그-스케일 히스토그램이 해석 가능해지고, 선형은 큰 값 몇 개에 지배됨을 봐.

Hint

np.random.uniform(1, 10000, 100) 후 plt.xscale('log'). 많은 실세계 양 (파일 크기, 소득, 도시 인구) 이 읽히려면 로그 스케일 필요.

궁극의 정규화: 극한 스케일 압축

숫자가 우주를 가로지를 때

데시벨: 네 귀가 이미 함

왜 AI 가 로그 사랑

Code

External links

Exercise

Progress

댓글 2

1~10000에 걸쳐 자릿수가 고르게 퍼지도록 로그 균등 생성 (현실 데이터의 전형)

선형 x축 히스토그램

로그 x축 히스토그램 — 로그 간격 구간 사용