방향이 도대체 뭐야 (AI 맥락에서)?

북쪽 남쪽을 넘어서

기하학 밖에서 "방향" 은 미끄러워. AI 에선 방향이 나침반의 점이 아니라 어떤 공간에서 뭐를 더 좋게/나쁘게 만들려면 어느 쪽으로 움직일지 가 됨. 그 공간은:

Loss landscape — 방향 = 어떤 weight 변화 조합이 에러를 가장 빠르게 떨어뜨리는지. Gradient 가 steepest-descent 방향.
Embedding 공간 — 방향 = 의미가 변하는 개념 축. king - man + woman ≈ queen 이 gender 축을 방향으로 사용.
Attention 공간 — 방향 = 새 토큰이 가장 강하게 "보고 있는" 이전 토큰.

다 물리적 X. 다 같은 벡터 룰 따름. 그게 거래: 벡터로 사고할 수 있게 되면 만나는 모든 이상한 AI 공간에서 거래가 갚아져.

왜 크기만으론 짐

모델이 "loss 가 높다" 만 알면 "상황이 나쁘다" 만 말할 수 있어. 실제론 — gradient 통해 — "상황 나쁨, AND w_42 살짝 위로 w_8 살짝 아래로 까딱이면 가장 빨리 덜 나빠짐" 알아. 그게 방향. 없으면 학습은 random search. 있으면 학습은 steepest descent.

방향은 "우리 길 잃었어" 를 "이쪽으로 가자" 로 바꾸는 나침반. AI 의 모든 학습 알고리즘이 너한테 그 나침반 주려고 존재해.

Code

방향 = gradient, 부호 반대·python

import numpy as np

# 장난감 'loss landscape' — 원점 거리 제곱
def loss(w):
    return np.sum(w ** 2)

# Gradient = steepest *상승* 방향
# Negate 해서 descent
def grad(w):
    return 2 * w

w = np.array([3.0, 4.0])         # 나쁜 곳에서 시작 — loss = 25
for step in range(5):
    direction = -grad(w)         # 어느 쪽으로 움직일지
    w = w + 0.1 * direction      # 작은 발걸음
    print(f"step {step}: w = {w}, loss = {loss(w):.3f}")

Exercise

위 gradient descent 코드 실행. 다른 시작점과 학습률 (그 0.1) 시도. 어느 학습률에서 발산? 어느 학습률에서 기어가? 방향은 gradient 그대로 — *step size* 만 바뀜.

Hint

학습률 1.0 (진동) 과 0.001 (영원히 기어감) 시도. 이 loss 의 sweet spot 은 0.1-0.3 근처.