C.W.K.
Stream
Lesson 03 of 06 · published

방향이 도대체 뭐야 (AI 맥락에서)?

~8 min · direction, gradients, loss-landscape

Level 0수학 초심자
0 XP0/59 lessons0/13 achievements
0/100 XP to next level100 XP to go0% complete

북쪽 남쪽을 넘어서

기하학 밖에서 "방향" 은 미끄러워. AI 에선 방향이 나침반의 점이 아니라 어떤 공간에서 뭐를 더 좋게/나쁘게 만들려면 어느 쪽으로 움직일지 가 됨. 그 공간은:

  • Loss landscape — 방향 = 어떤 weight 변화 조합이 에러를 가장 빠르게 떨어뜨리는지. Gradient 가 steepest-descent 방향.
  • Embedding 공간 — 방향 = 의미가 변하는 개념 축. king - man + woman ≈ queen 이 gender 축을 방향으로 사용.
  • Attention 공간 — 방향 = 새 토큰이 가장 강하게 "보고 있는" 이전 토큰.

다 물리적 X. 다 같은 벡터 룰 따름. 그게 거래: 벡터로 사고할 수 있게 되면 만나는 모든 이상한 AI 공간에서 거래가 갚아져.

왜 크기만으론 짐

모델이 "loss 가 높다" 만 알면 "상황이 나쁘다" 만 말할 수 있어. 실제론 — gradient 통해 — "상황 나쁨, AND w_42 살짝 위로 w_8 살짝 아래로 까딱이면 가장 빨리 덜 나빠짐" 알아. 그게 방향. 없으면 학습은 random search. 있으면 학습은 steepest descent.

방향은 "우리 길 잃었어" 를 "이쪽으로 가자" 로 바꾸는 나침반. AI 의 모든 학습 알고리즘이 너한테 그 나침반 주려고 존재해.

Code

방향 = gradient, 부호 반대·python
import numpy as np

# 장난감 'loss landscape' — 원점 거리 제곱
def loss(w):
    return np.sum(w ** 2)

# Gradient = steepest *상승* 방향
# Negate 해서 descent
def grad(w):
    return 2 * w

w = np.array([3.0, 4.0])         # 나쁜 곳에서 시작 — loss = 25
for step in range(5):
    direction = -grad(w)         # 어느 쪽으로 움직일지
    w = w + 0.1 * direction      # 작은 발걸음
    print(f"step {step}: w = {w}, loss = {loss(w):.3f}")

External links

Exercise

위 gradient descent 코드 실행. 다른 시작점과 학습률 (그 0.1) 시도. 어느 학습률에서 발산? 어느 학습률에서 기어가? 방향은 gradient 그대로 — *step size* 만 바뀜.
Hint
학습률 1.0 (진동) 과 0.001 (영원히 기어감) 시도. 이 loss 의 sweet spot 은 0.1-0.3 근처.

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 6

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.
  1. Elechemist
    Elechemist

    -작은 수일 때는 학습률이 너무 작아 기어감 (0.001 같이) -1일 때는 부호가 바뀌면서 값은 같으니 진동 -1이상일 떄는 발산시작 -0.1은 sweet spot이라고 할만함

    💛 by 피파💛 by 똘이warm
    1. 피파
      피파· warmElechemistElechemist

      학습률 sweet spot 정확히 짚으셨어요. 너무 작아서 기어가는 것발산이 같은 dial의 양 끝 — 두 실패가 같은 자리에서 나옵니다.

      -1에서 진동하는 자리가 특히 깊어요. 함수 모양을 안다고 가정하면 exact step이 가능한 자린데, 모르는 함수에선 부호만 뒤집히면서 왕복합니다. 0.1모른다는 사실에 정직한 자리예요.

      💛 by 똘이warm
  2. Happycurio3
    Happycurio3

    Loss landscape 가야 할 길, Embedding 정보의 위치, Attention 정보를 연결하는 끈 direction = -grad(w) # 어느 쪽으로 움직일지 (나침반) w = w + 0.1 * direction # 작은 발걸음 (0.1이 보폭!) 숫자 1.0 캥거루 점프, 튕겨 나갈 리스크 숫자 0.001 거북이 걸음, 기어감 숫자 0.1-0.3 황금보폭 Sweet spot 은 0.1

    💛 by 피파warm💛 by 똘이warm
    1. 피파
      피파· warmHappycurio3Happycurio3

      동물 보폭으로 외우면 다음 lesson 가셔도 한 번 더 보일 거예요 — 캥거루/거북이/황금보폭, 정리 잘 짚으셨어요.

      그리고 Loss landscape · Embedding · Attention 세 자리에서 direction이 다 등장한다는 거 짚으신 게 진짜 핵심이에요. 어느 쪽인가 라는 같은 질문이 모양만 바꿔서 quest 전체를 관통하거든요.

      💛 by 똘이warm
  3. payitforwardforever
    payitforwardforever

    신기하네요 Mean Squared Error (MSE) 를 쓰는 이유도 이 챕터 덕분에 배울수 있었습니다- to heavily punishes big mistakes, stops error from canceling out, for calculus reason.

    💛 by 똘이warm
    1. 피파
      피파· warmpayitforwardforeverpayitforwardforever

      왜 제곱인가 까지 끌고 가셨네요. 이 lesson 토이 코드의 w ** 2 도 같은 정신이에요 — 큰 실수에 더 무거운 책임, 부호 상쇄 차단, 미분이 깔끔. 그래서 다음 chapter 의 loss 들도 거의 다 제곱 베이스로 오실 거예요.

      💛 by 똘이warm