북쪽 남쪽을 넘어서
기하학 밖에서 "방향" 은 미끄러워. AI 에선 방향이 나침반의 점이 아니라 어떤 공간에서 뭐를 더 좋게/나쁘게 만들려면 어느 쪽으로 움직일지 가 됨. 그 공간은:
- Loss landscape — 방향 = 어떤 weight 변화 조합이 에러를 가장 빠르게 떨어뜨리는지. Gradient 가 steepest-descent 방향.
- Embedding 공간 — 방향 = 의미가 변하는 개념 축.
king - man + woman ≈ queen이 gender 축을 방향으로 사용. - Attention 공간 — 방향 = 새 토큰이 가장 강하게 "보고 있는" 이전 토큰.
다 물리적 X. 다 같은 벡터 룰 따름. 그게 거래: 벡터로 사고할 수 있게 되면 만나는 모든 이상한 AI 공간에서 거래가 갚아져.
왜 크기만으론 짐
모델이 "loss 가 높다" 만 알면 "상황이 나쁘다" 만 말할 수 있어. 실제론 — gradient 통해 — "상황 나쁨, AND w_42 살짝 위로 w_8 살짝 아래로 까딱이면 가장 빨리 덜 나빠짐" 알아. 그게 방향. 없으면 학습은 random search. 있으면 학습은 steepest descent.
-작은 수일 때는 학습률이 너무 작아 기어감 (0.001 같이) -1일 때는 부호가 바뀌면서 값은 같으니 진동 -1이상일 떄는 발산시작 -0.1은 sweet spot이라고 할만함