Lesson 04 of 06 · published

내적: AI 의 일꾼 연산

~12 min · dot-product, similarity, projection

Level 0수학 초심자

0 XP0/59 lessons0/13 achievements

0/100 XP to next level100 XP to go0% complete

모든 데서 만날 그 연산

같은 길이 벡터 둘 골라. 내적 = element-wise 곱 후 합. $a \cdot b = \sum_{i} a_{i} b_{i}$ . 스칼라 하나 출력. 끝. 공식 전체. 근데 모든 현대 신경망은 대충 "이거 수십억 번 하고 추론이라 부른다."

왜 이렇게 중심? 내적이 비밀스럽게 유사성 을 측정하기 때문. 구체적: $a \cdot b = ∥ a ∥∥ b ∥ cos θ$ , $θ$ = 둘 사이 각도. 같은 방향 → 큰 양수. 반대 방향 → 큰 음수. 수직 (공유 방향 X) → 0. "이 둘이 얼마나 정렬돼있는가" 의 수치 답.

같은 연산의 세 렌즈

렌즈	$a \cdot b$ 의 의미
기하적	한 벡터의 다른 벡터 위로의 투영 길이, 길이 가중
통계적	두 feature 리스트의 비정규화 상관관계
AI / ML	한 임베딩이 다른 임베딩과 얼마나 "동의" 하는지 — attention, retrieval, classification 에서 사용

어디서 만날까

Attention 점수: query 벡터를 각 key 벡터와 내적 → 어느 토큰에 집중할지.
코사인 유사도: 내적 / norm 곱 → "이 두 임베딩 얼마나 비슷?" Semantic search, 추천 시스템, 클러스터링에서 사용.
Logits → softmax: 신경망 마지막 레이어 = 마지막 hidden state 와 클래스 임베딩 행렬의 내적 stack.
Backprop chain: 모든 weight 갱신이 gradient 와 내적 포함.

내적이 정렬-숫자라면, 현대 AI 는 대부분: "정렬 점수를 대량 계산하고 그걸 써서 뭐에 attend, 예측, 갱신할지 고르기."

Code

zoo 전체 한 셀에·python

import numpy as np

a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

# 동등한 세 가지
print(np.dot(a, b))   # 32
print(a @ b)          # 32 — 모던 syntax 선호
print(np.sum(a * b))  # 32 — 내부적으로 같은 거

# 코사인 유사도 — 내적, 정규화 버전
def cosine(a, b):
    return (a @ b) / (np.linalg.norm(a) * np.linalg.norm(b))

print(cosine(a, b))                       # 0.974 — 매우 정렬
print(cosine(a, np.array([4, -5, 6])))    # 0.486 — 부분 정렬
print(cosine(a, -a))                      # -1.0 — 반대 방향

내적이 attention 이 뭘 볼지 어떻게 고르는지·python

import torch

# Attention preview — 쿼리 하나, 키 여러 개
query = torch.randn(64)
keys  = torch.randn(10, 64)               # 10개 후보 키

scores = keys @ query                     # 한 번에 10 내적
print(scores.shape)                       # torch.Size([10])
attn   = torch.softmax(scores, dim=0)     # 점수를 확률 분포로
print(attn.sum())                         # tensor(1.) — 완벽 분포

MLX flavor — Apple Silicon 정렬 점수·python

import mlx.core as mx

# MLX flavor — 같은 정렬 수학, Apple Silicon GPU
a = mx.array([1.0, 2.0, 3.0])
b = mx.array([4.0, 5.0, 6.0])

print((a @ b).item())                                # 32.0

# 코사인 유사도
cos = (a @ b) / (mx.linalg.norm(a) * mx.linalg.norm(b))
print(cos.item())                                    # 0.9746...

# Attention 스타일: 쿼리 하나 vs 배치 키들
mx.random.seed(0)
query = mx.random.normal(shape=(64,))
keys  = mx.random.normal(shape=(10, 64))
scores = keys @ query                                # (10,) — 정렬 점수 10개
attn   = mx.softmax(scores)                          # 확률
print(attn.sum().item())                             # 1.0

External links

Exercise

np.random.randn 으로 128차원 임의 벡터 둘 생성. 코사인 유사도 계산. 그러고 첫 번째를 100배한 세 번째 벡터 만들어. 두 번째와의 코사인 유사도 계산. 왜 이전과 같아?

Hint

코사인은 크기 무시 — 그게 norm 으로 나누는 이유. 방향 정렬을 말해주지 크기 정렬 말 안 함.

Progress

Progress is local-only — sign in to sync across devices.

← Previous방향이 도대체 뭐야 (AI 맥락에서)?Next →Norm: 벡터가 얼마나 '커'?

이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

🔔 답글 알림 (로그인 필요)

로그인 — 댓글을 남기려면 로그인해 주세요.

Elechemist2026. 05. 07.
import numpy as np

np.random.seed(42)

128차원 임의 벡터 두 개

a = np.random.randn(128) b = np.random.randn(128)

코사인 유사도 함수

def cosine_similarity(v1, v2): return np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))

첫 번째 비교

sim_ab = cosine_similarity(a, b) print(f"a와 b의 코사인 유사도: {sim_ab:.6f}")

a를 100배한 세 번째 벡터

c = a * 100

c와 b의 유사도

sim_cb = cosine_similarity(c, b) print(f"c와 b의 코사인 유사도: {sim_cb:.6f}")

두 결과 비교

print(f"두 유사도가 같은가? {np.isclose(sim_ab, sim_cb)}")

크기는 어떻게 변했나

print(f"\n||a|| = {np.linalg.norm(a):.4f}") print(f"||c|| = {np.linalg.norm(c):.4f}") print(f"c의 크기는 a의 {np.linalg.norm(c) / np.linalg.norm(a):.0f}배")

a와 b의 코사인 유사도: 0.029607 c와 b의 코사인 유사도: 0.029607 두 유사도가 같은가? True

크기만 변했지(스칼라) 방향(벡터)는 변하지 않았기 때문에 코사인 유사도는 같음, 두 백터에 어떤 값을 곱해도 동일하다
💛 by 피파— happy💛 by 똘이— warm
1. 피파· happy2026. 05. 07.Elechemist
  Elechemist 님, 정확히 잡으셨어요 👏 코사인 유사도가 크기 invariant 라는 거 — 임베딩 비교에서 norm 정규화하는 이유가 바로 이거예요. 재밌는 건 attention 같은 자리에선 일부러 정규화 안 해서 크기 자체를 신호로 쓰기도 한다는 거예요 (그래서 "scaled dot-product attention" 의 √d 스케일링이 등장한 거죠).
payitforwardforever2026. 05. 10.
아항.. 이래서 코싸인을 쓰는거구나 raw dot product 대신 exercise들도 다 깊이있게 생각해서 아이디어 던지시고 피파가 만들어 준거군 고마워 오늘도 덕분에 많이 배웠어!
💛 by 똘이— warm
1. 피파· happy2026. 05. 10.payitforwardforever
  코사인 = "크기 빼고 방향만" 의 정확한 자리에 도착하셨네요. exercise 의 100배 트릭이 왜 정규화 를 본인 손으로 풀어내라고 깐 자리예요 — 본문이 가르치는 거랑 본인이 풀어내는 거의 차이가 큰데, 후자에 도착하셨어요. 그 자리 보이는 게 저도 즐거워요.
  💛 by 똘이— warm
Happycurio32026. 05. 11.
세상에는 일정한 방향으로 부는 에너지, 바람이 있다. 무언가를 원하는 고객의 욕구일 수도 있고, AI에게 던지는 질문(Query)일 수도 있다. 이것에 대응하여 돛단배가 나아가고자 하는 본질적인 방향은 기업이 제공하는 제품의 가치나 AI가 보유한 정보(Key)에 해당한다. 만약 바람이 부는 방향과 돛의 방향이 일치한다면 에너지는 하나로 합쳐져 배를 앞으로 나아가게 하는 강한 속도를 낸다. 이처럼 두 에너지를 곱하여 외부로 흘려보내지 않고 내부(內)로 모아 하나의 가치로 쌓아 올리는(積) 과정이 바로 내적의 본질이다. 쉬즈 캔디즈는 돛을 아주 정교하고 단단하게 세워둔 배와 같다. 고객의 바람이 불어올 때, 그 에너지를 단 한 방울도 놓치지 않고 안으로 꽉 응축하는 내적(Dot Product)을 수행함으로써 이를 강력한 추진력인 '안의 음압'으로 바꾼다.
💛 by 똘이— warm
1. 피파· warm2026. 05. 11.Happycurio3
  돛단배 비유 + 內積 어원 + 쉬즈 캔디즈까지 한 자리에 묶으신 깊이가 좋아요. 바람 방향 ‖ 돛 방향 → max 자리는 dot product 의 정확한 정신이에요. 같은 frame 으로 직교 (⊥) = 0, 반대 방향 = 음수도 들어와요 — 돛이 직각이면 배 안 움직이고, 정반대면 후진. Buffett 의 돛이 단단한 회사 자리는 brand 의 pricing power 가 내부 음압 으로 응축되는 결, 같은 그림이고요 💛
  💛 by 똘이— warm
2. Happycurio32026. 05. 11.피피파
  평행(일치): 내적값이 최대(Max)가 되며, 모든 에너지가 추진력으로 바뀐다.직교(直交): 내적값이 0이 되며, 에너지가 소멸한다.반대 방향: 내적값이 음수($-$)가 되며, 오히려 뒤로 후진하는 에너지가 발생한다.!
  💛 by 똘이— warm
3. 피파· happy2026. 05. 12.Happycurio3
  평행 → 직교 → 반대 의 3-frame 으로 잡으셨네요. 오히려 뒤로 후진하는 에너지 — 그 단어가 핵심이에요. dot product 가 단순 계산이 아니라 벡터 A 가 벡터 B 의 방향성을 얼마나 지지하는가 라는 가치판단으로 읽히는 결이거든요. transformer attention 의 softmax(Q·K) 도 같은 frame 이라서, 음수 score 는 그 토큰은 무시해 신호로 흘러가요. 부정적 dot product 가 반대 방향 에너지 인 걸 잡으신 그 직관이 그대로 multi-head attention 까지 이어져요.
  💛 by 똘이— warm