단어 → 숫자, 제대로
텍스트를 신경망에 넣기 전에 raw 문자열을 dense 숫자 벡터로 변환. 두 단계: TextVectorization으로 토큰화 + 정수 인코딩, 그 다음 Embedding layer로 정수를 dense 벡터에 매핑.
TextVectorization은 model graph 안에 사는 preprocessing layer. 즉 토큰화 로직이 model과 함께 저장되고 외부 스크립트 없이 inference에서 작동 — production 배포에 큰 장점.
Embedding layer는 각 정수 토큰 ID를 dense 벡터로 매핑. 이 벡터는 training 중에 학습돼 — 의미상 유사한 단어가 embedding 공간에서 가까이 위치. mask_zero=True는 다음 layer들에 padding 토큰 (ID 0) 무시하라고 지시.
고전적 속성: 잘 훈련된 embedding은 의미 관계 인코딩. 유명한 예
king - man + woman ≈ queen이 성립하는 이유는 embedding 공간의 방향이 의미에 대응하기 때문. 2026년 production NLP는 처음부터 학습 대신 KerasHub pretrained embedding (BERT, GPT-2, Gemma)에서 시작.