Dense layer를 망가뜨린 데이터 타입
지금까지 다룬 데이터는 대부분 고정 shape에 순서 무관한 의미. 텍스트, 오디오, 시계열, DNA — 다 순서 의존, 가변 길이. "개가 사람을 물었다" vs "사람이 개를 물었다": 같은 단어, 반대 의미. 표준 Dense layer는 위치를 독립적이고 대칭적으로 다뤄 — "이 토큰이 저 토큰보다 먼저"라는 개념 없어. 그래서 sequence용 architecture가 필요해.
Sequence가 만드는 세 가지 도전:
- 가변 길이 — 어떤 리뷰는 10단어, 어떤 건 1,000단어.
- 장거리 의존 — "it"이 40단어 앞 명사 가리킬 수 있음.
- 합성성 — "not bad"는 "bad"와 다른 뜻.
역사: SimpleRNN → LSTM/GRU → Attention → Transformer. 각각 이전 게 못 풀던 걸 풀었어. 그 길에서 내려진 architecture 결정이 오늘날 AI 풍경을 설명해서 그 역사를 따라가 보자.