Variable length, order matters, long-range dependency
Image 는 fixed-size grid. Sentence 는 word order 에 의미 의존하는 variable-length sequence ('dog bites man' ≠ 'man bites dog'). Audio 는 high sampling rate 의 long sequence. Code 는 structured sequence. 각 token 의 의미가 멀리 있는 token 에 의존 — 가끔 관련 context 가 수백 token 뒤.
핵심 challenge 3 개: variable length (fixed input shape 없음), order sensitivity (token permute 하면 의미 바뀜), long-range dependency (token N 이 token N-1000 에 의존).
팁: 이 track 의 모든 sequence architecture 가 그 셋 중 하나에 대한 답. RNN 이 variable length 를 sequentially 다뤄. Attention 이 long-range dependency 를 parallel 로 다뤄. Transformer 가 둘 다, length 에 quadratic cost 로 — newer model (Mamba, RWKV) 이 fix 시도 중.
Sequence task shape
- Sequence classification (sentiment, intent) — 전체 sequence 에 한 label.
- Sequence labeling (NER, POS) — token 당 한 label.
- Sequence-to-sequence (translation, summarization) — input sequence 주어진 output sequence.
- Causal language modeling (GPT) — 모든 이전 token 주어진 next token 예측.
이상적 sequence model 에 필요한 것
Constant-time per-token inference, true long-range memory, parallelizable training, reasonable parameter efficiency. 단일 architecture 가 4 가지 다 안 가짐. RNN 이 constant per-token cost 줬지만 long-range memory 나쁨, transformer 가 quadratic attention 비용으로 좋은 long-range memory 와 parallel training 줌.
원칙: Sequence modeling 이 tradeoff space 지 풀린 문제 아냐. 본인 task 가 어떤 axis (latency, context length, training compute) 에 bound 됐는지 아는 게 올바른 architecture pick 의 절반.