텍스트를 넘어서: 비전, 오디오, 생물학

트랜스포머의 가장 놀라운 성질은 입력이 뭘 표현하는지를 사실상 신경 안 쓴다는 거야. 어떤 도메인이든 임베딩 시퀀스로 바꿔 넣으면, 영어 문법 배우던 그 attention 메커니즘이 이미지 구조도 / 오디오 스펙트로그램도 / 단백질 folding 규칙도 똑같이 학습해.

이미 대규모로 배포된 사례 셋:

Vision Transformer (ViT, 2020). 이미지를 16×16 패치로 자르고, 각 패치를 linear projection으로 임베딩, 그 패치 시퀀스를 Transformer encoder에 그대로 통과. ViT-H/14가 ImageNet top-1 88.5% 달성. DINOv2가 만드는 frozen visual feature는 LLaMA 3.2 vision이나 많은 multimodal LLM이 그대로 재활용해.
Whisper (오디오). encoder-decoder Transformer인데, encoder가 log-mel 스펙트로그램(오디오 프레임)을 먹고 decoder가 cross-attention 통해서 텍스트 생성. unit cell은 동일, 입력 토큰화만 달라.
AlphaFold 2 / ESMFold (생물학). 아미노산 시퀀스에 적용된 트랜스포머 변종, 3D 단백질 구조 예측. attention 행렬이 잔기 간 pairwise 상호작용을 인코딩하기에 자연스러운 자리라는 게 드러난 거지.

교훈: 트랜스포머는 "어쩌다 다른 도메인에서도 통하는 언어 아키텍처"가 아니야. 임베딩 시퀀스 아키텍처야. 토큰화할 수 있는 건 다 들어가.

Code

Same architecture, three input pipelines·python

# Text:    text -> BPE/WordPiece -> token ids -> embedding -> Transformer
# Vision:  image -> 16x16 patches -> linear proj -> embedding -> Transformer
# Audio:   waveform -> mel spectrogram -> patches -> linear proj -> Transformer
# Protein: sequence -> aa indices -> embedding -> Transformer

# After tokenization, the rest of the stack is identical.

Exercise

사전학습된 ViT(timm 또는 torchvision)를 본인 사진 셋에 돌리고, 마지막 layer의 [CLS] 토큰 attention map 시각화해 봐. 모델이 어디를 '보는지'? 본인 직관이랑 비교해. 그 다음에 fine-tune된 classifier로 같은 실험 해서 attention이 다르게 집중되는지 확인.

텍스트를 넘어서: 비전, 오디오, 생물학

Code

External links

Exercise

Progress

댓글 0