트랜스포머의 가장 놀라운 성질은 입력이 뭘 표현하는지를 사실상 신경 안 쓴다는 거야. 어떤 도메인이든 임베딩 시퀀스로 바꿔 넣으면, 영어 문법 배우던 그 attention 메커니즘이 이미지 구조도 / 오디오 스펙트로그램도 / 단백질 folding 규칙도 똑같이 학습해.
이미 대규모로 배포된 사례 셋:
- Vision Transformer (ViT, 2020). 이미지를 16×16 패치로 자르고, 각 패치를 linear projection으로 임베딩, 그 패치 시퀀스를 Transformer encoder에 그대로 통과. ViT-H/14가 ImageNet top-1 88.5% 달성. DINOv2가 만드는 frozen visual feature는 LLaMA 3.2 vision이나 많은 multimodal LLM이 그대로 재활용해.
- Whisper (오디오). encoder-decoder Transformer인데, encoder가 log-mel 스펙트로그램(오디오 프레임)을 먹고 decoder가 cross-attention 통해서 텍스트 생성. unit cell은 동일, 입력 토큰화만 달라.
- AlphaFold 2 / ESMFold (생물학). 아미노산 시퀀스에 적용된 트랜스포머 변종, 3D 단백질 구조 예측. attention 행렬이 잔기 간 pairwise 상호작용을 인코딩하기에 자연스러운 자리라는 게 드러난 거지.
교훈: 트랜스포머는 "어쩌다 다른 도메인에서도 통하는 언어 아키텍처"가 아니야. 임베딩 시퀀스 아키텍처야. 토큰화할 수 있는 건 다 들어가.