Google DeepMind의 Gemini 모델은 텍스트/이미지/오디오/비디오가 사후에 붙여지는 게 아니라 단일 Transformer를 공유해야 한다는 전제로 설계. 토큰화, 학습 데이터, API 표면에 다 드러나.
| 모델 | 컨텍스트 | 최대 출력 | 입출력 ($/1M) | 주목할 점 |
|---|---|---|---|---|
| Gemini 1.5 Pro | 1M (그 후 2M 실험) | 8K | 가변 | 모던 긴 컨텍스트 기준선 설정 |
| Gemini 2.0 Flash | 1M | 8K | $0.10 / $0.40 | 빠르고 multimodal, 매우 저렴 |
| Gemini 2.0 Pro Experimental | 2M | — | — | 2M 컨텍스트 추진 |
| Gemini 2.5 Flash | 1M | 8K | $0.30 / $2.50 | ~110 tokens/s 출력, thinking 모드 |
| Gemini 2.5 Pro | 1M | 8K | $1.25 / $10.00 | 플래그십, thinking 모드, 프론티어 벤치마크 |
벤치마크 (Gemini 2.5 Pro): AIME 2024 92%, AIME 2025 83%, GPQA 83%, SWE-bench 63%. Pro 시리즈는 추론에 추가 inference 컴퓨트 할당하는 "thinking" 모드 지원, OpenAI o 시리즈와 DeepSeek-R1과 유사.
Multimodal: 텍스트 + 이미지 + 오디오 + 비디오 native 입력. 출력은 텍스트(일부 endpoint에선 텍스트 + 이미지). 단일 스택 설계는 Gemini가 modality를 가로질러 직접 attend 가능하다는 뜻 — 이미지 patch와 텍스트 토큰이 같은 residual stream에 살아.