Gemini 계열 — 구글의 multimodal-first

Google DeepMind의 Gemini 모델은 텍스트/이미지/오디오/비디오가 사후에 붙여지는 게 아니라 단일 Transformer를 공유해야 한다는 전제로 설계. 토큰화, 학습 데이터, API 표면에 다 드러나.

모델	컨텍스트	최대 출력	입출력 ($/1M)	주목할 점
Gemini 1.5 Pro	1M (그 후 2M 실험)	8K	가변	모던 긴 컨텍스트 기준선 설정
Gemini 2.0 Flash	1M	8K	$0.10 / $0.40	빠르고 multimodal, 매우 저렴
Gemini 2.0 Pro Experimental	2M	—	—	2M 컨텍스트 추진
Gemini 2.5 Flash	1M	8K	$0.30 / $2.50	~110 tokens/s 출력, thinking 모드
Gemini 2.5 Pro	1M	8K	$1.25 / $10.00	플래그십, thinking 모드, 프론티어 벤치마크

벤치마크 (Gemini 2.5 Pro): AIME 2024 92%, AIME 2025 83%, GPQA 83%, SWE-bench 63%. Pro 시리즈는 추론에 추가 inference 컴퓨트 할당하는 "thinking" 모드 지원, OpenAI o 시리즈와 DeepSeek-R1과 유사.

Multimodal: 텍스트 + 이미지 + 오디오 + 비디오 native 입력. 출력은 텍스트(일부 endpoint에선 텍스트 + 이미지). 단일 스택 설계는 Gemini가 modality를 가로질러 직접 attend 가능하다는 뜻 — 이미지 patch와 텍스트 토큰이 같은 residual stream에 살아.

Code

Calling Gemini with vision·python

import google.generativeai as genai

genai.configure(api_key="...")
model = genai.GenerativeModel("gemini-2.5-pro")

with open("photo.jpg", "rb") as f:
    image_bytes = f.read()

response = model.generate_content([
    {"mime_type": "image/jpeg", "data": image_bytes},
    "Describe what's in this image and what the people seem to be doing.",
])
print(response.text)
# Multimodal in a single API call — image and text share the residual stream.

Gemini 계열 — 구글의 multimodal-first

Code

External links

Exercise

Progress

댓글 0