C.W.K.
Stream
Lesson 07 of 11 · published

Gemini 계열 — 구글의 multimodal-first

~10 min · gemini, google, multimodal

Level 0Token
0 XP0/94 lessons0/10 achievements
0/120 XP to next level120 XP to go0% complete

Google DeepMind의 Gemini 모델은 텍스트/이미지/오디오/비디오가 사후에 붙여지는 게 아니라 단일 Transformer를 공유해야 한다는 전제로 설계. 토큰화, 학습 데이터, API 표면에 다 드러나.

모델컨텍스트최대 출력입출력 ($/1M)주목할 점
Gemini 1.5 Pro1M (그 후 2M 실험)8K가변모던 긴 컨텍스트 기준선 설정
Gemini 2.0 Flash1M8K$0.10 / $0.40빠르고 multimodal, 매우 저렴
Gemini 2.0 Pro Experimental2M2M 컨텍스트 추진
Gemini 2.5 Flash1M8K$0.30 / $2.50~110 tokens/s 출력, thinking 모드
Gemini 2.5 Pro1M8K$1.25 / $10.00플래그십, thinking 모드, 프론티어 벤치마크

벤치마크 (Gemini 2.5 Pro): AIME 2024 92%, AIME 2025 83%, GPQA 83%, SWE-bench 63%. Pro 시리즈는 추론에 추가 inference 컴퓨트 할당하는 "thinking" 모드 지원, OpenAI o 시리즈와 DeepSeek-R1과 유사.

Multimodal: 텍스트 + 이미지 + 오디오 + 비디오 native 입력. 출력은 텍스트(일부 endpoint에선 텍스트 + 이미지). 단일 스택 설계는 Gemini가 modality를 가로질러 직접 attend 가능하다는 뜻 — 이미지 patch와 텍스트 토큰이 같은 residual stream에 살아.

Code

Calling Gemini with vision·python
import google.generativeai as genai

genai.configure(api_key="...")
model = genai.GenerativeModel("gemini-2.5-pro")

with open("photo.jpg", "rb") as f:
    image_bytes = f.read()

response = model.generate_content([
    {"mime_type": "image/jpeg", "data": image_bytes},
    "Describe what's in this image and what the people seem to be doing.",
])
print(response.text)
# Multimodal in a single API call — image and text share the residual stream.

External links

Exercise

긴 문서 골라(>100K 토큰 — 예: 교과서 PDF). Gemini 2.5 Pro에 'section 7의 주요 주장이 뭐?' 질문. 더 작은 모델 + chunked retrieval 접근과 비교. 긴 컨텍스트가 어디서 이기나? retrieval이 어디서 이기나?

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.