한 모델, 세 modality
Gemini 2.5 Flash 와 Pro 가 같은 conversation 에서 text, image, video, audio 받음. 모델이나 endpoint 전환 X — contents 에 옳은 Part type 포함하면 됨.
Media 첨부 두 가지
- Inline bytes — 파일 base64-encode 해서 request 에 보냄. 작은 파일 (≤ 20MB 총 request size) 에 최적.
- File API —
client.files.upload로 먼저 업로드, 결과 file URI 참조. 큰 거 필수; video 필수.
File API 로 업로드된 파일은 48 시간 살아. 실제 generation 호출 만들 시간 충분.
Token 비용은 모양당 고정, character 기반 X
- Image: ≤ 384px = 258 토큰. 더 크면 768×768 tile 당 258.
- Video: ~300 토큰/초. 최대 1 시간. YouTube URL 직접 지원.
- Audio: 32 토큰/초. 최대 9.5 시간.
지원 포맷
- Image: PNG, JPEG, WEBP, HEIC.
- Video: MP4, MOV, AVI, FLV, MPG, WMV, 3GPP, WEBM.
- Audio: WAV, MP3, AIFF, AAC, OGG, FLAC.