Modality 차이 — Vision, Audio, File

~14 min · providers, multimodal

Level 0수련생

0 XP0/100 lessons0/14 achievements

0/120 XP to next level120 XP to go0% complete

Text 너머

요즘 prompt가 종종 image, audio, file 포함. 메커니즘 provider별 sharply 달라.

Vision

Anthropic — content block으로 image (base64나 URL); 대부분 Claude 모델에 지원.
OpenAI — image_url content type; vision이 multimodal model의 일부 (gpt-5.5).
Gemini — mime_type 박힌 inline_data; family 전체 native multimodal.

Audio

OpenAI — transcription에 Whisper; 라이브 voice에 Realtime API.
Gemini — native audio understanding inline.
Anthropic — 2026 대부분 public 모델에 text-only; 별도 transcription이랑 페어.

File

Anthropic — Files API (한 번 upload, id로 reference).
OpenAI — Files API + Assistants attachment.
Gemini — large media에 Files API.

Prompt에 implication

Multimodal input이 prompt가 reference 가능한 거 변경 ("second image," "figure 3 chart"). 콘텐츠 explicit하게 reference. Vision 토큰이 text 토큰이랑 다르게 cost; 별도 track.

Code

Image content (Claude, OpenAI, Gemini)·python

# Claude
client.messages.create(model="claude-opus-4-7", messages=[
    {"role": "user", "content": [
        {"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": b64}},
        {"type": "text", "text": "What's in this chart?"}
    ]}
])

# OpenAI
client.chat.completions.create(model="gpt-5.5", messages=[
    {"role": "user", "content": [
        {"type": "image_url", "image_url": {"url": data_url}},
        {"type": "text", "text": "What's in this chart?"}
    ]}
])

# Gemini
model.generate_content(["What's in this chart?", {"mime_type": "image/png", "data": img_bytes}])

External links

Exercise

같은 vision task를 두 provider에 build. tokens-per-image, latency, 정확도 측정. prompt-side 차이 (image content reference 방식) 메모.

Progress

Progress is local-only — sign in to sync across devices.

← PreviousProvider switching — 뭐 break하고 어떻게 plan Next →Pricing과 rate limit — 진짜 숫자

이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

🔔 답글 알림 (로그인 필요)

로그인 — 댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.