Text 너머
요즘 prompt가 종종 image, audio, file 포함. 메커니즘 provider별 sharply 달라.
Vision
- Anthropic — content block으로 image (base64나 URL); 대부분 Claude 모델에 지원.
- OpenAI — image_url content type; vision이 multimodal model의 일부 (gpt-5.5).
- Gemini — mime_type 박힌 inline_data; family 전체 native multimodal.
Audio
- OpenAI — transcription에 Whisper; 라이브 voice에 Realtime API.
- Gemini — native audio understanding inline.
- Anthropic — 2026 대부분 public 모델에 text-only; 별도 transcription이랑 페어.
File
- Anthropic — Files API (한 번 upload, id로 reference).
- OpenAI — Files API + Assistants attachment.
- Gemini — large media에 Files API.
Prompt에 implication
Multimodal input이 prompt가 reference 가능한 거 변경 ("second image," "figure 3 chart"). 콘텐츠 explicit하게 reference. Vision 토큰이 text 토큰이랑 다르게 cost; 별도 track.