이미지 보내는 두 가지
이미지 입력은 image 타입 콘텐츠 블록으로. 블록이 base64 바이트(source: {type: 'base64', media_type: 'image/png', data: ...}) 또는 URL(source: {type: 'url', url: ...}) 운반. 로컬 파일엔 base64; 이미 CDN의 자산엔 URL.
이미지 토큰 비용
이미지가 dimension에서 derived된 대략 토큰 수로 청구. 큰 이미지가 더 비싸. Aggressively resize — 1024-wide 사진이 보통 OCR이나 객체 description에 충분; 4K는 낭비된 토큰. Anthropic docs가 변환 공식 발행.
Vision이 잘하는 것
강함 — chart·table OCR, diagram 해석, 장면 description, UI 스크린샷, 문서 레이아웃, 스크린샷 안 코드. 약함 — 정확 픽셀 좌표, 비슷한 아이템 다수 카운팅, fine-grained spatial reasoning. 강점 매치하게 프롬프트 frame.
원칙: 질문에 답하는 가장 작은 이미지 보내. Resize는 한 줄 비용 win.