Vision-capable 모델은 image 를 URL 또는 base64 encoding 으로 받아. Responses API 는 input_image type, Chat Completions 는 image_url. 같은 픽셀 = 같은 cost, transport 차이는 가격에 영향 X.
URL 이 편할 때
이미지가 이미 public host (S3, R2, CDN) 에 있을 때. Request body 가 작아서 wire 부담 적음. URL 만 보내면 모델이 fetch.
Base64 가 편할 때
로컬 dev, private image, 생성된 이미지. base64.b64encode 로 encoding, data:image/jpeg;base64,... URI 로 prefix. Auth 우회 X — image 가 외부 host 안 거치니까.
Detail 옵션
detail: 'low' | 'high' | 'auto'. low 는 flat 85 token, high 는 32×32 patch grid (수백~수천 token), auto 는 모델이 결정. 일반 UI 엔 low 충분, OCR/dense chart 엔 high.