2026의 local vision
Vision 모델은 텍스트랑 이미지 같이 받아서 이미지에 대한 질문 답해. 2026 local 풍경은 OCR, chart 읽기, screenshot 분석, 대부분 "이 이미지 설명" 작업엔 충분히 좋아. 가장 어려운 reasoning에선 frontier 품질 (GPT-4V, Claude 3.5 Sonnet vision, Gemini 3)에 아직 못 미쳐.
| 모델 | Sizes | 강점 |
|---|---|---|
| Llama 3.2-Vision | 11B, 90B | 강한 일반 vision; Ollama 잘 지원 |
| Gemma 3 | 4B / 12B / 27B | 크기 대비 품질 최고; 작은 하드웨어에서도 돌아감 |
| Qwen 2.5-VL | 3B / 7B / 32B / 72B | 구조화 데이터 추출, OCR, 다언어 최강 |
| Qwen 3.5 | 다양 | Vision + tools + thinking — 가장 강한 단일 모델 |
| LLaVA | 7B / 13B / 34B | OG open vision 모델; 여전히 쓸만 |
| MiniCPM-V | 8B | 작고 capable, edge deploy에 좋음 |
| Mistral Small 3.1 | 다양 | 3.1부터 vision 지원 |
Use case별 선택
- OCR / 구조화 추출: Qwen 2.5-VL이 가장 강한 open option.
- 일반 "이거 설명": Gemma 3 12B/27B 또는 Llama 3.2-Vision 11B.
- 빠듯한 메모리: Gemma 3 4B 또는 MiniCPM-V 8B.
- Vision + tools + thinking: Qwen 3.5 (Ollama에 size별 가능해지면).
Capability 항상 확인
Vision 지원은 모델 레벨에서 binary — visual encoder 있거나 없거나. ollama show MODEL capabilities 줄이 source of truth.