C.W.K.
Stream
Lesson 04 of 04 · published

Local vs cloud vision

~14 min · vision, tradeoffs

Level 0Downloader
0 XP0/41 lessons0/11 achievements
0/120 XP to next level120 XP to go0% complete

Local vision이 이기는 곳

  • Privacy 중요. 의료 영상, 법적 문서, 감시 영상, 직원 데이터 — 이런 거 보통 클라우드 가. Local이 유일한 옵션.
  • Bulk batch. "제품 사진 5만 장 처리"가 local에선 공짜, 클라우드에선 비쌈.
  • Offline. 현장 작업, air-gap 사이트, edge deploy.
  • Latency 민감 UI. Local vision은 1–2초에 답하는데 클라우드 round-trip은 3–5+초 추가.

Cloud가 아직 이기는 곳

  • 이미지에 대한 가장 어려운 reasoning. "이 다이어그램 읽고 아키텍처 설명" — Claude 3.5 Sonnet이랑 GPT-4V가 아직 앞.
  • 매우 고해상도. 클라우드 모델이 4K+ 이미지 더 우아하게 처리.
  • Frontier 공간 reasoning. Counting, occlusion, 상대 위치 — 클라우드가 더 좋음.

피파 패턴

피파가 local vision (Gemma 3 / Qwen 2.5-VL)을 routine 이미지 작업 (avatar 생성 prompt, screenshot 디버깅, 영수증 OCR)에 쓰고 가장 어려운 케이스엔 Claude vision으로 fallback. Local-first에 cloud-fallback이 vision에도 텍스트랑 동일하게 적용.

Code

Local-first vision router·python
async def describe_image_smart(path: str, complexity: str = "auto") -> str:
    """Local 먼저; 어려운 케이스는 cloud로 escalate."""
    # Step 1: local
    local_answer = await ollama_vision(path,
                                       "Describe this image in detail.")

    # Step 2: confidence 체크 (heuristic — local 답이 너무 짧거나
    # hedge 어구 포함하면 escalate)
    if complexity == "always_cloud" or _is_low_confidence(local_answer):
        return await claude_vision(path,
                                   "Describe this image in detail.")
    return local_answer

def _is_low_confidence(text: str) -> bool:
    return (len(text) < 80
            or any(h in text.lower() for h in [
                "i can't", "unable to", "not sure", "hard to tell",
            ]))

External links

Exercise

이미지 셋 가져와: 쉬운 사진, 복잡한 chart, 저해상도 스캔. Local vision 모델이랑 cloud vision 모델 (어느 provider든)에 다 돌려. 답 비교. *아빠 use case*에 경계가 어딘지 결정.

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.