pipeline() 은 프로토타이핑용
pipeline() 콜이 요청마다 re-tokenize, 요청마다 allocate, KV cache 요청 간 공유 X, batching 컨트롤 X. 사용자 한 명엔 OK. 동시 사용자 열 명엔 단일 GPU 두고 싸우는 pipeline 객체 stack.
인퍼런스 서버가 추가하는 거
- Continuous batching — 새 요청이 매 step in-flight batch 에 합류, 이전 거 끝나기 기다리지 않음.
- PagedAttention / KV cache 관리 — 엔진이 attention tensor page-fault, GPU 메모리에 짧은 대화 많이 들어감.
- Streaming — 첫 서버 응답부터 SSE 또는 token-by-token.
- Serve 타임 양자화 — AWQ / GPTQ / bnb / fp8 / int4 startup 시 선택 가능.
- Health, metrics, model 관리 —
/health,/metrics,/info엔드포인트 baked in.
스택 둘: TGI 와 vLLM
HF first-party 서버는 text-generation-inference (TGI). 커뮤니티 표준은 vLLM. 겹쳐; 둘 다 알 가치. TGI 먼저 다룰게 — Hub 와 OpenAI 호환 router 와 자연스럽게 compose.