5 분 startup
TGI 가 Docker 이미지로 ship. 표준 레시피: 모델 고르고, 가중치 캐시용 볼륨 mount, 포트 8080 expose, --model-id 셋. 컨테이너가 첫 시작에 가중치 pull (느림), 그다음 재시작에 warm-start (빠름).
실제로 튜닝할 노브
--model-id— HF 레포 id 또는 로컬 path.--quantize—awq | gptq | bitsandbytes | bitsandbytes-nf4 | fp8. 맞는 모델 variant 와 mix-and-match.--max-concurrent-requests— 동시 in-flight 요청 수. 디폴트 conservative; 더 높은 throughput 위해 bump.--max-input-length,--max-total-tokens— KV cache pre-allocate. 높음 = 요청당 더 많은 GPU 메모리 budget, 더 적은 동시 요청.--num-shard— GPU 간 tensor-parallel shard.
공짜로 오는 엔드포인트
POST /generate, POST /generate_stream, POST /v1/chat/completions (OpenAI 호환), GET /info, GET /health, GET /metrics (Prometheus).