앞에 FastAPI
vLLM/TGI 둘 다 API 노출하지만, 보통 그 앞에 얇은 앱 레이어 둬 — auth, rate limit, 요청 로깅, 출력 검증, 비즈니스 로직 위해. FastAPI가 정석 선택.
실서비스에서 모니터할 다섯 가지
- Latency — P50, P95, P99 응답 시간. 모델 swap 후 회귀 주시.
- 품질 — 출력 샘플 떠서 주기적으로 LLM-as-judge 통과. 조용한 품질 드리프트 잡아.
- 드리프트 — 현재 입력 분포를 베이스라인이랑 비교. 사용자가 다른 질문 시작했어?
- 에러 — 잘못된 출력, 거절, 환각, 스키마 검증 실패에 로그 + 알림.
- 비용 — GPU 사용률, 달러당 요청, 고객당 비용. 달러 곡선 못 보면 flywheel 깨진 거.