청구서 어디서 옴
- Ingestion 임베딩 — 청크당 한 번씩, 재임베딩할 때마다 결제.
- Query 임베딩 — 유저 query 당 한 번 결제.
- Storage — vector size × 청크 × replication. 수천만 row 안 넘으면 보통 작음.
- LLM 호출 — retrieval 작동하면 가장 큰 line item. RAG 가 이거 면제 안 해줘.
중요한 비용 레버 셋
- 콘텐츠 hash 로 임베딩 캐시. 같은 청크 재-ingest 비용 0 이어야. 텍스트 hash, 벡터 lookup, miss 일 때만 모델 호출.
- Batch. 호스티드 임베딩 API 가 청크 1개든 100개든 토큰당 같은 가격이지만, batched 호출은 round-trip 100번 대신 1번. 32–128 batch size 가 일반적.
- Eval 이 허용하면 작은 모델. 384차원 로컬 모델이 factoid retrieval 에서 3072차원 호스티드 모델 매칭 가능 + 호출당 비용 0. eval set 이 차이가 본인 query 에 진짜 중요한지 알려줌.