Eval + tracing + UI + dataset 한 platform 에
Braintrust 는 LLM 평가와 observability 위한 hosted (self-hosted 옵션 있음) platform. Experiment tracking, dataset versioning, side-by-side 비교 UI, prompt playground, online (production) eval, CI/CD 통합 결합. 팀이 공유 workspace 필요하고 dashboard 만들고 싶지 않을 때 best fit.
기본 제공
- Experiment — 모든 eval run 이 전체 input/output/score 와 함께 추적된 experiment 가 됨.
- Dataset — versioned, UI-편집 가능, JSONL 에서 import 가능.
- Side-by-side diff view — 두 experiment 를 case level 에서 비교. "이 prompt 변경이 도움이 됐어?" 에 결정적.
- Online eval — production traffic log, async 로 score, regression 알림.
- Prompt playground — eval signal 붙은 채 UI 에서 prompt iterate.
- SDK — TypeScript, Python, plus promptfoo, OpenAI, Anthropic 통합.
빛나는 곳
팀들. 공유 workspace 가 killer feature. Engineer A 가 prompt iterate; engineer B 가 10분 후 experiment 봐서 뭐가 바뀌었고 왜 바뀌었는지 봐. UI 가 'notebook 이 내 노트북에 있어' 함정 제거.
안 맞는 곳
빠르게 iterate 하는 solo developer 는 SaaS layer 가 overkill 일 수 있어. Scale 에서 비용 중요 (per-call pricing). Self-hosted 존재하지만 운영적으로 non-trivial.
원칙: Braintrust 는 '공유 eval workspace 있어' 가 'eval 이 우리 repo 에 살아' 보다 팀에 더 가치 있을 때 옳은 pick. 둘이 배타적 X — 많은 팀이 둘 다 써.