Python test 처럼 느껴지는 eval
DeepEval (2026 중반 기준 v3.x) 는 Python-native eval framework. pytest 와 통합, 30+ named metric (RAG / agentic / safety / custom 카테고리) 제공, Confident AI 통한 선택적 cloud dashboard. Eval 로직이 Python 에 살고 이미 pytest 쓸 때 best fit.
기본 제공
- Pytest 통합 — eval 을 assert_test 로 pytest test 처럼 작성.
- Built-in metric — Faithfulness, AnswerRelevancy, Hallucination, Toxicity, Bias, ContextualPrecision/Recall/Relevancy, ToolCallAccuracy, AgentGoalAccuracy, GEval (custom LLM-as-Judge).
- End-to-end 와 tracing mode — final output 위 black-box, 또는 pipeline trace 위 white-box.
- deepeval login 으로 공유 experiment history 위한 cloud dashboard.
- Test data 생성 위한 Synthesizer.
빛나는 곳
DeepEval 은 Python 코드베이스에 자연스럽게 fit. Eval suite 가 또 하나의 tests/eval/ 디렉토리; pytest 가 collect; CI 가 돌려. GEval 통한 custom metric 이 prompt 수동 작성 없이 declarative criteria 로 LLM-as-Judge 로직 정의 가능하게.
안 맞는 곳
팀이 Python 안 쓰면 friction 진짜야. No-code GUI 원하면 Braintrust 또는 Confident AI 의 hosted UI 봐.
원칙: DeepEval 은 eval 이 Python 코드 옆에 살고 다른 모든 test 처럼 느껴지길 원할 때 옳은 pick.