C.W.K.
Stream
Lesson 07 of 07 · published

Framework 선택 가이드

~18 min · frameworks, selection, decision

Level 0Guesser
0 XP0/55 lessons0/10 achievements
0/150 XP to next level150 XP to go0% complete

어떤 일에 어떤 framework

진지한 LLM 프로젝트 lifetime 동안 2-3 framework 쓰게 될 거야. 잘못 고르면 몇 달 비용. 아래 matrix 써.

Decision matrix

필요고름
CLI/YAML 에서 prompt × provider matrixpromptfoo
Rich metric 있는 pytest-native Python evalDeepEval
공유 팀 workspace + production observabilityBraintrust
표준 NLP benchmark (MMLU, HumanEval, GSM8K)lm-evaluation-harness
RAG-specific 분해 metricRAGAS
Agent, tool use, code execution, safety evalInspect AI
Infra 없는 빠른 custom hackHand-rolled Python + JSONL

Framework 섞는 거 정상

실제 팀들은 보통 prompt iteration 에 promptfoo, CI 의 unit-level RAG metric 에 DeepEval, 팀-wide observability 에 Braintrust, base model 비교 시 lm-eval-harness 돌려. 어떤 것도 4개 다 잘 하려고 하지 않고, 그럴 필요도 없어.

원칙: Framework 는 도구지 종교가 아니야. 즉시 문제 푸는 가장 작은 도구 골라, 다음 문제가 fit 안 하면 또 추가.

Migration 비용은 진짜지만 manageable

JSONL dataset 과 OpenAI-style API 관습이 framework 간 공통 substrate. Data 를 JSONL 에 두고 provider 를 configurable 하게 두면 framework 전환은 한 주짜리 rewrite 가 되지 rebuild 가 아니야.

Code

공통 JSONL 이 portable 하게·json
{"input": "...", "reference": "...", "tags": ["qa", "easy"], "metadata": {}}

# This shape feeds:
#   promptfoo via vars
#   DeepEval via LLMTestCase
#   Braintrust via dataset import
#   lm-eval-harness via custom YAML task
#   RAGAS via Hugging Face Dataset
# A migration is 'rewrite the runner.' The data does not move.

External links

Exercise

프로젝트의 실제 eval 필요 list (prompt iteration, RAG metric, observability, agent eval, benchmark). Table 써서 각 필요를 framework 에 매핑. 둘 이상 쓰겠으면 정상 — 시작할 가장 시급한 둘 골라.

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.