C.W.K.
Stream
Lesson 05 of 06 · published

Meta-Evaluation 과 Eval Culture 만들기

~18 min · safety, meta-eval, culture, team

Level 0Guesser
0 XP0/55 lessons0/10 achievements
0/150 XP to next level150 XP to go0% complete

Evaluation 이 실제로 quality 측정해?

Eval 의 가장 어려운 질문: "보고 있는 metric 이 봐야 하는 metric?" Meta-evaluation 이 자체 evaluation 평가하는 practice.

세 meta-eval 질문

  1. 인간과의 상관 — 인간-rated quality 가 움직일 때 metric 이 움직여? 같은 set 위 자동화된 score 와 인간 rating 사이 상관 계산.
  2. User 와의 상관 — User-perceived quality 가 움직일 때 metric 이 움직여? 자동화된 score 와 downstream user signal (thumbs, retention, completion) 사이 상관 계산.
  3. Gaming 에 대한 robustness — Model 이 metric 에 optimize 되면 optimization 이 real quality 향상시켜 score 만?

상관 약하면 metric 은 연극. 교체.

Eval culture 만들기 — 팀 practice

  1. 쉽게 만들어 — eval 돌리기 가 30-step 의례가 아니라 single command.
  2. visible 하게 만들어 — 팀 방의 dashboard. PR description 에 인용된 eval score.
  3. required 로 만들어 — eval 결과 없는 PR merge X. Green eval check 없는 release X.
  4. shared 로 만들어 — 모든 팀원이 test case 기여. Dataset 이 communal.
  5. celebrated 로 만들어 — 누군가 eval 로 regression 잡으면 인정. Suite 가 embarrassment 처음 막는 순간이 culture 가 take hold 하는 순간.
원칙: Eval 은 팀이 느낄 때 stick. 아무도 안 여는 dashboard 의 metric 은 metric 아님.

Production-stack eval pipeline

Mature stack: git 의 JSONL dataset → Python 또는 YAML eval runner → Braintrust 또는 self-hosted dashboard → CI/CD gate → dataset 으로 돌아가는 production sampling → 인간 대비 분기별 meta-eval. 각 piece 가 작아; loop 이 가치.

Code

Meta-eval — metric 을 인간 rating 과 correlate·python
from scipy.stats import spearmanr

# 100 outputs, each with: (automated_metric_score, human_rating_1_to_5)
automated = [...]   # list of floats from your metric
human = [...]       # list of integers from human rater

rho, pval = spearmanr(automated, human)
print(f"Spearman correlation: {rho:.3f} (p={pval:.4f})")

# rho > 0.7 → metric tracks human judgment well
# rho 0.4-0.7 → useful but noisy; treat with care
# rho < 0.4 → metric is theatre; replace it
Makefile 로서의 end-to-end eval stack·text
Test data        +   Metrics       +   Runner          +   Dashboard       +   CI/CD
   |                  |                  |                    |                    |
   └── JSONL files    └── Python /       └── promptfoo /      └── Braintrust /     └── GitHub Actions
       in git             scoring             pytest /             custom              blocks bad PRs
                          functions           DeepEval /           webapp
                                              hand-rolled

External links

Exercise

가장 많이 보는 eval metric 골라. 그것과 50-case sample 위 인간 rating 사이 Spearman 상관 계산. 0.6 아래면 metric 이 팀 misleading. Gap 문서화하고 metric 고치든 팀이 보는 거 변경하든.

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.