C.W.K.
Stream
Lesson 06 of 10 · published

Step compression — 안 보여줘도 되면 work 안 보여줘

~12 min · reasoning, compression, cost

Level 0수련생
0 XP0/100 lessons0/14 achievements
0/120 XP to next level120 XP to go0% complete

Reasoning 토큰도 토큰

프롬프트가 reasoning이랑 work한다고 validate되면 종종 reasoning step compress 가능 — non-reasoning 모델로 switch, reasoning effort 낮추기, 또는 프롬프트에서 CoT strip. reasoning은 scaffolding이었어; 프롬프트 right되면 scaffolding이 load-bearing 아닐 수 있어.

compression 테스트

  • Full reasoning으로 돌려. output과 정확도 capture.
  • reasoning off (또는 'low')로 돌려. 비교.
  • 정확도 unchanged면 compress.
  • 특정 subset에서 정확도 drop하면 그 subset에만 reasoning gate (call 앞에 cheap classifier).

왜 중요한가

Reasoning 비용은 traffic으로 scale. 대부분 call이 필요 없는데 모든 call에 reasoning 돌리는 production system이 marginal 정확도에 월 수만 달러 지불. Routing이 lever.

Code

request type별 reasoning routing·python
def needs_reasoning(req) -> bool:
    # cheap classifier or rule-based router
    return req.complexity_score > 0.7 or req.task in {"plan", "debug"}

resp = client.messages.create(
    model="claude-opus-4-7",
    thinking={"type": "enabled", "budget_tokens": 8_000} if needs_reasoning(req) else None,
    messages=req.messages,
)

External links

Exercise

현재 reasoning 쓰는 production request 100개 식별. 'needed' / 'overkill'로 분류. 'needed' request에만 reasoning 쓰는 routing rule 만들어. cost 변화 측정.

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.