모델의 internal thought 가 user 에게 닿는 세 가지 방법
Visible chain-of-thought
User 가 full reasoning trace 봐 — 모든 intermediate 토큰. DeepSeek-R1 이 최종 답 전에 literal <think>...</think> block emit, 다 읽을 수 있어. 초기 Claude extended thinking 도 thinking content 직접 노출. Visible CoT 가 가장 transparent 옵션 + "이 거대한 internal monologue 벽 봐" 측면에서 가장 expensive.
Hidden reasoning
모델이 internal 로 thinking 토큰 생성하지만 user 는 최종 답만 봐. OpenAI o1, o3 가 이 접근 — reasoning 토큰이 billing 에 카운트되지만 API consumer 에게 노출 안 됨 (일부 경우 summarized stream 으로). Hidden CoT 가 UX 관점에서 더 cheap (internal monologue 스크롤 없음) 지만 transparency 와 tidiness 거래.
Summarized reasoning
최종 답과 함께 reasoning 의 응축된, human-readable summary 표시. Anthropic 의 Claude 가 일부 configuration 에서 summarized thinking block 제공 — token-level trace 없이 모델이 문제에 어떻게 접근했는지 gist 봐. 많은 production UI 에 best of both worlds.
왜 visibility 선택이 consequential
- 신뢰: visible CoT 가 user 가 reasoning sanity-check 가능. Hidden CoT 가 audit trail 없이 최종 답 신뢰 요구.
- Faithfulness: research 가 thinking 토큰이 모델의 실제 internal computation 에 부분적으로만 faithful 임 보여줌. 모델이 visible thinking 에 반영되지 않은 이유로 옳은 답 도달 가능.
- UX: visible CoT 가 짧은 상호작용에서 overwhelming. Summarized 가 gentler. Hidden 이 가장 깨끗하지만 opaque.
- Cost transparency: visible CoT 가 thinking-token cost obvious 만듦. Hidden CoT 가 thinking 토큰 얼마나 빌링됐는지 모르는 developer 놀랠 수 있음.
Faithfulness caveat
Visible thinking 을 모델의 실제 reasoning process 창으로 fully 신뢰할 수 없어. Anthropic 등이 모델이 때때로 답의 진짜 원인과 안 맞는 confident-sounding thinking 생산함을 보여줌. Visible CoT 는 useful 하지만 imperfect lens — guarantee 가 아니라 hint 로 다뤄.