한 reasoning chain은 틀릴 수 있어
한 CoT 샘플하고 trust하면 — 확률적 process의 하나의 sample에 답을 stake한 거야. 두 가지 cheap improvement: 여러 sample 뽑고 reconcile (self-consistency), 또는 reasoning을 tree로 branch하고 prune (Tree-of-Thought).
Self-consistency
temperature > 0에서 N개 reasoning chain 생성. 가장 자주 나오는 답 take. answer space 작은 task (math, classification)에 measurable한 정확도 boost.
Tree-of-Thought (ToT)
각 reasoning step에서 multiple candidate 생성, score, prune. self-consistency보다 비싸고; reasoning 중간 backtrack 가능해서 더 flexible. planning, multi-step search, complex agent loop에 유용.
cost reality
N=5 self-consistency는 5x cost. Tree-of-Thought는 더 비싸. cost가 정확도 gain 값할 곳에만 써 — 보통 high-stakes one-shot task, interactive chat 아니야.