C.W.K.
Stream
Lesson 03 of 05 · published

모형이 자기 자신과 disagree할 때

~22 min · self-disagreement, consistency, audit

Level 0Window Watcher
0 XP0/50 lessons0/13 achievements
0/100 XP to next level100 XP to go0% complete

같은 질문, 다른 답

Long session이 가끔 같은 질문에 turn 가로지른 모순된 답 만들어. 모형이 거짓말 X. 미묘하게 다른 context에 반응 — 다른 recency, 다른 attention sink, 다른 cache state. Self-disagreement는 debug 선물 — context drift에 robust하지 않은 사실이 어떤 건지 알려줘.

Surface, paper over X

모순 발견하면 명시적으로 surface — 'turn 12에 X 말함; turn 41에 not-X 말함; source와 reconcile.' 모형한테 source와 reconcile 시키면 가장 최근 답 default로 고르기 대신 durable한 데 ground.

Self-disagreement가 drift 매핑

같은 질문이 turn 12, 41, 73에 다른 답 받으면, drift map 있어 — 안정적 rule이나 source 아니라 최근 context 의존하는 사실. 그 사실들이 invariant여야 하면 durable storage로 옮겨; 진짜 turn-specific이면 변화 받아들여.

Code

Reconcile prompt·text
Earlier in this session:
  Turn 12: you said X.
  Turn 41: you said not-X.
Reconcile by citing sources from the spine, the body, or the current source files.
If both answers were unsourced model priors, say so and pick neither until verified.
Disagreement log·yaml
self_disagreement:
  topic: "DB connection pooling default"
  answers:
    - turn: 12, claim: "pool size 10", source: "unverified"
    - turn: 41, claim: "pool size 20", source: "backend/db.py:18"
  resolution: "trust turn 41 (sourced); add explicit rule to spine"

External links

Exercise

모형이 inconsistently 다룬 사실 골라. 그것용 reconcile prompt 만들어. 돌려. Inconsistency 멈추려면 사실이 어디 살아야 할지 결정.
Hint
Inconsistency는 보통 그 사실이 durable storage에 빠진 거 의미.

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.