API는 메모리 없어; 너가 가져
각 messages.create() 호출은 stateless. 대화 이어가려면 매 요청에 전체 히스토리(이전 user/assistant 턴 전부)를 다시 보내. 모델은 호출 사이 기억 없어 — 너의 애플리케이션이 메모리 레이어야.
커지는 히스토리 관리 세 가지
짧은 채팅이면 verbatim 다 보내. 중간이면 옛 턴을 응축된 assistant note로 요약하고 최근 턴은 verbatim 유지. 오래 도는 에이전트면 턴을 외부 저장(DB, JSONL)에 두고 매 호출에 관련 슬라이스 재구성. cwkPippa는 옵션 셋 — 모든 턴이 conversation_id로 키된 JSONL에 살고, Agent SDK가 일관성 위한 만큼만 내부적으로 replay.
Append-only가 친구
대화 히스토리를 append-only로 다뤄. 모델 응답 'fix'한다고 과거 턴을 편집하면 Claude 헷갈림(append된 텍스트가 이미 말했다고 가정한 것과 모순). 턴을 다시 하고 싶으면 새 브랜치 시작, in-place로 rewrite 안 해.
원칙: 애플리케이션이 메모리 소유. API는 너가 보내기로 한 슬라이스에 대한 추론기.