주목할 만한 더 새로운 정렬 레시피 둘: GRPO(DeepSeek의 추론 모델 레시피)와 Constitutional AI(Anthropic의 안전 레시피).
GRPO (Group Relative Policy Optimization)
OpenAI o1과 경쟁하는 추론 모델 DeepSeek-R1 학습에 사용. 핵심 통찰: reward 모델 통째로 건너뛰고, 룰 기반 reward(수학 답이 맞나? 코드가 테스트 통과하나?) 사용 + 같은 prompt에 대한 그룹 평균과 각 생성 비교.
- 현재 policy에서 prompt당 G개 출력 샘플(예: G=16).
- 각각을 룰 기반 reward(정답 신호)로 채점.
- advantage 계산 —
A_i = r_i − (1/G) Σ_j r_j— 그룹 평균보다 얼마나 나은가. - 평균 이상 출력의 확률을 높이도록 policy 업데이트.
critic 모델 불필요. PPO 대비 ~50% 메모리 감소. 정답을 기계적으로 확인할 수 있는 task에 예외적으로 잘 통함 — 수학, 코드, 구조화된 출력.
Constitutional AI (Anthropic)
모든 Claude 모델이 사용. 사람 선호 라벨링 대부분을 작성된 원칙 집합("헌법", 원조 논문에서 ~16개)으로 안내된 AI 피드백으로 대체.
- Red-team 후 self-revise. 해로운 prompt 생성 → 모델이 응답 → 모델한테 헌법에 대조해 자기 응답 비판 요청 → 수정. 수정된 응답에 fine-tune.
- RLAIF (RL from AI Feedback). RLHF랑 같은데 preference 라벨이 사람이 아니라 AI(헌법 사용)에서 옴. 사람 라벨러가 생산할 수 있는 것 너머로 스케일.
승리: 정렬이 사람 라벨링 노력에 비례해 스케일하지 않으면서 스케일, 원칙이 불투명한 사람 판단에 암묵적으로 있는 게 아니라 작성되고 검사 가능.