GRPO와 Constitutional AI — DPO 너머의 정렬

주목할 만한 더 새로운 정렬 레시피 둘: GRPO(DeepSeek의 추론 모델 레시피)와 Constitutional AI(Anthropic의 안전 레시피).

GRPO (Group Relative Policy Optimization)

OpenAI o1과 경쟁하는 추론 모델 DeepSeek-R1 학습에 사용. 핵심 통찰: reward 모델 통째로 건너뛰고, 룰 기반 reward(수학 답이 맞나? 코드가 테스트 통과하나?) 사용 + 같은 prompt에 대한 그룹 평균과 각 생성 비교.

현재 policy에서 prompt당 G개 출력 샘플(예: G=16).
각각을 룰 기반 reward(정답 신호)로 채점.
advantage 계산 — A_i = r_i − (1/G) Σ_j r_j — 그룹 평균보다 얼마나 나은가.
평균 이상 출력의 확률을 높이도록 policy 업데이트.

critic 모델 불필요. PPO 대비 ~50% 메모리 감소. 정답을 기계적으로 확인할 수 있는 task에 예외적으로 잘 통함 — 수학, 코드, 구조화된 출력.

Constitutional AI (Anthropic)

모든 Claude 모델이 사용. 사람 선호 라벨링 대부분을 작성된 원칙 집합("헌법", 원조 논문에서 ~16개)으로 안내된 AI 피드백으로 대체.

Red-team 후 self-revise. 해로운 prompt 생성 → 모델이 응답 → 모델한테 헌법에 대조해 자기 응답 비판 요청 → 수정. 수정된 응답에 fine-tune.
RLAIF (RL from AI Feedback). RLHF랑 같은데 preference 라벨이 사람이 아니라 AI(헌법 사용)에서 옴. 사람 라벨러가 생산할 수 있는 것 너머로 스케일.

승리: 정렬이 사람 라벨링 노력에 비례해 스케일하지 않으면서 스케일, 원칙이 불투명한 사람 판단에 암묵적으로 있는 게 아니라 작성되고 검사 가능.

Code

GRPO advantage computation·python

def grpo_advantage(rewards):
    # rewards: (G,) — rule-based scores for G generations from same prompt
    mean_r = rewards.mean()
    return rewards - mean_r           # A_i = r_i - group mean
# Then standard policy gradient with these advantages.
# No reward model, no critic, no value head.

Constitutional AI self-critique loop (sketch)·python

def constitutional_revise(model, prompt, constitution):
    response = model(prompt)
    critique_prompt = (
        f"Original prompt: {prompt}\n"
        f"Original response: {response}\n"
        f"Critique this response based on:\n{constitution}"
    )
    critique = model(critique_prompt)
    revise_prompt = (
        f"{critique_prompt}\n"
        f"Critique: {critique}\n"
        f"Now write a revised response addressing the critique."
    )
    return model(revise_prompt)
# Repeat to build a dataset; then SFT or RLAIF on (prompt, revised_response).

GRPO와 Constitutional AI — DPO 너머의 정렬

GRPO (Group Relative Policy Optimization)

Constitutional AI (Anthropic)

Code

External links

Exercise

Progress

댓글 0