파인튜닝이 지는 자리

네 가지 안티패턴

이전 레슨의 거울. 파인튜닝이 잘못된 도구인 자리들이고, 망한 프로젝트 대부분이 여기서 시작해.

1. 일회성 작업

가끔만 필요한 행동이면 프롬프트 엔지니어링이 더 빠르고 싸고 유연해. 파인튜닝은 실서비스 빈도로 반복적이고 일관된 행동을 위한 거야.

2. 자주 바뀌는 지식

파인튜닝은 학습 시점의 사실을 가중치에 박아. 데이터가 주간으로 바뀌는 거(뉴스/가격/제품 카탈로그/티켓 큐)면 RAG 써. 모델은 재학습 없이 오래된 사실을 "잊을" 수 없고, 매주 화요일마다 재학습 돌리고 싶지 않을 거잖아.

3. 작은 데이터셋 (50개 미만)

대부분의 파인튜닝은 개선이 보이려면 최소 50~100개, 안정적인 결과는 500~1,000개 필요해. 50개 미만이면 보통 둘 중 하나야 — 측정 가능한 변화 없거나, 일반성 다 망가뜨리는 공격적 overfitting.

4. 사실(facts) 가르치기

가장 흔한 오해. 파인튜닝은 새 사실을 안정적으로 못 가르쳐. 가르치는 건 행동이야 — 어떻게 포맷할지, 언제 거절할지, 어떤 톤 쓸지. 지식은 RAG. 파인튜닝으로 사실 가르치려는 시도가 단일 프로젝트 실패 패턴 1위야.

Catastrophic forgetting

이 모두를 묶는 그림자 리스크: 공격적인 full fine-tuning은 모델의 일반 능력을 덮어써. 법률 텍스트로 강하게 파인튜닝된 모델이 창작 글쓰기나 기본 추론에서 측정 가능하게 나빠질 수 있어. LoRA 같은 PEFT 기법이 존재하는 가장 깊은 이유 중 하나(Track 4) — 아주 작은 비율의 파라미터만 업데이트해서 모델의 나머지를 짓밟을 위험을 최소화하는 거야.

Code

Catastrophic-forgetting regression check·python

from openai import OpenAI

client = OpenAI()
GENERAL_TESTS = [
    "Summarize the plot of Pride and Prejudice in 3 sentences.",
    "Write a Python function that returns the Nth Fibonacci number.",
    "What is the difference between TCP and UDP?",
]

def regression_check(model_id: str) -> None:
    for q in GENERAL_TESTS:
        r = client.chat.completions.create(
            model=model_id,
            messages=[{"role": "user", "content": q}],
            temperature=0,
        )
        print(f"=== {q[:40]}\n{r.choices[0].message.content}\n")

# Run against the BASE model AND the FINE-TUNED model.
# If the fine-tuned model is visibly worse on general tasks,
# you've forgotten too much.
regression_check("gpt-4.1-mini-2025-04-14")
regression_check("ft:gpt-4.1-mini-2025-04-14:org:custom:abc123")