파인튜닝이 이기는 자리

정직한 다섯 가지 sweet spot

파인튜닝은 프롬프트랑 RAG가 설명할 수 있는 한계에 부딪혔을 때 값어치를 해. 이 다섯 케이스가 일관되게 노력 대비 회수가 잘 되는 자리야.

1. 일관된 스타일 / 포맷

특정 필드 JSON, 브랜드 보이스, 구조화 리포트 템플릿 — 프롬프트만으로 90% 가던 걸 파인튜닝으로 99~100% 포맷 준수까지 끌어올려. 다운스트림 시스템이 출력 파싱하는 순간 그 마지막 10%가 모든 걸 결정해.

2. 도메인 용어

의료, 법률, 금융, 통신, 제조 — 파인튜닝이 네 도메인의 어휘를 모델한테 가르쳐서, 어색하게 말하던 게 자연스럽게 말하게 돼.

3. 신뢰할 수 있는 구조화 출력

함수 호출, API 파라미터, SQL 쿼리, tool-use payload. 파인튜닝하면 첫 시도에 파싱 가능한 출력 나올 확률이 확 올라가. 에이전트 루프 안에 들어가면 효과가 복리야.

4. 레이턴시 / 비용 (distillation)

경제적으로 가장 중요한 패턴: 강한 모델(GPT-4o, Claude, Llama 3.1 70B)이 고품질 출력을 만들고, 그 출력으로 학습 데이터 만들고, 작은 모델(GPT-4.1-mini, Llama 3.1 8B)을 파인튜닝해서 품질의 ~95%를 ~10% 비용에 뽑아. 이게 모델 distillation.

5. 프롬프트 토큰 비용 절감

시스템 프롬프트가 정성껏 튜닝된 1,500 토큰이면, 모든 요청마다 그 1,500 토큰을 돈으로 내는 거야. 파인튜닝으로 그 지시문을 가중치에 박아두면 50 토큰 시스템 프롬프트로 출시 가능. 대규모에선 추론 비용을 이게 좌우해.

패턴 체크

네 use case가 다섯 중 둘 이상 해당하면 파인튜닝 거의 확실히 가치 있어. 하나도 해당 안 되면 거의 확실히 아냐.

Code

Distillation pipeline in 25 lines·python

import json
from openai import OpenAI

teacher = OpenAI()
SYSTEM = "You are a senior technical writer producing concise, accurate answers."

def teach(question: str) -> dict:
    r = teacher.chat.completions.create(
        model="gpt-4o",
        messages=[
            {"role": "system", "content": SYSTEM},
            {"role": "user", "content": question},
        ],
        temperature=0.3,
    )
    return {"messages": [
        {"role": "system", "content": SYSTEM},
        {"role": "user", "content": question},
        {"role": "assistant", "content": r.choices[0].message.content},
    ]}

questions = [line.strip() for line in open("questions.txt") if line.strip()]
with open("distill.jsonl", "w") as f:
    for q in questions:
        f.write(json.dumps(teach(q)) + "\n")
# Now fine-tune gpt-4.1-mini on distill.jsonl. Same vibe, ~10% of the cost.

Exercise

스택에서 월간 토큰 비용 상위 3개 LLM API 호출 나열해. 각각에 대해 다섯 sweet spot에 점수 매겨(각 0~2). 점수 가장 높은 거 골라서 한 페이지 distillation 브리프 써: teacher 모델, target student 모델, 예상 비용 절감, 예상 품질 저하, 케이스 증명할 가장 작은 데이터셋.