데이터 요구량과 비용 지형

실제로 데이터가 얼마나 필요해

품질 레벨	예제 수	기대치
최소 viable	50~100	좁은 작업에서 눈에 띄는 개선; overfitting 위험.
괜찮음	500~1,000	도메인에서 안정적 성능. 대부분 프로젝트 목표.
강함	1,000~10,000	edge case 가로지르는 고품질 일관 행동.
실서비스급	10,000+	복잡한 다면 작업에서 거의 전문가 수준.

품질이 양을 압도해. 완벽히 큐레이션된 다양한 500개가 시끄럽고 반복적인 50,000개를 매번 이겨. 추가로 일주일 쓸 데가 있다면 hyperparameter sweep이 아니라 데이터 품질이야.

2025~2026 비용 지형

경로	대략 비용	필요한 것
OpenAI managed 파인튜닝	1M 학습 토큰당 $0.80~$25	데이터 + API 키만.
Google Colab (무료 티어)	$0 (제한된 GPU 시간)	T4 GPU (~15GB VRAM). 7B 모델 QLoRA에 충분.
RunPod / Lambda Labs / vast.ai	GPU-시간당 $0.30~$3.00	A100 / H100 렌탈. Pay-as-you-go.
직접 보유한 컨슈머 GPU	선행 $700~$2,000	RTX 3090 / 4090 (24GB VRAM).
Apple Silicon (MLX)	이미 Mac 있으면 $0	M2/M3/M4 Ultra + 64GB+ unified memory.

전형 프로젝트의 정직한 예산

첫 실제 파인튜닝 프로젝트 — Llama 3.1 8B를 QLoRA로 ~1,000 예제 학습 — 대략 $0 (Colab 무료) ~ $10 (RunPod RTX 4090, ~3시간). 비싼 실패 모드는 GPU 비용이 아니라 데이터 큐레이션 시간, hyperparameter 반복, eval suite 만드는 시간이야. GPU-시간이 아니라 일(day) 단위로 계획해.

Code

Estimate OpenAI training cost from a JSONL file·python

import json

PRICE_PER_M_TOKENS = {
    "gpt-4.1-mini-2025-04-14": 0.80,
    "gpt-4o-mini-2024-07-18": 3.00,
    "gpt-4o-2024-08-06": 25.00,
}

def estimate_cost(jsonl_path: str, model: str, epochs: int = 3) -> float:
    chars = sum(len(line) for line in open(jsonl_path))
    tokens = chars // 4  # cheap approximation: 4 chars/token in English
    training_tokens = tokens * epochs
    cost = training_tokens / 1_000_000 * PRICE_PER_M_TOKENS[model]
    print(f"Lines: {sum(1 for _ in open(jsonl_path)):,}")
    print(f"Estimated tokens: ~{tokens:,}")
    print(f"Training tokens (× {epochs} epochs): ~{training_tokens:,}")
    print(f"Estimated cost on {model}: ~${cost:.2f}")
    return cost

estimate_cost("training_data.jsonl", "gpt-4.1-mini-2025-04-14", epochs=3)

데이터 요구량과 비용 지형

실제로 데이터가 얼마나 필요해

2025~2026 비용 지형

전형 프로젝트의 정직한 예산

Code

External links

Exercise

Progress

댓글 0