Effective batch 공식
effective_batch = per_device_batch × gradient_accumulation_steps × num_GPUs
큰 effective batch는 더 부드럽고 안정적 학습 주지만 step당 메모리 더 씀. 큰 배치가 VRAM에 안 들어가면 gradient accumulation 써 — 여러 작은 배치에 대한 gradient를 합한 다음 가중치 업데이트.
Effective batch 가이드라인
| 데이터셋 크기 | 추천 effective batch |
|---|---|
| 1,000개 미만 | 4~8 |
| 1,000~10,000 | 16~32 |
| 10,000+ | 32~128 |