accelerate 가 주는 거
accelerate 가 Trainer 아래 추상화 — 디바이스 placement, mixed precision, gradient accumulation, 분산 학습 (DDP, FSDP, DeepSpeed), resumability 핸들. Trainer 가 wrap; 커스텀 학습 루프 있으면 직접 사용 가능.
진입 둘
- Trainer 통해 —
TrainingArguments노브 (fsdp,deepspeed) 셋, accelerate 가 plumb. - 직접 —
Accelerator()+accelerator.prepare(model, optimizer, dataloader)+ 너.backward()/.step().
2026 의 FSDP vs DeepSpeed
FSDP (Fully Sharded Data Parallel, native PyTorch) 가 이제 큰 모델 학습 디폴트 — 더 나은 통합, 단순 config. DeepSpeed (Microsoft) 가 일부 advanced 워크로드에 여전히 강함, runtime dependency 추가. Fine-tuning + 우리가 고려할 스케일의 pre-training 대부분엔 FSDP 가 right starting point.