큰 effective batch size 가 필요한데 GPU 메모리 부족 — 작은 batch 로 forward/backward 여러 번, gradient 누적, 한 번에 step. 효과적 batch size = micro_batch × accumulate_steps.
train_step 안에서 self.accumulated_grads 같은 list 로 누적, accumulate_steps 도달 시 apply_gradients + reset. small VRAM 으로도 large-batch effect — vision transformer fine-tune 의 표준 트릭.