5시간 충돌에서 살려주는 것
장시간 training엔 preemption, 충돌, 노트북 끊김 후 재개를 위한 스냅샷 저장 필수. tf.train.Checkpoint와 CheckpointManager가 도구 — save_weights와 달리 임의 Python 객체 저장 가능 (optimizer state, custom step counter, 심지어 dataset도).
CheckpointManager(max_to_keep=N)은 한도 도달 시 오래된 checkpoint 자동 삭제. 장시간 run 동안 디스크 사용량 묶어둬.
패턴: checkpoint 객체 만들기, manager에 붙이기, training 시작 시 restore (checkpoint 없으면 no-op), 주기적으로 save. 5시간에 충돌하는 6시간 run이 5시간 손실이 아니라 0–10분 손실이어야 해.