optimum 의 용도
optimum 이 HF 의 하드웨어 가속 우산. 각 subpackage 가 vendor / runtime 타겟: optimum.onnxruntime, optimum.intel (OpenVINO, Neural Compressor), optimum.habana (Gaudi), optimum.tpu, optimum.nvidia (TensorRT-LLM). 같은 Auto-class 모양 (ORTModelForCausalLM, OVModelForCausalLM 등) 이라 runtime swap 이 한 줄 import 변경.
패턴 둘
- Export-time 최적화 —
ORTModelForCausalLM.from_pretrained(repo, export=True)가 최적화 graph 변환 + 저장. - Run-time 최적화 —
optimum-cli onnxruntime quantize가 INT8 dynamic 양자화 등 적용.
언제 reach
너 서빙 타겟이 “NVIDIA GPU 의 PyTorch” 외라면 optimum 이 아마 그것의 runtime 가짐. 모바일 / embedded / Intel CPU / TPU / Gaudi / TensorRT — 모두 optimum 모양에 converge. 비용은 dependency 하나 추가 + per-target export step.