ONNX: cross-runtime portability
ONNX Runtime 이 같은 export 모델을 Windows, Linux, macOS, 모바일, web (WebAssembly 통해) 에 실행. PyTorch 못 가져가는 deploy 타겟이면 ONNX 가 보통 right pick. optimum.onnxruntime wrapper 가 한 메서드 콜로 변환.
MLX: Apple Silicon 네이티브
MLX 가 Apple 의 네이티브 ML 프레임워크: unified memory, Metal 커널, lazy evaluation. mlx-lm 이 Llama-스타일 아키텍처 wrap, HF 체크포인트를 Apple Silicon 에 네이티브 실행. throughput 이 같은 메모리 예산에 PyTorch + MPS 보다 종종 2-3x.
결정
너 deployment 표면이 모바일 / 브라우저 / 비-PyTorch 서버 포함 → ONNX. Apple Silicon (M-series Mac, iPad/iPhone) ship → MLX. 둘 다 단일 Hub 레포에 원본 PyTorch 체크포인트와 같이 sit.