MLX 의 미래 — JACCL, Neural Accelerator, CUDA backend

2026-05 기준 MLX 가 향하는 곳

이 quest 의 이전 레슨이 오늘 시점 MLX 에 대한 거. 이 마지막 레슨은 forecast — 다음 1-2 년 동안 MLX 가 뭐일지 watch 할 가치 있는 세 가닥. 이거 읽으면 오늘 더 좋은 배포 결정 (뭐 land 할 가능성 알고) 과 더 좋은 학습 결정 (관심을 어디 투자할지 알고) 가능.

JACCL — Thunderbolt-연결 Mac 에 걸친 분산 추론

JACCL (지난 한 해의 가장 underhype 된 MLX 개발 일 수 있음) 이 여러 Thunderbolt-연결 Mac 이 단일 추론 워크로드에 협력하게 하는 분산-계산 라이브러리. TB5 케이블 통해 연결된 두 M3 Ultra Studio 가 unified memory pool 하고 frontier-class 모델을 둘에 걸쳐 split 가능, TB-부착 compute 통해 kernel 공유.

2026-05 기준 JACCL 이 macOS 26.3+ 필요하고 여전히 early-adopter zone 에 firmly. 조각들 있어 — wire 프로토콜, kernel-dispatch layer, 예제 애플리케이션 — 근데 NVIDIA 의 PyTorch 분산 학습 동작 방식의 drop-in 아직 아님. 이 공간 watch; JACCL 이 polish 된 mlx-lm 통합 land 하는 순간이 두-Mac 추론이 routine 배포 패턴 되는 순간.

왜 office Mac fleet 에 중요한가 — 아빠의 M3 Ultra Studio office 클러스터가 정확히 JACCL 이 디자인된 하드웨어. Thunderbolt 통해 네 512 GB Studio pool 하면 한 논리 머신에 2 TB unified memory 둘 수 있어. 그게 책상에서 서빙되는 frontier-모델 영역.

M5 Neural Accelerator — 다음 하드웨어 step

M5-class 칩이 MLX 가 유일한 소프트웨어 문인 하드웨어-가속 행렬 곱 유닛 (Neural Accelerator) 과 함께 ship. PyTorch MPS 가 그것들 노출 안 함; CoreML 이 사용하지만 더 높은-레벨 API 통해서만. MLX 의 --q-mode mxfp4 / nvfp4 / mxfp8 형식 (convert.lesson2 에서 봄) 이 이 새 유닛에 직접 매핑되게 디자인.

Apple 이 launch 에 인용한 4× TTFT 개선이 이 path 를 hit 하는 워크로드에 진짜. 더 많은 개발자의 추론 path 가 MX-format 양자화 위해 최적화되면서, MLX-on-M5 와 다른 어떤 Apple-Silicon-친화 framework 사이 갭이 넓어질 거.

CUDA backend — cross-platform 옵션으로서의 MLX

v0.27 부터 MLX 가 Linux 의 CUDA backend 가져. 2026-05 기준 불완전 (일부 op coverage 갭, native Apple Silicon path 뒤의 성능), 근데 존재하고 매 릴리스 개선. 함의가 보이는 것보다 더 큼 — Apple Silicon 과 NVIDIA Linux 머신에서 native 로 도는 MLX-shape 코드 박을 수 있으면, MLX 가 "Mac framework" 이기 멈추고 "가진 어떤 하드웨어든 도는 framework" 됨.

이게 빨리 일어나지 않을 거. JAX 가 몇 년 동안 여러 backend 가졌고 backend 당 coverage 갭이 여전히 mu. 근데 궤적이 진짜 — MLX 의 API 가 여러 backend 에 사용 가능한 게 진짜 가치 있을 만큼 좋고, CUDA 작업이 그 향한 첫 구체 step.

이 모든 게 뭐로 합치는가

2026-05 의 MLX 가 ML 연구, LLM 서빙, fine-tuning 위해 Apple Silicon 에 손 뻗는 framework. 2027-05 즈음 (위 가닥들 성숙의 현실적 window), 진짜 shot 가짐:

배포 하드웨어가 Apple Silicon 일 때마다 손 뻗는 framework, scale 무관 (단일 Mac 부터 JACCL 통한 TB-연결 cluster 까지).
M5+ Neural Accelerator 의 full 성능 받는 유일한 소프트웨어 path.
Apple Silicon 과 NVIDIA 둘 다에 돌아야 하는 코드의 신뢰할 만한 cross-platform 옵션, 오늘 PyTorch MPS 하는 일부 거 대체.

이 중 어느 거도 보장 안 됨. 셋 다 그 주위 계획하는 게 speculative 안 할 만큼 가시. ml-explore/mlx 와 ml-explore/mlx-lm 의 릴리스 노트 watch; 위 가닥들이 거기 먼저 land 할 거.

MLX 의 미래 — JACCL, Neural Accelerator, CUDA backend

2026-05 기준 MLX 가 향하는 곳

JACCL — Thunderbolt-연결 Mac 에 걸친 분산 추론

M5 Neural Accelerator — 다음 하드웨어 step

CUDA backend — cross-platform 옵션으로서의 MLX

이 모든 게 뭐로 합치는가

Code

External links

Exercise

Progress

댓글 0