MLX 의 가장 변동성 큰 frontier
비디오 생성과 음악 생성은 2026-05 기준 Apple Silicon 의 진짜, 동작하는 capability — 근데 MLX ecosystem 의 가장 빠르게 변하는 부분이기도 함. 오늘 리더인 모델이 다음 달에 superseded 될 수 있어; mlx 0.31.x 에 깨끗하게 도는 워크플로가 한두 릴리스 후 조정 필요할 수 있어. 땅이 움직이니까 이 레슨은 일부러 짧음.
비디오, 짧게
비디오 생성 모델 (text-to-video, image-to-video) 이 크고, 메모리 굶주리고, 이미지 생성보다 출력 초당 더 느림. Mac 에서 로컬로 돌리는 건 더 작은 끝에서 feasible (M-Ultra 의 저-해상도 비디오 몇 초) 근데 더 높은 품질의 호스티드 API 대비 거의 맞는 호출 아냐. MLX-native port 들이 따라잡지만 호스티드 state of the art 에 대략 6-12 개월 lag.
로컬 비디오 생성 가지고 놀고 싶으면, CogVideoX-class 모델, Wan2 / Hunyuan-class 파생물, 또는 현재 오픈-weight tier 리딩 무엇이든의 mlx-community 업로드 찾아. 출력 몇 분 위해 시간 단위 생성 시간 할당 예상.
음악, 짧게
음악 생성이 비슷한 모양. 오픈-weight 리더 (MusicGen 와 후속) 가 다양한 성숙도의 MLX port 가짐. Apple Silicon 의 품질이 같은 모델의 PyTorch 버전과 경쟁력, 근데 모델 bench 가 LLM/VLM/STT 공간보다 더 작고 더 자주 변함.
이 레슨으로 뭐 하나
이 레슨이 말하는 거 기반으로 비디오 또는 음악 모델 고르지 마 — 네가 읽을 때 즈음 stale 일 거. 레슨을 pointer 로 사용 — mlx-community 열어, 최근 업로드로 정렬, 비디오 / audio 태그 찾아, 현재 활동 중인 무엇이든 골라. 패턴 (로드, 생성, 저장) 전달; specific 모델 식별자 안 그래.
솔직한 입장
2026-05 기준 대부분 창작 사용 케이스에, 비디오와 음악의 호스티드 state of the art 가 Mac 에서 로컬로 돌릴 수 있는 거보다 의미 있게 앞서. 이 공간의 로컬 생성은 privacy-민감 사용, 오픈-weight 리더 실험하고 싶은 사람들, 또는 모델의 full 통제 가지는 게 중요한 매우 specific 정량 작업용. 그냥 비디오 또는 음악 클립 원하고 로컬로 유지할 강한 이유 없으면, 호스티드 API 가 더 빨리 더 좋은 출력 만듦.