Image generation — Mac 위의 diffusion

Mac 위의 diffusion

MLX 의 이미지 생성이 diffusion 모델 통해 돔 — Stable Diffusion variant, FLUX (많은 사용 케이스의 현재 품질 리더), 그리고 community-학습 모델의 긴 꼬리. MLX-native 패키징 노력이 argmaxinc 의 mlx-FLUX 작업과 더 오래된 mlx-examples/stable_diffusion reference 가 주도, 둘 다 Apple Silicon 의 unified memory 직접 타겟.

빠른 path 가 argmaxinc/mlx-FLUX.1-schnell — MLX format 의 4-step 품질-리딩 diffusion 모델. "Schnell" 이 독일어로 "빠른", 그 이름값 함; 더 오래된 Stable Diffusion variant 가 요구하는 step 의 분수로 full-quality 생성 받음.

기대해야 할 wall-clock

M-Pro 의 4-bit 양자화된 FLUX schnell 가 1024×1024 이미지를 대략 10-30 초에 생성; M-Ultra 에선 5-15 초 범위에 더 가까움. 그게 working iteration loop — 모델로 거의-실시간 sketch 가능, GPU 빌릴 필요 없음.

이미지 생성을 위한 MLX vs CoreML 결정

같은 칩의 같은 모델 클래스에 대해, MLX 와 CoreML 이 비슷하게 수행 — 가끔 서로의 noise 안에. 결정은 raw 속도 아님; 워크플로:

MLX — Python-first, 스크립트와 파이프라인 통합 쉬움, diffusion sampler 의 full 통제, 양자화 레벨 사이 쉬운 A/B. 연구나 Python 이 이미 통합 layer 인 어떤 파이프라인에든 사용.
CoreML — Swift-first, macOS / iOS 앱에 박기 쉬움, on-device 배포 위해 최적화. 앱 안에 feature 출하하고 App Store 배포 + privacy 보장 필요할 때 사용.

호스티드 API vs 로컬 생성

1-사용자로서 commercial-grade 이미지 생성엔, 호스티드 API (Replicate, fal, OpenAI 의 이미지 API) 가 종종 하루 대부분 idle 인 로컬 Mac 돌리는 것보다 이미지 당 더 싸. 로컬 Mac 생성이 이기는 때 — (1) privacy 또는 air-gap 중요, (2) volume 으로 생성하고 이미지 당 비용 쌓임, (3) 모델과 sampler 의 full 통제 원함. 일회성 사용엔 호스티드 API 가 보통 맞는 호출; 매일 쓰는 창작 도구엔 누적 비용에서 Mac 이 이김.

Code

FLUX schnell (MLX) 로 한 이미지 생성·bash

# Run with the mlx-FLUX reference. The model is in ~/.cache/huggingface/hub/
# after first download (~3 GB for the 4-bit variant).
python -m mflux.generate \
  --model schnell \
  --quantize 4 \
  --steps 4 \
  --width 1024 --height 1024 \
  --seed 42 \
  --prompt "A red panda data scientist debugging code at 3am, anime style, soft lighting." \
  --output ./red-panda.png

# Wall-clock varies by chip:
#   M-Ultra : ~5-15 seconds for 1024x1024 schnell at 4 steps
#   M-Pro   : ~10-30 seconds for the same

같은 이미지를 프로그래밍적으로 생성·python

# Pattern (exact API depends on which mlx-FLUX wrapper you're using).
# argmaxinc/mlx-FLUX exposes a high-level Flux class; the canonical
# usage looks like:

from mflux import Flux1, Config

flux = Flux1.from_alias(
    alias="schnell",
    quantize=4,
)

image = flux.generate_image(
    seed=42,
    prompt="A red panda data scientist debugging code at 3am, anime style.",
    config=Config(num_inference_steps=4, height=1024, width=1024),
)

image.save("red-panda.png", export_json_metadata=True)

Exercise

같은 seed 와 세 다른 prompt 로 4 step 의 FLUX schnell 로 세 이미지 생성. 그 다음 같은 prompt 를 세 다른 seed 로 세 번 생성. Seed-안정성이 어떻게 run 사이 같은 이미지 주는지 (반복 가능 art 에 유용) 와 prompt 변경이 어떻게 composition 구동하는지 알아채. 네 머신의 wall-clock latency 가 iterative 창작 loop 에 충분히 빠른지 두 문장.