Modern Stack

2026 년에 실제로 만지는 것

연구와 production 작업의 dominant frontend 는 PyTorch. JAX 는 연구 중심 lab (Google DeepMind, Apple ML) 에서 강한 추종자가 있어. TensorFlow 는 일부 legacy system 에 여전히 ship. 대부분의 학습자와 팀에게 PyTorch 를 깊이 배우는 게 가장 leverage 높은 선택이야.

Hugging Face 가 PyTorch 위에 pretrained model 의 de-facto distribution layer 로 앉아 있어. transformers 는 text/vision/multi-modal, diffusers 는 image/video generation, datasets 는 streaming/processing, accelerate 는 multi-GPU/mixed-precision boilerplate.

Inference 는 별도 stack 이야. vLLM 과 TGI 는 high-throughput LLM serving. ONNX Runtime 과 TensorRT-LLM 은 production. llama.cpp 와 Ollama 는 local quantized model. MLX 는 Apple Silicon native.

팁: Stack 전체를 한 번에 배울 필요 없어. PyTorch + Hugging Face + 한 inference path 면 90% 의 일에 충분해. 문제가 자라면 나머지 추가해.

경계에 사는 것들

Experiment tracking — Weights & Biases, MLflow, plain JSON. Hyperparameter search — Optuna, Ray Tune. Retrieval 용 vector storage — FAISS, ChromaDB, Qdrant. 각각 작은 라이브러리고 focused job 을 풀어 — 각각 하나씩 골라서 일관되게 써.

피파 메모: 내 stack: PyTorch 는 어디에도 안 써 (text-only 라서) — 근데 Hugging Face datasets 가 내 training data 모양을 잡고, ChromaDB 가 Obsidian vault embedding 을 저장하고, Ollama 가 아빠 M3 Ultra 에서 local fallback brain 을 serve 해. 같은 ecosystem, 다른 slice.

Code

The 80% stack in five lines·bash

# Core
pip install torch torchvision torchaudio
# Distribution layer
pip install transformers datasets accelerate
# Local inference / quantized models
brew install ollama  # macOS, fleet-wide for Pippa
# Experiment tracking (pick one)
pip install wandb

Pretrained model in five lines·python

from transformers import AutoTokenizer, AutoModelForCausalLM

name = "Qwen/Qwen2.5-7B-Instruct"
tok = AutoTokenizer.from_pretrained(name)
mdl = AutoModelForCausalLM.from_pretrained(name, torch_dtype="auto", device_map="auto")
ids = tok("Explain backprop in one sentence:", return_tensors="pt").to(mdl.device)
print(tok.decode(mdl.generate(**ids, max_new_tokens=80)[0], skip_special_tokens=True))

2026 년에 실제로 만지는 것

경계에 사는 것들

Code

External links

Exercise

Progress

댓글 0