숫자
Hugging Face 가 750K+ 모델 checkpoint 와 400+ 지원 architecture host. 압도적 다수가 Transformer-family. vLLM, SGLang, TensorRT-LLM 다 Transformer KV-cache 관리에 heavily 최적화. FlashAttention-3 가 H100 이론 peak 85% hit. Transformer ecosystem 이 머신 러닝 역사상 single 가장 큰 software-and-tooling 투자.
이게 marketing point 아냐 — productivity multiplier. 모든 Transformer 모델이 이거 다 공짜로 받아. 모든 alternative architecture 가 각 integration 위해 싸워야: vLLM 지원, quantization recipe, fine-tuning framework, evaluation harness, RLHF pipeline, 배포 tooling, monitoring, 새 hardware platform 마다 runtime kernel.
팀 level 에서 "ecosystem" 이 실제 의미하는 것
2026 의 typical 엔지니어링 팀한테, ecosystem 성숙도는 절약된 엔지니어링 시간 주 단위로 직접 번역. "내 Llama-3 모델이 production 위해 FP8 quantization 필요" 가 여러 battle-tested 구현 가진 표준 recipe. "내 Mamba 모델이 production 위해 FP8 quantization 필요" 가 research 프로젝트. 같은 패턴이 speculative decoding, structured generation, function calling, multi-modal extension 전반 반복 — Transformer 한테 길이 paved 됐고 alternative 한테는 자갈이야.
Hugging Face Transformers v5 — 네트워크 효과 compound
Hugging Face Transformers v5 (2025.12) 가 interoperability 를 first-class 우려로 만듦: `transformers` 라이브러리에 추가된 모델이 자동으로 vLLM, SGLang, llama.cpp/MLX 와 다른 주요 runtime 에서 작동. flywheel — 그 runtime 들 어디든 새 최적화가 HF 의 모든 Transformer 모델에 accrue. Alternative architecture 는 각 integration 에 opt-in 해야.
실용적 효과: 작은 ecosystem advantage 가 시간 따라 큰 거로 compound. Llama 3 와 Mamba 사이 product 위해 결정하는 startup 이라면, Llama 경로가 다음 주 ship 시키고 Mamba 경로가 분기 동안 인프라 build 시켜. 그 비대칭성이 alternative 가 "obvious 선택" 안 되면서 "흥미로운" 으로 계속 남는 이유.