Default 로 이기는 default
2026 의 대부분 팀한테, 옳은 architecture 가 여전히 표준 Transformer + FlashAttention-3 + GQA. 이게 default: 32K 토큰 미만 일반 목적 language task, 복잡한 reasoning 과 multi-step logic, few-shot in-context learning, distant context 존중하는 code generation, ecosystem 성숙도 중요한 어떤 task (fine-tuning, serving, 커뮤니티 지원, monitoring, debugging tooling).
사용 사례가 Transformer bottleneck 안 hit 하면, switch 할 이유 없어. 2026 의 대부분 task 가 여전히 Transformer 가 best. 새 architecture 채택의 overhead — 처음부터 retrain 또는 호환 checkpoint 찾기, 새 serving 인프라 build, 제한된 커뮤니티 지원 수용, 까다로운 학습 안정성 다루기 — 가 이름 짓고 측정 가능한 구체적 scaling wall hit 할 때만 보상.
먼저 exhaust 할 최적화 stack
Architecture 변경 고려 전, Transformer 최적화 stack exhaust. 대부분 팀 안 함:
- FlashAttention-3 attention compute 자체 위해.
- GQA 또는 MQA KV-cache 감소 위해.
- Sliding window attention context 패턴 허용할 때 sub-quadratic effective compute 위해.
- Quantization (INT8, FP8, AWQ, GPTQ, SmoothQuant) 메모리와 throughput 위해.
- Speculative decoding draft 모델과 함께 generation cost amortize 위해.
- vLLM PagedAttention 또는 동등물 serving 시 KV-cache 메모리 관리 위해.
- Continuous batching multi-user throughput 위해.
함께 이게 같은 hardware cost 에 5–10× effective serving 용량 사. 적용 안 했고 이미 architecture switching 고려 중이면, 아마 잘못된 문제 풀고 있어.