NLP 의 두 가지 pattern: (1) encoder (BERT, RoBERTa) — 분류 / NER / 추출형 QA, 텍스트의 representation 학습. (2) decoder (GPT-2, Llama, Gemma) — 텍스트 생성, 다음 token 예측.
둘 다 KerasHub 에서 한 줄. BertBackbone.from_preset('bert_base_en') / GemmaCausalLM.from_preset('gemma_2b_en'). 작은 (b/2b) 부터 큰 (l/70b) 까지 size variant. memory 따라 골라.