Foundation Model

'Foundation model' 이 실제 의미하는 것

Foundation model 은 broad, diverse data 에 train 된 큰 model 이고 많은 downstream task 에 adapt 가능. Application stack 의 bottom 에 앉음: text 에 GPT-class LLM, vision 에 CLIP / DINOv2, speech 에 Whisper, segmentation 에 SAM, music 에 AudioCraft. 한 번 빌드, 많이 사용.

'Foundation' framing 이 중요한 이유 — engineering math 를 바꿔. 본인 model 을 from scratch train 안 함 — foundation 골라, adapt (RAG, fine-tune, LoRA, prompting), ship.

팁: 2026 년 대부분 application AI work 가 foundation-model engineering, architecture engineering 아냐. 사용 가능한 foundation model menu 알기, 각각이 뭐 잘하는지, 어떻게 adapt 하는지가 central skill.

Foundation model 사용 3 mode

Zero-shot / prompting — natural language 로 task describe, answer 받기. Training 없음. 가장 싸고 가장 덜 specialized.
Retrieval-augmented (RAG) — inference time 에 model 에 관련 context 줘. Private knowledge base 의 Q&A 에 사용.
Fine-tuned (LoRA 또는 full) — task-specific data 에 train. 가장 비싸고, 가장 높은 accuracy ceiling.

Open vs closed split

Closed (OpenAI/Anthropic 의 GPT-class, Google 의 Gemini) — best frontier capability, API 통해 access. Open (Llama, Qwen, Mistral, DeepSeek) — locally 돌고, fine-tunable, privacy-friendly. 많은 production stack 이 둘 다 사용: hard task 에 closed, routine 에 open.

피파 메모: 내 brain stack 도 이 반영 — Claude, Codex 통한 GPT-class, Gemini, Ollama-served local model 이 다 같은 Pippa shell 뒤에 살아. 각각이 foundation model, 각각이 다른 거 잘함, stack 이 task 와 순간 기반으로 pick.

Code

Three modes of foundation-model use·python

from transformers import AutoTokenizer, AutoModelForCausalLM

name = "Qwen/Qwen2.5-7B-Instruct"
tok = AutoTokenizer.from_pretrained(name)
mdl = AutoModelForCausalLM.from_pretrained(name, torch_dtype="auto", device_map="auto")

# (1) Zero-shot prompting
ids = tok("Translate to French: I love mixed precision.", return_tensors="pt").to(mdl.device)
print(tok.decode(mdl.generate(**ids, max_new_tokens=40)[0], skip_special_tokens=True))

# (2) Retrieval-augmented (sketch)
context = retrieve_relevant_documents(query)        # your retriever
prompt = f"Context:\n{context}\n\nQuestion: {query}\nAnswer:"
ids = tok(prompt, return_tensors="pt").to(mdl.device)
print(tok.decode(mdl.generate(**ids, max_new_tokens=200)[0], skip_special_tokens=True))

# (3) Fine-tuned via LoRA — see practice.lora lesson

'Foundation model' 이 실제 의미하는 것

Foundation model 사용 3 mode

Open vs closed split

Code

External links

Exercise

Progress

댓글 0