모델 카드 읽기 — 다섯 가지 질문

모델 카드는 릴리스가 가중치와 함께 배포하는 표준화된 문서. 모델이 뭐에 좋고, 뭐엔 안 좋고, 어떤 절충이 있었는지 알려줘. 모델 카드 비판적으로 읽기는 LLM 다루는 데 가장 유용한 단일 "soft skill".

모든 모델에 묻는 다섯 질문

뭘로 학습됐나? 소스 데이터셋, 총 토큰 수, 데이터 cutoff 날짜, dedup 및 필터링 전략. 암묵적 편향과 능력이 데이터를 따라가.
어떤 벤치마크가 어느 날짜에 보고됐나? 오래된 벤치마크(MMLU, ARC)는 saturate됐어. 2026년에 어려운 건 GPQA, AIME, SWE-bench, HLE. 컨텍스트 없는 벤치마크 숫자엔 회의적이어야.
라이선스는? Apache 2.0 / MIT(자유 사용), Llama 스타일 커뮤니티 라이선스(조건부 상업 OK), 연구 전용(상업 불가), 독점(API만). 라이선스가 누가 뭐에 쓸 수 있는지 결정.
컨텍스트 윈도우는 얼마고 — 실제로 얼마나 잘 사용되나? "128K 컨텍스트"는 "128K로 학습됨"부터 "32K 너머 회상 저하된 YaRN으로 확장됨"까지 무엇이든 의미 가능. 항상 needle-in-a-haystack 테스트 돌려.
본인이 필요한 modality와 언어 지원하나? 많은 모델이 영어 우선, 일부는 명시적 다국어, 일부는 비전/오디오 지원. 커밋 전에 확인.

이 다섯 질문이 모델 선택 결정의 90%를 필터링. 나머지 10% — 본인이 원하는 잠재 스타일/성격에 맞나? — 는 실제 사용해야 알아.

Code

Model card audit checklist·markdown

## Model card audit (fill out before adopting)

- **Architecture**: ___ params, ___ layers, ___ d_model, ___ heads, ___ KV heads
- **Tokenizer**: ___ algorithm, ___ vocab size, ___ specials
- **Context**: ___ training window / ___ extended window / ___ measured-recall depth
- **Training**: ___ tokens, ___ data sources, ___ cutoff date, ___ FLOPs, ___ time
- **Post-training**: ___ SFT recipe, ___ alignment method (RLHF/DPO/GRPO/CAI), ___ tool-use training
- **License**: ___ what can I do with it commercially?
- **Modalities**: text [Y/N] / image [Y/N] / audio [Y/N] / video [Y/N]
- **Languages**: primary ___, supported ___
- **Benchmarks**: GPQA ___ / AIME ___ / SWE-bench ___ / HLE ___
- **Known weaknesses**: ___ (read the limitations section)

모델 카드 읽기 — 다섯 가지 질문

모든 모델에 묻는 다섯 질문

Code

External links

Exercise

Progress

댓글 0