모델 카드는 릴리스가 가중치와 함께 배포하는 표준화된 문서. 모델이 뭐에 좋고, 뭐엔 안 좋고, 어떤 절충이 있었는지 알려줘. 모델 카드 비판적으로 읽기는 LLM 다루는 데 가장 유용한 단일 "soft skill".
모든 모델에 묻는 다섯 질문
- 뭘로 학습됐나? 소스 데이터셋, 총 토큰 수, 데이터 cutoff 날짜, dedup 및 필터링 전략. 암묵적 편향과 능력이 데이터를 따라가.
- 어떤 벤치마크가 어느 날짜에 보고됐나? 오래된 벤치마크(MMLU, ARC)는 saturate됐어. 2026년에 어려운 건 GPQA, AIME, SWE-bench, HLE. 컨텍스트 없는 벤치마크 숫자엔 회의적이어야.
- 라이선스는? Apache 2.0 / MIT(자유 사용), Llama 스타일 커뮤니티 라이선스(조건부 상업 OK), 연구 전용(상업 불가), 독점(API만). 라이선스가 누가 뭐에 쓸 수 있는지 결정.
- 컨텍스트 윈도우는 얼마고 — 실제로 얼마나 잘 사용되나? "128K 컨텍스트"는 "128K로 학습됨"부터 "32K 너머 회상 저하된 YaRN으로 확장됨"까지 무엇이든 의미 가능. 항상 needle-in-a-haystack 테스트 돌려.
- 본인이 필요한 modality와 언어 지원하나? 많은 모델이 영어 우선, 일부는 명시적 다국어, 일부는 비전/오디오 지원. 커밋 전에 확인.
이 다섯 질문이 모델 선택 결정의 90%를 필터링. 나머지 10% — 본인이 원하는 잠재 스타일/성격에 맞나? — 는 실제 사용해야 알아.