뭘 볼까
CI 도 소프트웨어. 서비스처럼 다뤄: health 모니터링, 저하 시 응답. 중요 metric:
- Main pass rate — green 가는 main run 의 %%. 95%+ 목표. 90% 미만은 위기.
- p50 / p95 duration — feedback latency.
- Flake rate — retry 시 통과하는 실패 run 의 %. >2% 면 고칠 flake 있음.
- 큐 시간 — run 이 시작 전 얼마나 대기. 늘면 self-hosted fleet 너무 작음.
- 비용 — repo 별, workflow 별, OS 별 사용 분.
데이터 어디에 두기
- 내장 — Insights 탭, Actions 사용 리포트. 좋은 첫 step, 제한된 드릴다운.
- Datadog / Honeycomb / Grafana —
workflow_runwebhook 을 통해 observability stack 으로 Actions event 파이프. - Custom — GitHub API 호출하고 metric 계산하고 Slack / dashboard / DB 에 게시하는 예약 job.
알림
Main pass rate 가 임계 이하면 페이지. Flake rate 급등에 Slack. 개별 실패에 알림 금지 — 그건 정상 noise.