30 초 morning check
안 보이는 fleet 가 drift 하는 fleet. 가능한 가장 단순한 모니터링 — 모든 머신에 SSH 하고 한 줄 상태 (uptime, disk, 메모리, load) 출력하고 어느 머신 unreachable 인지 알려주는 스크립트. 매일 아침 수동 실행, 또는 cron/launchd 통해 결과 이메일 받기.
실제 체크할 것
- 도달성 — SSH 자체 가능? (heartbeat 로 카운트)
- Uptime — 뭐가 예상 외 재부팅 했어?
- Disk — 누구 85% 위?
- Load — CPU pinned?
- 메모리 압박 — 누구 심하게 swap?