디바이스 관제 시스템 구축
문제
수십 대 서버와 수백 대 디바이스 상태를 수동 점검해 하루 2시간이 소요됐고, 장애를 사후에 인지하는 구조로 인해 대응 지연이 반복되었습니다.
접근
서버와 디바이스 상태를 주기적으로 수집해 대시보드로 시각화하고, 이상 징후 발생 시 메신저 알림을 자동 전송하도록 구성했습니다. 새벽 자동 재시작과 이력 축적 체계를 도입해 반복 장애를 줄였습니다.
성과
- 일일 점검 시간 2시간 → 10분 이내로 단축
- 장애 사전 감지 및 선제 조치 가능
- 반복 장애 패턴 분석 데이터 확보
기술
Node.js
Vue.js
Python
Docker