Các đối tượng cần giám sát
STT | Đối tượng | Thông số giám sát | Tiêu chí giám sát | Tham khảo |
---|---|---|---|---|
1 | Server | CPU RAM HDD Network (bandwidth) IO | UP/DOWN Load average CPU RAM HDD Bandwidth IO | https://github.com/prometheus/node_exporter |
2 | Docker container | CPU RAM HDD Network (bandwidth) IO | UP/DOWN CPU RAM HDD Bandwidth IO | |
3 | URL | Http status | UP(200)/DOWN(5xx) | https://github.com/prometheus/blackbox_exporter |
4 | Nginx | Active connection Accepts Handled Requests Reading Writting Waiting | ? | https://github.com/vozlt/nginx-module-vts https://github.com/hnlq715/nginx-vts-exporter |
5 | MySQL | UP/DOWN SQL connections (>75% max_connection) | https://github.com/prometheus/mysqld_exporter | |
6 | Redis | UP/DOWN | https://github.com/oliver006/redis_exporter | |
7 | RabbitMQ | UP/DOWN Tồn queue: – queue có >100 messages trong 1 phút → YELLOW – queue có >100 messages trong 5 phút → ORANGE – queue có >100 mesages trong 10 phút → RED | https://github.com/kbudde/rabbitmq_exporter | |
8 | DB Cluster | Giám sát đồng bộ dữ liệu giữa các instance | ? |
Các mức cảnh báo
STT | Mức cảnh báo | Điều kiện | Kênh cảnh báo |
---|---|---|---|
1 | GREEN | Khi dịch vụ UP & tiêu chí giám sát < 70% | N/A |
2 | YELLOW | Khi dịch vụ UP & tiêu chí giám sát vượt 70% (vd: ổ cứng đầy quá 70%) | |
3 | ORANGE | Khi dịch vụ UP & tiêu chí giám sát vượt 80% | Email, Slack |
4 | RED | Khi dịch vụ DOWN hoặc tiêu chí giám sát vượt 90% | Email, Slack, SMS |