服务器资源类指标
服务器是系统运行的基石,一旦出问题,整个服务都可能瘫痪。CPU 使用率是最常见的监控项,长时间超过 80% 就该警惕了。比如你家的小店用的后台系统突然卡顿,查了一下发现 CPU 跑到了 95%,那很可能就是某个程序在疯狂占用资源。
内存使用率也一样关键。如果可用内存持续下降,甚至出现频繁 swap,说明可能存在内存泄漏。就像手机用久了变卡,后台程序没关干净,内存被一点点吃掉。
磁盘空间不足也是高频告警原因。日志文件不清理、临时文件堆积,都可能导致磁盘写满。曾经有公司因为日志没轮转,磁盘撑爆导致数据库挂掉,业务停摆几个小时。
网络相关指标
网络延迟高,用户访问就会变慢。比如你打开一个网页要等好几秒,可能是网络抖动或带宽打满。监控 TCP 连接数、丢包率、响应时间这些指标,能提前发现网络瓶颈。
带宽使用率超过阈值时,通常意味着异常流量。可能是 DDoS 攻击,也可能是内部服务在大量传输数据没做限流。这时候告警一响,就得赶紧查源头。
应用层性能指标
HTTP 请求错误率上升,比如 5xx 错误突然增多,说明后端服务出了问题。用户提交订单失败、登录不上,往往就是这类问题引起的。监控 4xx 和 5xx 的比例,能快速定位是客户端还是服务端的问题。
接口响应时间变长也很关键。比如支付接口平时 200ms 返回,突然变成 2 秒,用户体验立马下滑。这时候需要结合调用链追踪,看看是数据库慢了还是外部依赖拖后腿。
<?xml version="1.0"?>
<monitoring>
<metric name="http_request_duration_ms" threshold="500" />
<metric name="error_rate_percent" threshold="1" />
</monitoring>数据库监控重点
数据库连接数打满,新请求就会被拒绝。很多系统崩溃前兆就是连不上数据库。监控活跃连接数、慢查询数量、锁等待时间,能避免雪崩。
慢查询日志尤其值得关注。一条执行了 10 秒的 SQL,可能把整个库拖垮。定期分析并优化这些语句,比事后救火更有效。
安全相关的告警指标
登录失败次数突增,可能是暴力破解尝试。比如某台服务器在几分钟内收到上百次 SSH 密码错误,大概率是黑客在扫密码。设置阈值告警,及时封 IP 很有必要。
异常时间段的访问行为也值得留意。半夜三点还有管理员账号登录操作,如果不是值班人员,就得查清楚是不是账号被盗用了。
文件完整性变化也能作为安全指标。关键配置文件或可执行程序被修改,可能是入侵痕迹。用工具监控 md5 或 sha256 值变动,能第一时间发现异常。