服务器性能监控图表展示

公司楼下的咖啡机坏了，维修师傅第一件事不是拆机器，而是看显示屏上的错误代码。服务器也一样，出了问题光靠猜不行，得靠数据说话。而性能监控图表，就是我们看“错误代码”的窗口。

为什么非要看图表？

你可能每天都会收到邮件，说某台服务器CPU用了85%。但你知道这85%是持续一整天，还是只是下午三点 spike 了10秒吗？文字报告给不了这种细节。图表能把时间线拉出来，一眼看出高峰低谷，比如半夜定时任务跑批处理时的内存飙升，或者某个接口突然被刷导致网络流量冲顶。

常见的监控图表长啥样

CPU使用率通常用折线图，横轴是时间，纵轴是百分比。如果看到锯齿状波动，可能是正常业务；要是变成一条顶天立地的直线，就得查查是不是有进程卡死了。内存监控图里，经常能看到缓存（cached）占了不少空间，别急着杀进程，Linux本来就会用空闲内存做缓存，真正要看的是可用内存（available）那条线。

磁盘IO延迟图特别实用。有一次我们网站变慢，查CPU、内存都正常，最后在IO等待时间图上发现磁盘响应超过200毫秒，原来是隔壁项目在跑大数据导入，把磁盘占满了。这种问题，不看图真难定位。

怎么把数据变成图

像Prometheus + Grafana这套组合用得挺多。先用Prometheus去抓取服务器指标，再用Grafana做可视化。配置一个CPU图表，Grafana里的查询语句大概是这样：

rate(node_cpu_seconds_total{mode!="idle"}[1m])

这行的意思是：取每分钟非空闲状态的CPU使用率。配上时间范围和刷新频率，图就动起来了。第一次配的时候可能看不懂metrics名字，多点几次自动补全，对照文档看看字段含义，熟了就好。

别只盯着一张图看

有一次看到内存使用90%，正准备重启服务，顺手切到连接数图表，发现当前活跃连接翻了三倍，再查访问日志，原来是市场部刚发了促销短信，流量猛增。这时候加内存不如加机器。多个图表联动看，才能分清是资源不足，还是业务增长带来的正常压力。

手机上也能盯得牢

Grafana支持设置仪表板链接，生成个二维码贴在值班室墙上，新来的同事扫一下就能看实时状态。我还在手机上加了几个关键图表的推送，夜里要是CPU连续五分钟超过90%，直接弹通知，比等Zabbix告警短信快半分钟——有时候这半分钟就能避免用户投诉。

监控图表不是摆设，也不是只有出事才打开。把它当成服务器的“心电图”，每天瞄两眼，异常自然藏不住。

服务器性能监控图表展示：让运维看得更明白

为什么非要看图表？

常见的监控图表长啥样

怎么把数据变成图

别只盯着一张图看

手机上也能盯得牢