CPU load 高占用率低问题的排查

2018-12-29 14:32:06   最后更新: 2018-12-29 14:32:06   访问数量:249




突然观察到服务器 load 过高,可是 CPU 占用率很低

这也算是一个常见问题了

那么,如何排查和解决这个问题呢?

 

通过 top 命令,可以看到 CPU 的 wait 很高,可以参考:

top 命令详解

 

 

诊断

  • 若 wait 值过高,则说明磁盘 IO 存在瓶颈
  • 若 idle 值高,但 load 仍很高则说明内存容量不足
  • 若 idle 值持续低于 1,则系统的 CPU 处理能力存在瓶颈

 

我们通过 iostat 可以分析 IO 性能

通常通过 -x 参数显示详细信息

下面是一个示例,执行:

iostat -x -k 3 2

 

 

参数说明

  • -x -- 显示详细信息
  • -k -- 以 KB 为单位
  • -m -- 以 MB 为单位
  • 3 -- 每 3 秒执行一次
  • 2 -- 总共执行 2 次

 

  • 需要注意的是,第1次采样信息与单独执行iostat的效果一样,为从系统开机到当前执行时刻的统计信息,第2次及此后才是当前的实时数据

 

返回信息

返回信息总共包含三部分:

iostat 命令返回信息
选项说明
第一行最上面指示系统版本、主机名和当前日期
avg-cpu总体cpu使用情况统计信息,对于多核cpu,这里为所有cpu的平均值
Device各磁盘设备的IO统计信息

 

返回信息 -- avg-cpu

avg-cpu中各列参数含义如下:

iostat 返回的 avg-cpu 信息
选项说明
%userCPU在用户态执行进程的时间百分比。
%niceCPU在用户态模式下,用于nice操作,所占用CPU总时间的百分比
%systemCPU处在内核态执行进程的时间百分比
%iowaitCPU用于等待I/O操作占用CPU总时间的百分比
%steal管理程序(hypervisor)为另一个虚拟进程提供服务而等待虚拟CPU的百分比
%idleCPU空闲时间百分比

 

返回信息 -- Device

Device 中各列参数含义如下:

iostat 返回的 Device 信息
选项说明
rrqm/s每秒对该设备的读请求被合并次数,文件系统会对读取同块(block)的请求进行合并
wrqm/s每秒对该设备的写请求被合并次数
r/s每秒完成的读次数
w/s每秒完成的写次数
rkB/s每秒读数据量(kB为单位)
wkB/s每秒写数据量(kB为单位)
avgrq-sz平均每次IO操作的数据量(扇区数为单位)
avgqu-sz平均等待处理的IO请求队列长度
await平均每次IO请求等待时间(包括等待时间和处理时间,毫秒为单位)
svctm平均每次IO请求的处理时间(毫秒为单位)
%util采用周期内用于IO操作的时间比率,即IO队列非空的时间比率

 

诊断

通过具体的 Device 中的 %util 可以看出具体是那块磁盘负载过大

 

执行 iotop 命令可以看到每个进程占用的 io 比例:

 

我们可以找到占用 IO 最大的 TID 即进程 ID

 

 

SIZE 一列即读写大小,通过其增长我们就可以锁定究竟是哪个文件造成了 IO 过高

从而可以分析具体的代码来解决这个问题

 

欢迎关注微信公众号,以技术为主,涉及历史、人文等多领域的学习与感悟,每周三到七篇推文,全部原创,只有干货没有鸡汤

 

 

https://support.zabbix.com/browse/ZBXNEXT-1914

https://www.jianshu.com/p/cb64232df70c

https://blog.csdn.net/xusensen/article/details/73080887

 






技术帖      操作系统      技术分享      top      iostat      iowait      iotop     


京ICP备15018585号