Chinaunix

标题: 交换机CPU使用率突然增加 [打印本页]

作者: rock_l 时间: 2009-02-26 17:02
标题: 交换机CPU使用率突然增加
今天查看CPU使用率，发现比平时增加了40%左右，再查log发现不停地报一下信息：
.Feb 26 16:56:46: %PLATFORM_RPC-3-MSG_THROTTLED: RPC Msg Dropped by throttle mechanism: type 3, class 21, max_msg 8, total throttled 709
-Traceback= 5FFCA4 43876C 4388B4 4392EC 439510 1E25F0
以下是一些输出：
#sh proc cpu | e 0.00
CPU utilization for five seconds: 37%/4%; one minute: 38%; five minutes: 42%
PID Runtime(ms) Invoked    uSecs 5Sec 1Min 5Min TTY Process
5 521944442796864794       18 15.37% 12.99% 11.34% 0 Pool Manager
  68    5851712026816772       0  0.32%  0.15%  0.15% 0 Hulc LED Process
104 66589478 486385365       136 12.43% 14.13% 18.04% 0 IP Input
169       2076    1682    1234  0.49%  0.19%  0.12%  12 Virtual Exec

每个端口基本没有什么流量，也没有什么广播。

作者: ssffzz1 时间: 2009-02-26 17:11
帖最后的一段日志看看。

作者: seven007 时间: 2009-02-26 17:22
Error Message PLATFORM_RPC-3-MSG_THROTTLED: RPC Msg Dropped by throttle mechanism:
type [int], class [int], max_msg [int], total throttled [int]
Explanation This message means that there are too many outgoing messages queued for a message class. An RSP message was dropped. The first [int] is the message type, the second [int] is the message class, the third [int] is the maximum number of messages that can be queued before throttling occurs, and the last [int] is the total number of messages that have been throttled.

Recommended Action Copy the error message exactly as it appears on the console or in the system log, call your Cisco technical support representative, and provide the representative with the gathered information.

作者: rock_l 时间: 2009-02-27 08:11

原帖由 ssffzz1 于 2009-2-26 17:11 发表
帖最后的一段日志看看。

我现在能看到的日志都是这个内容

作者: rock_l 时间: 2009-02-27 08:16

原帖由 seven007 于 2009-2-26 17:22 发表
Error Message PLATFORM_RPC-3-MSG_THROTTLED: RPC Msg Dropped by throttle mechanism:
type , class , max_msg , total throttled
Explanation This message means that there are too many outgo ...

这段我看过了，它没提供太多有价值的信息。call your Cisco technical support representative。。。。

还有我想问一下，这里的RPC指的是什么？

[ 本帖最后由 rock_l 于 2009-2-27 08:24 编辑 ]

作者: qdigrp 时间: 2009-02-27 09:15
"e 0.00"指的是什么？

作者: rock_l 时间: 2009-02-27 09:34

原帖由 qdigrp 于 2009-2-27 09:15 发表
"e 0.00"指的是什么？

exclude "0.00"：不显示带有“”字段的结果。

作者: kongxin2 时间: 2009-02-27 10:59
我来强烈的支持一下楼主

作者: hjp0021 时间: 2009-02-27 12:46
是什么型号的交换机啊？

作者: rock_l 时间: 2009-02-27 13:22

原帖由 hjp0021 于 2009-2-27 12:46 发表
是什么型号的交换机啊？

4个3750堆叠

作者: ssffzz1 时间: 2009-02-27 13:24
既然日志帖不出来。教你个法子。拔网线。

作者: rock_l 时间: 2009-02-27 13:48

原帖由 ssffzz1 于 2009-2-27 13:24 发表
既然日志帖不出来。教你个法子。拔网线。

RPC means ：Catalyst remote procedure call
有没有温柔一点的方法啊~ 能否找到问题点呢？

作者: ssffzz1 时间: 2009-02-27 13:52
我感觉日志的这些信息前面应该有相关的信息。不知道你还能查看到不？

作者: ssffzz1 时间: 2009-02-27 13:53
另外
Pool Manager

这个进程占用CPU比较大一些。这个应该从名字看是POOL的，不知道你有开DHCP之类的东西否？

作者: rock_l 时间: 2009-02-27 14:32

原帖由 ssffzz1 于 2009-2-27 13:53 发表
另外
Pool Manager

这个进程占用CPU比较大一些。这个应该从名字看是POOL的，不知道你有开DHCP之类的东西否？

没有配置DHCP ，而且IP INPUT 进程也很高。从当前流量来将，不应该这样。

作者: ssffzz1 时间: 2009-02-27 14:34
不过拔线应该是比较快速的法子了。

作者: rock_l 时间: 2009-02-27 14:54

原帖由 ssffzz1 于 2009-2-27 14:34 发表
不过拔线应该是比较快速的法子了。

为什么要拔线呢？拔哪根线？

作者: ssffzz1 时间: 2009-02-27 14:55
唉。
这类问题有2个原因：
1、外部的，譬如攻击等等。
2、机器自身问题。

你把网线拔掉可以直接排除外部的原因。就这么简单。

作者: bzzh 时间: 2009-02-27 15:07
先拔所有网线，看设备cpu能不能下来，不行的话，单机重启，看可能恢复，如果拔了网线，设备重启后还是不能恢复的话，估计硬件故障的可能性比较大了。如果拔了网线能够恢复的话，把网线用2分法插回去，先插前一半，没问题的话再插后一半，如果有问题的话，把有问题的线再1分为2，比较快这方法。

作者: rock_l 时间: 2009-02-27 15:13

原帖由 bzzh 于 2009-2-27 15:07 发表
先拔所有网线，看设备cpu能不能下来，不行的话，单机重启，看可能恢复，如果拔了网线，设备重启后还是不能恢复的话，估计硬件故障的可能性比较大了。如果拔了网线能够恢复的话，把网线用2分法插回去，先插前一半 ...

这个方法放到最后吧，因为4个switch上面连着很多服务器，跑着的应用都没法停，而且现在暂时还没影响到使用。
我在cisco的网站上找到了以下内容，一起看一下~
•When an excessive number (more than 100 packets per second) of Address Resolution Protocol (ARP) packets are sent to a Network Admission Control (NAC) Layer 2 IP-configured member port, a switch might display a message similar to this:

%PLATFORM_RPC-3-MSG_THROTTLED: RPC Msg Dropped by throttle mechanism: type 0, class 51, max_msg 128, total throttled 984323

-Traceback= 6625EC 5DB4C0 5DAA98 55CA80 A2F2E0 A268D8

No workaround is necessary. Under normal conditions, the switch generates this notification when snooping the next ARP packet. (CSCse4754

•When there is a VLAN with protected ports configured in fallback bridge group, packets might not be forwarded between the protected ports.

The workaround is to not configure VLANs with protected ports as part of a fallback bridge group. (CSCsg40322)

作者: ssffzz1 时间: 2009-02-27 16:09
哦。这样啊。

不过我总认为日志里面肯定有关键信息的。

你的上面的那个错误消息太多。

作者: rock_l 时间: 2009-02-27 16:27

原帖由 ssffzz1 于 2009-2-27 16:09 发表
哦。这样啊。

不过我总认为日志里面肯定有关键信息的。

你的上面的那个错误消息太多。

还有什么可以做的么~

作者: ssffzz1 时间: 2009-02-27 16:31
没有。
做事情要慢慢来。一口吃不成胖子。

作者: rock_l 时间: 2009-02-27 16:42

原帖由 ssffzz1 于 2009-2-27 16:31 发表
没有。
做事情要慢慢来。一口吃不成胖子。

恩。主要现在找不到什么头绪。。。

作者: ssffzz1 时间: 2009-02-27 16:45
我狂晕。

都说到这个份上了啊。

你先翻番日志找找累不着你吧。看看在出现这个信息之前的日志有什么特殊提示。

作者: rock_l 时间: 2009-02-27 17:31

原帖由 ssffzz1 于 2009-2-27 16:45 发表
我狂晕。

都说到这个份上了啊。

你先翻番日志找找累不着你吧。看看在出现这个信息之前的日志有什么特殊提示。

是突然出现这个报错信息的，之前的log都是正常的，可能是我没说清楚吧，呵呵。
现在查了一些资料，可能是因为这个原因：When an excessive number (more than 100 packets per second) of Address Resolution Protocol (ARP) packets are sent to a Network Admission Control (NAC) Layer 2 IP-configured member port。
但是现在每个端口都没有流量，还能通过其它方式看出来么？

作者: ssffzz1 时间: 2009-02-27 18:13
每个端口都没有流量，CPU还这么高吗？

作者: ssffzz1 时间: 2009-02-27 18:14
如果是端口有流量的话，就做镜像抓包好了。

作者: 超级小妹 时间: 2009-03-01 08:39
提示: 作者被禁止或删除内容自动屏蔽

作者: hjp0021 时间: 2009-03-01 09:32
CPU利用率升高一般是ARP或各种攻击造成的，攻击不外乎是内网发起或者外网发起两种。

（1）3750应该是接入设备，上联还有更高端的吧，如：6509，7609，12416等。在上联设备上执行命令show mls ip，可见端倪。
（2）四台3750做堆叠，看来应该是IDC或者提供重要的服务，应该有配套部署防火墙等吧，如果有，就好办了。或者有配置netflow（上联设备上），通过这个也能看出来。
（3）拔网线对付内网发起的攻击还行，对外网发起的攻击有时效果不好，因为流量已经进来了。如果是外网发起的攻击，总有一个、或几个目的IP地址，只要找出这个受攻击的IP就OK了。
在上联设备上写黑洞路由：ip route X.X.X.X 255.255.255.255 null 0，这里X.X.X.X是您的内网IP，假设内网分配了一个C段。于是配置：
ip route X.X.X.1 255.255.255.255 null 0
........................................
ip route X.X.X.31 255.255.255.255 null 0。如果此时CPU利用率减少，那么就知道受攻击的IP落在x.x.x.1--31中，于是再将前面的配置逐条no掉，直到找出受攻击IP。
如果31条黑洞路由配置后CPU利用率还是这么高，说明受攻击IP不在这一段，再换一段吧。利用写字板先写好配置，提高效率。
（4）以上的解决方法有些需要ISP配合，如果您自己解决不了，向ISP申告看看。
（5）抓包也是一条途径，不过如果流量大的话，也是很痛苦的。
（6）如果是内网发起的攻击，也可以采用逐条拔网线的方式。或者逐个查看用户端口，收、发包、流量有否异常。

以上仅仅对攻击造成判断，如果您的cpu利用率高是因为配置不准确、环路等造成，那就不适用了。如果确实是由配置不准确、环路等造成，那LZ也太对不起我了，害我花这么多时间打字。:wink:
看火箭的比赛了。

[ 本帖最后由 hjp0021 于 2009-3-1 09:36 编辑 ]

作者: shichunda 时间: 2009-03-01 18:47
希望楼主以后配个logrotate的服务器吧，你用默认的交换机日志存储机制才能存几天啊。
关注中。

作者: sylarn 时间: 2009-03-01 21:34

原帖由 hjp0021 于 2009-3-1 09:32 发表
CPU利用率升高一般是ARP或各种攻击造成的，攻击不外乎是内网发起或者外网发起两种。

（1）3750应该是接入设备，上联还有更高端的吧，如：6509，7609，12416等。在上联设备上执行命令show mls ip，可见端倪。 ...

up up .....

作者: rock_l 时间: 2009-03-02 10:25
感谢大家的回复！
今天刚注意到一个问题： switch中只有2个vlan，vlan A的input大概19M/sec，output=0；vlan B的input=0，output大概20M/sec。vlan B中有两个端口，其中一个为down down，另一个连接防火墙，但是这个端口的input和output都为0. 由此是否可以判断，问题出在这两个vlan上？打算停掉一个vlan看看~

作者: lbaby 时间: 2009-03-02 14:44
又见vlan
上次看到有兄弟把不同IP的线接到别的vlan里了，结果就是：进的慢，出的快，让我好找了几天啊

作者: up2top 时间: 2009-03-02 16:57
交换机的大部分数据帧转发是不需要CPU介入的，除了那些与交换机的管理地址有关以及三层转发时的首个数据包。因此交换机的CPU一般都比较弱，遇到arp攻击很容易使用率就升上去了。
如果交换机只配置了vlan而没有启用三层功能时，重点就可以放在与交换机管理地址有关的数据上。

作者: ssffzz1 时间: 2009-03-02 17:01
LS的说法比较有道理。

作者: fanxiaonan 时间: 2009-03-02 17:38
标题: 回复 #1 rock_l 的帖子
是不是3750默认的DHCP打开了，还有就是堆叠后trunk跑的VLAN太多了？

作者: rock_l 时间: 2009-03-03 09:18
除port-channel和连接防火墙的端口外，其它端口都属于一个vlan，且只有这个vlan；
该交换机起了路由功能；
没有启用DHCP功能。

现在奇怪的是：每个端口都没有流量，但两个vlan的input和output流量却比较大，而且交换机连接的服务器无任何异常情况。

作者: rock_l 时间: 2009-03-04 09:20
昨天找cisco的工程师归来收了一些log，有结果的话再贴出来~

欢迎光临 Chinaunix (http://bbs.chinaunix.net/)