Chinaunix

标题: nagios 反馈,交换机内存检测 UNKNOWN [打印本页]

作者: lzyking    时间: 2013-02-04 09:17
标题: nagios 反馈,交换机内存检测 UNKNOWN
我用nagios 来监控CISCO ASA5550 防火墙, 公司这种防火墙有很多,但是有一些在nagios中总是出现 mem,load unknown的状态,请参看下表。
网络的人说设备运行正常。
我用的是NRPE,启动SNMP, SNMP 只允许Nagios主机进行状态检查。
我用2台Nagios,共监控1500 网络设备,共6000个server
通常是, 1个交换机主机,连接 load, mem, interface,power status, temperature.

网络都是内部的LAN,大家能给些参考意见吗?
谢!

==================================
This email was from Monitoring platform.
We found the following device had some problem.
***** centreon Notification *****

Notification Type: PROBLEM

Service: s_firewall_cisco_ram
Host: dfw19fpa01
Host Alias:19.88_Tiexi_NCC1_WLAN-firewall_ASA5550
Service comment:
Address: 10.188.8.13
State: UNKNOWN

Date/Time: 01-02-2013 Additional Info : ERROR: Alarm signal (Nagios time-out) Please take necessary action to investigate and fix the problem.
Monitor room will keep tracking on the status.
  
===================================
作者: lzyking    时间: 2013-02-05 08:31
unknown 的时间有时长有时短,但都是20分钟以内
作者: chenl    时间: 2013-02-05 22:22
ERROR: Alarm signal (Nagios time-out)
检测超时了。
可以跟踪一下,看是负载问题,还是瞬时网络问题造成的。
作者: lzyking    时间: 2013-02-06 08:33
To chenl:能再具体描述一下吗?
负载问题,是指 Nagios在当时的负载还是被监控设备(防火墙的负载)?

作者: sopato    时间: 2013-02-08 23:27
这种状况我一般就会手工用snmpget检查一下网络设备是否能正常返回,跟着就知道如何解决问题了。
作者: chenl    时间: 2013-02-16 14:31
回复 4# lzyking


    造成超时的原因,猜想,大概有:
1)交换机的负载过高,没有及时返回数据;
2)中间网络丢包或者延时过高造成的;
3)nagios server本身的负载问题引起的;
4)如果频繁出现timeout,可以尝试调整nagios相关和plugins本身的timeout设置;





欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2