Chinaunix

标题: 自动化运维之---构建高性能Nagios监控服务器（获奖名单已公布-9-11） [打印本页]

作者: send_linux 时间: 2013-08-16 16:17
标题: 自动化运维之---构建高性能Nagios监控服务器（获奖名单已公布-9-11）
获奖名单已公布，详情请看：http://bbs.chinaunix.net/thread-4098335-1-1.html

随着用户体验需求的不断提升，互联网运维等技术的飞速发展，网站运维支撑己经越来越受到公司的重视，用户己经受够了比如网页打开速度慢，访问出现空白页，更可怕的是，点击登录、提交等按钮，动不动就出现504，503，502，这一切的一切，只会导致用户的流失率不断攀升，如何处理监控到这些故障，采用怎么样的应急机制，成为当下运维们共同思考的一个问题。

工欲善其事，必先利其器。要做好系统监控，使自己的工作更轻松更有效的话，一个好的监控工具是必不可少。然而面对种类繁多的各种开源监控工具，比如 MRTG、Cacti、Smokeping、Nagios、Zenoss、Ganglia 、Zabbix 等等。在这其中Nagios应用最广泛，例如，国内外大量的互联网公司都在使用或者二次开发使用这套监控平台。

本期话题：
1，上述的各种监控工具的优缺点比较
2，您在使用何种监控工具和平台，监控到故障时的一些故障处理机制
3，谈谈您在处理故障过程中的一些心得及将来的规划

活动时间：
2013年8月16日-9月6日

本期嘉宾：
论坛ID：osapub OSA开源运维平台,OSA监控精灵项目负责人。
论坛ID：larry-liu OSA开源运维平台，shell负责人。
活动奖品：
分享最精彩的Cuer将获得清华大学出版社赞助的《掌控—构建Linux系统Nagios监控服务器》图书一本，共五本

图书简介：

  作者：陶利军
  出版社：清华大学出版社
  ISBN：9787302311409
  上架时间：2013-5-25
  出版日期：2013 年5月
  开本：16开
页码：589
版次：1-1

内容简介：
nagios对于网络、系统管理员是必不可少的工具，nagios对服务器及服务和网络状态的监控能够实时报警，让管理员能够及时处理。正确使用nagios能够给自己和企业带来很好的“效益”。
　　在本书中我们将讲述nagios服务器的安装和使用以及nagios的基础知识，本书分为9个部分共25章，内容详细地讲述了nagios监控理论、安装前后的目录结构、配置文件、配置对象、插件开发、对linux服务器、windows服务器及路由器和交换机的host及service的监控、图形化 nagios监控数据、nagios xi(商业版nagios)等。

作者: ding_cw 时间: 2013-08-16 16:35
Cacti还不错特别是CactiEZ整合的ISO 基本只用简单设置就行了 Nagios还用的不太熟要是有机会得到书就好了

作者: chenyx 时间: 2013-08-16 16:51
1，上述的各种监控工具的优缺点比较
上述工具,只是用过Mrtg,Cacti,Nagios.没用cacti之前用的是Mrtg,后来放弃了.
Cacti通过Snmp协议获取主机的信息很方便,一般的网络设备都支持Snmp,在设备上开启Snmp,在Cacti上面添加,很快就有数据过来.当然,还有很多插件可以正常Cacti的功能,比如mactrack,weathermap等等.
Nagios主要是通过命令获取被监控主机的信息,比如check_http等.对一些特定对象的监控比cacti强.另外,通过第三方软件,nagios可以实现飞信报警.还有,Nagios结合PnP,可以在监控的同时,通过rrd画图,这个对将来的分析也很有用.
所以.我在使用的时候,是将Cacti和Nagios结合起来使用,优势互补.

2，您在使用何种监控工具和平台，监控到故障时的一些故障处理机制
我是在Linux下用一台主机,上面安装Cacti和nagios,cacti主要检测网络交换设备的流量信息,Nagios主要用于检测服务状态以及网络出口的状态,有问题,通过nagios调用飞信接口通知相关的人员来维护.

3，谈谈您在处理故障过程中的一些心得及将来的规划
Nagios的报警功能有一定的延后性,这个应该与其算法有关,尽量减少误报吧.
线路出问题,有时候报警发不出了,将来有可能的话,尝试用短信猫的方式来实现.

作者: jimmy-_-lixw 时间: 2013-08-16 17:52
本帖最后由 jimmy-_-lixw 于 2014-04-06 21:31 编辑

提示: 内容被隐藏或删除内容自动屏蔽

作者: rover12421 时间: 2013-08-16 18:39
对Nagios不了解，来支持下活动:wink:

作者: wenhq 时间: 2013-08-16 20:53
本帖最后由 wenhq 于 2013-08-19 11:01 编辑

nagios cacti zabbix ganglia 都是监控工具
1，上述的各种监控工具的优缺点比较
a.nagios 适合监视大量服务器上面的大批服务是否正常, 重点并不在图形化的监控, 其集成的很多功能例如报警；cacti 主要用途还是用来收集历史数据和画图, 所以界面相比要好看一些。
b.nagios 监控的是对服务器的关键服务及进程进行监控。cacti是对流量及主机在线状态监控。
c.ganglia 主要是利用通过XDL(xml的压缩格式)或者XML格式传递监控数据，达到监控效果。其侧重点是系统的性能。gmetad可以部署在集群内任一台节点或者通过网络连接到集群的独立主机，它通过单播路由的方式与gmond通信，收集区域内节点的状态信息，并以XML数据的形式，保存在数据库中。
集群内的节点，通过运行gmond收集发布节点状态信息，然后gmetad周期性的轮询gmond收集到的信息，然后存入rrd数据库，通过web服务器可以对其进行查询展示
d.由2部分构成，zabbix server与可选组件zabbix agent。一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。
zabbix能监视各种网络参数，保证服务器系统的安全运营;并提供柔软的通知机制以让系统管理员快速定位/解决存在的各种问题。
2，您在使用何种监控工具和平台，监控到故障时的一些故障处理机制
我们一直是用nagios+cacti监控，nagios来发报警邮件及短信。cacti来监视一些流量以及JVM内存的使用等。
如果收到这样的报警，我们会及时的处理以及查找问题的原因。并加强我们的监控系统。

3，谈谈您在处理故障过程中的一些心得及将来的规划
要完善监控软件存在的问题，需要对监控的原理及逻辑进行分析，然后进行2次开发。
还有一点就需要的是，如果单一的监控软件比如nagios监控的有问题的话那么需要再加一套监控体系在做互补。

作者: laputa73 时间: 2013-08-16 23:50
开源的这些工具底层原理类似,关键看上层易用性.
mrtg最简单,可以支持snmp/cmd.可以支持rateup/rrd两种图形接口. 也有简单的web界面. 这个以前应用最广泛.集成到很多系统,
cacti就是php的界面+底层的snmp+rrd. 尤其胜在插件很多,基本用在企业里面就够了.很多地市电信都用这个.

当然考虑xx的, 还是solarwinds/orion更给力.特别是内置海量的mib.还有对cisco的丰富支持
主机管理,sitescope也不错.接口丰富
专注故障监控的话,whatsup绝对性能领先.

作者: forgaoqiang 时间: 2013-08-17 00:17
本帖最后由 forgaoqiang 于 2013-08-17 21:07 编辑

占位编辑中~~~

上述工具只使用过MRTG、Cacti、Nagios，对Zabbix有基础的概念了了解，就分析下前三个工具吧，另外坐等学习有经验人员的评论~~

1，上述的各种监控工具的优缺点比较
综合的优缺点比较倒是说不上来，但是一些小的地方大体说下自己的看法。MRTG这个是Perl语言的，当时安装的时候印象特别深，Perl语言写的感觉配置和读起来都很费劲。Cacti是最上手的，使用了当前相当流行PHP语言（哈哈，因为本人主要用PHP语言开发，特别亲近），明显比MRTG方便的是：不仅支持SNMP协议进行监控和绘图，也支持简单的比如Ping方式进行设备检测，灵活性更好一些。一开始使用官方版本的Cacti，自己使用倒是问题不大，真正给客户使用的时候就换上了Cacti中文版（这个社区现在倒是还挺热闹），就是Cacti如果不使用已经打包好的镜像系统，安装起来还挺费劲，因为需要手动安装SNMP-NET等组件，配置起来也很麻烦，有些没有模版的设备还需要自己慢慢地配置出来，rrdtool本身语法也挺复杂，要是绘制自定义的图像也很费劲。然后就是Nagios，感觉功能和Cacti类似，也是使用了PHP做的前端，都能支持系统及服务监控，而不像MRTG这款老工具只支持网络流量方面的监控。

2，您在使用何种监控工具和平台，监控到故障时的一些故障处理机制
当前使用的还是Cacti平台，因为有比较现成的方案，使用起来很方便，因为业务紧急程度不高，即使宕机半天也影响不大，所以并不是太紧急，也只设置了Cacti的邮件报警，使用了139邮箱，这个倒是省钱的一个好办法，139邮箱又不限量的免费提醒。故障出现了一般到机器面前重启一下一般就好了，因为服务器对于我这边来说实在是不太重要，所以即使出现一些问题也没有特别的处理机制。

3，谈谈您在处理故障过程中的一些心得及将来的规划
发现故障是一方面，发现后记录并通知相关人员就可以了，其实最有效的还是解决故障，大部分问题通过重启服务器就能够解决，因此可以使用比如Cacti程序在发现问题后执行“修复脚本”就能够解决大部分问题，只有严重到一定程度上才需要人工干预。还有就是图像化重要性的问题，其实对于IT人员本身图表并不太重要，就是不是形象的图表，管理人员也能很容易看出来，那些漂亮的绘图其实很大程度上是给根本看不懂的“上层人员”用的。

自己的规划的话，就是继续研究下这些开源的监控解决方案，找一个比较合适的（目前来看Cacti不错）深入研究下，根据需要做一下二次开发，这样更能够满足自己真实环境的需求。

╮(╯▽╰)╭ 最大的问题还是自己没有足够多和好的设备好多运维只局限在理论上了~~

作者: forgaoqiang 时间: 2013-08-17 00:18
这真是一个大实话。。。。

wenhq 发表于 2013-08-16 20:53
nagios cacti zabbix ganglia 都是监控工具

作者: send_linux 时间: 2013-08-17 00:41

forgaoqiang 发表于 2013-08-17 00:17
占位编辑中~~~

上述工具只使用过MRTG、Cacti、Nagios，对Zabbix有基础的概念了了解，就分析下前三个工具 ...

这么晚...

作者: forgaoqiang 时间: 2013-08-17 00:44
亲你才是呢挺晚了哦~~

我是比较自由的程序员一般晚上干活早上11、12点起所以你上午看不到我在论坛活跃~~

哈哈管理员大人早点休息别累着了哈~ 好好休息好有精力来发奖品~~

回复 10# send_linux

作者: craaazy123 时间: 2013-08-17 10:04
虽然没做过运维，但我知道，服务器监控在自动化运维中是相当重要的。我是来膜拜这方面的大侠的

作者: jimmy-_-lixw 时间: 2013-08-17 14:59
本帖最后由 jimmy-_-lixw 于 2014-04-06 21:37 编辑

提示: 内容被隐藏或删除内容自动屏蔽

作者: send_linux 时间: 2013-08-17 19:03

jimmy-_-lixw 发表于 2013-08-17 14:59
回复 1# send_linux

1，上述的各种监控工具的优缺点比较

我找出版社要一下哈

作者: chenyx 时间: 2013-08-17 21:48
回复 8# forgaoqiang

感觉Cacti比Mrtg好的地方,就是用户认证,还有插件机制,这个在我当时部署Mrtg的时候没有发现.有年头不用Mrtg了,不知道现在如何了

作者: yifangyou 时间: 2013-08-18 10:28
本帖最后由 yifangyou 于 2013-08-18 10:28 编辑

1，上述的各种监控工具的优缺点比较
答：nagios：优点：报警体系非常完备，支持各种方式的报警方式，缺点：一台普通pc上的nagios只能同时监控50到100台机器，负载比较重，没有很好的图形化，这样的话不能够分析出故障要发生的苗头。
   MRTG：优点：比较成熟，可以监控路由器，交换机，有历史曲线图，缺点：监控指标固定，无法自己扩展
   Cacti：是mrtg的扩展，展示的图形更丰富
   ganglia:优点：区别其它监控工具的是它的分层结构，使用分层结构可以在几个web界面上查看上万台机器的报告，图形化展示历史数据，可以从中分析出故障苗头，也可分析故障发生原因，缺点：缺少报警机制
   Zabbix：优点：可以定制化的监控方式，报警方式,报表，图形化的历史数据，很方便查询，缺点：单台服务器支撑的监控客户端有限，而且服务端负载比较大
2，您在使用何种监控工具和平台，监控到故障时的一些故障处理机制
答：我使用的是zabbix,若是监控到硬盘报警，自己手动删除不必要的文件，
      若是监控到内存占用较大，检查出那个进程有问题，关掉非必要的进程
3，谈谈您在处理故障过程中的一些心得及将来的规划
   答：系统有时会因为网络原因引起一段时间没有数据，而误报
      出现故障要分析原因，最直观的是从历史数据的曲线中分析主要是由哪方面引起的
      将来规划
         其实我最喜欢的ganglia，ganglia能够监控的机器多，负载轻，但是缺陷是缺少报警机制，若是将来ganglia增加了报警机制，我考虑把zabbix换成ganglia

作者: jieforest 时间: 2013-08-18 12:59
书不错。

作者: ccjsj1 时间: 2013-08-18 13:50
用Centreon作为Nagios前端挺方便的，可以管理多台Nagios，图形界面也好；

作者: 蛛蛛281306 时间: 2013-08-18 17:38
最近对nagios比较沉迷，但是担心开源产品，自身的开发能力有限，用上了到时候如果出问题了不好交代

作者: xike2002 时间: 2013-08-19 08:56
本帖最后由 xike2002 于 2013-08-19 10:35 编辑

mark一下，下来补充。

作者: zongg 时间: 2013-08-19 10:07
本帖最后由 zongg 于 2013-08-19 14:37 编辑

1，上述的各种监控工具的优缺点比较

答：从工作以来，我用过的监控系统有cacti,nagios,zabbix.下面我就说说他们。
cacti是用snmp协议来取数据，通过rrdtool来储存和更新数据(侟在rra下的文件里)，并生成图。由此可见snmp和rrdtool是cacti的关键。
但是我们并不需要深入的了解rrdtool,和snmp ,我们是需要通过简单的配置就可以生成图像，我对于我们来说很方便(优点)。
rrdtool来处理数据效率高，多样性绘图，但是cacti监控的内容不多(缺点)。有一些插件还是不错的。我现在用的是monitor,mactrack,weathermap.
我们现在主要是用cacti来监控交换机上的流量。

nagios是一款很专业的监控软件，监控服务器状态很强大。但是配置起来复杂一些。能监控的应用层面(网络服务监控)的内容比cacti较多(优点)，插件也非常多。这个赞一个。
nagios会调用插件去检测服务器状态，并把插件返回来的状态信息并进行处理后，把状态结果通过web显示出来。并根据状态实现告警。感觉报警机制要比cacti强。
图像看着没cacti好。(缺点) nagios客户端得安装NRPE. 说是支持400-500台机器的监控。我没试过，没有那么多的机器。- -

zabbix 分为zabbix server 和zabbix agent.也就是说客户端得安装agent.
缺点是支持多平台的监控软件，功能强大，监控灵活，报警灵活。
支持分布式。支持snmp,jmx,ipmi类型。自带画图功能，得到的数据可以绘成图形。全web管理。自带key，同时支持调用脚本。很方便。
缺点是批量修改不方便，中文资料少。画图没cacti好。官网说zabbix 支持5000台机器的监控。

2，您在使用何种监控工具和平台，监控到故障时的一些故障处理机制

答：我们现在用的是cacti+zabbix，感觉够用了，zabbix用起来比较灵活。
zabbix 可以根据自己的需求设置一些触发器，达到触发器的数值就会报警。
比如说，系统的平均负载，进程数，流量，tomcat jmx，dns 之类的都可以实现。

3，谈谈您在处理故障过程中的一些心得及将来的规划

答：故障一般的都是软件层面的，及时登陆到机器上看看是什么情况，大多数都可以解决。
将来的规划是现深入的学习zabbix，说实话，zabbix 真不错，真心推荐给大家。很灵活。
如果有机会再试试分布式。如果有运维研发，zabbix是一个好的选择进行二次开发。

作者: Purple_Grape 时间: 2013-08-19 14:51
本帖最后由 Purple_Grape 于 2013-08-19 14:54 编辑

nagios大规模监控的性能问题解决方案

简单的说，通过分析，将nagios使用硬盘读写比较严重的部分放到/dev/shm里，同时优化内核tcp参数，可以极大提高性能。

参考文章：
http://assets.nagios.com/downloa ... isk_In_NagiosXI.pdf

nagios的缺点是没有画图，但是有cacti 也就足够了

我很担心一个软件功能太过全面，还是unix/linux的哲学好，一个软件干好一件事就行了。

作者: action08 时间: 2013-08-19 15:09
nagios用起来需要配置的不少，，估计新手会碰不少问题

作者: chenyx 时间: 2013-08-19 15:35

Purple_Grape 发表于 2013-08-19 14:51
nagios大规模监控的性能问题解决方案

简单的说，通过分析，将nagios使用硬盘读写比较严重的部分放到/dev ...

nagios可以结合pnp来画图.
前一段时间我用过icinga,nagios的衍生版本,有中文版本的,还集成pnp,还不错

作者: chenyx 时间: 2013-08-19 15:36

action08 发表于 2013-08-19 15:09
nagios用起来需要配置的不少，，估计新手会碰不少问题

嗯,nagios配置确实很繁琐.

作者: verve516 时间: 2013-08-19 17:59
一、Nagios简介

Nagios logo

　　Nagios是一款开源的电脑系统和网络监视工具，能有效监控Windows、Linux和Unix的主机状态，交换机路由器等网络设置，打印机等。在系统或服务状态异常时发出邮件或短信报警第一时间通知网站运维人员，在状态恢复后发出正常的邮件或短信通知。

　　Nagios原名为NetSaint，由Ethan Galstad开发并维护至今。NAGIOS是一个缩写形式: "Nagios Ain't Gonna Insist On Sainthood" Sainthood 翻译为圣徒，而"Agios"是"saint"的希腊表示方法。Nagios被开发在Linux下使用，但在Unix下也工作得非常好。

主要功能

网络服务监控（SMTP、POP3、HTTP、NNTP、ICMP、SNMP、FTP、SSH）
主机资源监控（CPU load、disk usage、system logs），也包括Windows主机（使用NSClient++ plugin）
可以指定自己编写的Plugin通过网络收集数据来监控任何情况（温度、警告……）
可以通过配置Nagios远程执行插件远程执行脚本
远程监控支持SSH或SSL加通道方式进行监控
简单的plugin设计允许用户很容易的开发自己需要的检查服务，支持很多开发语言（shell scripts、C++、Perl、ruby、Python、PHP、C#等）
包含很多图形化数据Plugins（Nagiosgraph、Nagiosgrapher、PNP4Nagios等）
可并行服务检查
能够定义网络主机的层次，允许逐级检查，就是从父主机开始向下检查
当服务或主机出现问题时发出通告，可通过email, pager, sms 或任意用户自定义的plugin进行通知
能够自定义事件处理机制重新激活出问题的服务或主机
自动日志循环
支持冗余监控
包括Web界面可以查看当前网络状态，通知，问题历史，日志文件等

二、Nagios工作原理

1. Nagios的功能是监控服务和主机，但是他自身并不包括这部分功能，所有的监控、检测功能都是通过各种插件来完成的。

　　启动Nagios后，它会周期性的自动调用插件去检测服务器状态，同时Nagios会维持一个队列，所有插件返回来的状态信息都进入队列，Nagios每次都从队首开始读取信息，并进行处理后，把状态结果通过web显示出来。

　　Nagios提供了许多插件，利用这些插件可以方便的监控很多服务状态。安装完成后，在nagios主目录下的/libexec里放有nagios自带的可以使用的所有插件，如，check_disk是检查磁盘空间的插件，check_load是检查CPU负载的，等等。每一个插件可以通过运行./check_xxx –h 来查看其使用方法和功能。

　　Nagios可以识别4种状态返回信息，即 0(OK)表示状态正常/绿色、1(WARNING)表示出现警告/黄色、2(CRITICAL)表示出现非常严重的错误/红色、3(UNKNOWN)表示未知错误/深黄色。Nagios根据插件返回来的值，来判断监控对象的状态，并通过web显示出来，以供管理员及时发现故障。

四种监控状态

2. 再说报警功能，如果监控系统发现问题不能报警那就没有意义了，所以报警也是nagios很重要的功能之一。但是，同样的，Nagios 自身也没有报警部分的代码，甚至没有插件，而是交给用户或者其他相关开源项目组去完成的。

　　Nagios 安装，是指基本平台，也就是Nagios软件包的安装。它是监控体系的框架，也是所有监控的基础。

　　打开Nagios官方的文档，会发现Nagios基本上没有什么依赖包，只要求系统是Linux或者其他Nagios支持的系统。不过如果你没有安装apache（http服务），那么你就没有那么直观的界面来查看监控信息了，所以apache姑且算是一个前提条件。关于apache的安装，网上有很多，照着安装就是了。安装之后要检查一下是否可以正常工作。

　　知道Nagios 是如何通过插件来管理服务器对象后，现在开始研究它是如何管理远端服务器对象的。Nagios 系统提供了一个插件NRPE。Nagios 通过周期性的运行它来获得远端服务器的各种状态信息。它们之间的关系如下图所示：

Nagios 通过NRPE 来远端管理服务

1. Nagios 执行安装在它里面的check_nrpe 插件，并告诉check_nrpe 去检测哪些服务。

2. 通过SSL，check_nrpe 连接远端机子上的NRPE daemon

3. NRPE 运行本地的各种插件去检测本地的服务和状态(check_disk,..etc)

4. 最后，NRPE 把检测的结果传给主机端的check_nrpe，check_nrpe 再把结果送到Nagios状态队列中。

5. Nagios 依次读取队列中的信息，再把结果显示出来。

作者: forgaoqiang 时间: 2013-08-19 18:04
报警的话只要配合Cacti就好了 Cacti 的报警能力不是一般的强悍~~

回复 26# verve516

作者: defcon 时间: 2013-08-21 10:43
Cacti 监控windows的时候用到snmp需要重启系统，这点很不好，而nagios就不需要，而且nagios的一个插件check_mk绘制的图片比Cacti差不到哪去

作者: skyadmin 时间: 2013-08-21 10:54
nagios 监控工具算是比较成熟的工具了，在插件开发可以支持应用监控。
目前有一些中文项目的版本出来，但是对查看开发，原理介绍很少。
未来的趋势还是APM ，对应用性能的监控管理，希望有机会读《掌控—构建Linux系统Nagios监控服务器》

作者: osapub 时间: 2013-08-21 10:59
回复 3# chenyx
看了您的回复，见解独到，在短信这一块，除了短信猫，有没有考虑过139邮箱，或者是易信等免费的手机告警方式呢？

作者: chenyx 时间: 2013-08-21 11:02
本帖最后由 chenyx 于 2013-08-21 11:04 编辑

回复 30# osapub

139邮箱肯定可以用.但是,有个限制,就是,一旦外网的线路断掉了(虽然很少),报警就发不出去了.
当然,如果排除外网线路的问题,139邮箱肯定是可以考虑的

作者: benxiong 时间: 2013-08-21 14:11
nagios
前端配置工具可以使用centreon(里面带有报表功能,即趋势图).
拓扑展示可以使用nagvis,完全是自定义的,下钻层级展示,告警关联

几款工具主要集中在系统层面/中间件层面/网络层面的监控 .但是交易层(例如通过拆包分析交易或者业务的成功失败比例)的实时监控都没有很好的解决方案

作者: jimmy-_-lixw 时间: 2013-08-21 18:37
本帖最后由 jimmy-_-lixw 于 2014-04-06 21:34 编辑

提示: 内容被隐藏或删除内容自动屏蔽

作者: ttt4011 时间: 2013-08-21 19:48
弄了nagios和cacti有一段时间了，功能上差别不大，都可以用snmp插件和用脚本获取数据。只是易用性的问题，个人觉得nagios好用，cacti界面好看。有一个问题，望版主大人指点一二。http://bbs.chinaunix.net/thread-4095041-1-1.html

作者: action08 时间: 2013-08-24 15:51
回复 30# osapub

目前139邮箱还是有一定的资源优势的，这个可以有

作者: niao5929 时间: 2013-08-26 07:16
g关注一下！！！

作者: aigame 时间: 2013-08-26 16:32
一直用Centreon，所有配置全部通过界面完成，所有监控脚本基本上全部通过自己编写或利用网上再修改，全部通过返回性能数据，实现图显示。

作者: forgaoqiang 时间: 2013-08-27 03:38
100% 粘贴的别人的文章在CU社区还搞这一套鄙视~~

你抄袭的文章来源： http://www.cnblogs.com/mchina/archive/2013/02/20/2883404.html

PS：再次鄙视一次

verve516 发表于 2013-08-19 17:59
一、Nagios简介

Nagios logo

作者: ltgzs777 时间: 2013-08-27 13:27
对于任何一个运维人员来说对网络和服务器健康状态的监控是必须的，既能够及时的发现出现的问题解决问题，而且也是为了避免被上层找麻烦的最后一个途径，但是我就是不知道为什么有那么多人不去重视这一点呢？

作者: lismallstar 时间: 2013-08-27 14:12
有木有用过Opennms的呢？Opennms跟nagios比较下呢？

作者: tigerlsea 时间: 2013-08-27 18:04
1，上述的各种监控工具的优缺点比较

上面的工具，mrtg、cacti、smokeping、nagios都有在用，此外，还有用到what's up gold 和Solarwinds.
mrtg 是最早接触的监控软件，主要用来看流量图、 CPU使用率等参数，好处是方便，趋势图也看习惯了，缺点是看不到历史数据（历史数据都平均了，只能看到日、周、月、年的平均趋势），还有在配置的时候需要手工改改显示页面，不然界面不是那么友好的；
cacti 可以替代mrtg，可以看历史数据的一些数据时间点的细节；界面友好，配置也方便，但总觉得画的图没mrtg好看；但功能比mrtg强多了；
smokeping用来监控网络延时，部署后把关键的网络节点，甚至是一些互联网骨干设备监控起来，出现网络问题的时候可以作为参考；
nagios 可以对服务器及服务和网络状态的监控能够实时报警，应该说是实时监控的利器；

2，您在使用何种监控工具和平台，监控到故障时的一些故障处理机制
几种监控工具都有同时使用，nagios实时监控服务器的性能、服务、在线情况；cacti用来画所有交换机端口的流量图；smokeping用来画所有监控IP的网络延时图；what’s up gold实时监控设备的在线情况，分层画拓扑图最直观、方便；
出现问题的时候可能还会用solarwinds看看一些设备端口的实时流量图；

3，谈谈您在处理故障过程中的一些心得及将来的规划
其实几样监控软件结合使用已能应付大部分的需求，如果能基于一两个平台做些二次开发整合其它平台的功能在做些权限控制那就最理想了！

作者: osapub 时间: 2013-08-28 21:26
回复 13# jimmy-_-lixw

hi,jimmy.

回复的挺详细的，有个问题沟通一下，请问在发现故障的时候，有没有尝试过从历史故障库里面，或者一些运维知识库里能找到解决问题的答案呢？

又或者有没有尝试过自动化处理一些己知的，重复性较高的故障呢？如果有，是通过什么方式呢？

作者: jimmy-_-lixw 时间: 2013-08-29 12:23
本帖最后由 jimmy-_-lixw 于 2014-04-06 21:33 编辑

提示: 内容被隐藏或删除内容自动屏蔽

作者: verve516 时间: 2013-08-30 10:58
好东西要分享，你看过就没见你在这里给小伙伴们推荐下{:3_190:} 回复 39# forgaoqiang

作者: jimmy-_-lixw 时间: 2013-09-02 10:47
本帖最后由 jimmy-_-lixw 于 2014-04-06 21:40 编辑

提示: 内容被隐藏或删除内容自动屏蔽

作者: lismallstar 时间: 2013-09-02 17:20
我没用过别的，只是现在在研究OPENNMS，但是没找到讲的很详细的资料。是不是大家都不用这个呀，好像关于nagios的比较多。因为我们需要监控的服务器不多，一个网段也就30几台，我觉得用opennms这样轻便的就可以了，只是现在好多功能还没配出来。

作者: jimmy-_-lixw 时间: 2013-09-02 23:12
本帖最后由 jimmy-_-lixw 于 2014-04-06 21:43 编辑

提示: 内容被隐藏或删除内容自动屏蔽

作者: alyfrisk 时间: 2013-09-03 14:38
nagios还是不适用于企业监控！

作者: ltgzs777 时间: 2013-09-04 14:15
回复 49# alyfrisk

为什么这么说？

作者: jimmy-_-lixw 时间: 2013-09-05 13:20
本帖最后由 jimmy-_-lixw 于 2014-04-06 21:45 编辑

提示: 内容被隐藏或删除内容自动屏蔽

作者: jimmy-_-lixw 时间: 2013-09-05 13:22
本帖最后由 jimmy-_-lixw 于 2014-04-06 21:45 编辑

提示: 内容被隐藏或删除内容自动屏蔽

作者: osapub 时间: 2013-09-06 15:53
回复 52# jimmy-_-lixw

目前我们是在完善OSA监控精灵等产品的，开源免费提供给大家使用。

作者: jimmy-_-lixw 时间: 2013-09-06 18:45
本帖最后由 jimmy-_-lixw 于 2014-04-06 21:49 编辑

提示: 内容被隐藏或删除内容自动屏蔽

作者: mcyeah 时间: 2013-09-06 20:11
本帖最后由 mcyeah 于 2013-09-06 20:13 编辑

1，上述的各种监控工具的优缺点比较
MRTG使用简单，易上手，但是相对比较老了，采用SNMP协议，能够以HTML页面的形式呈现数据，现在用的相对较少了。
Cacti当下比较主流了，支持插件，功能强大，界面美观，也是采用SNMP协议，绘图能力很强，可以替代MRTG。
Smokeping主要是监视网络性能，包括常规的ping，用echoping监控www 服务器性能，监视dns 查询性能，监视ssh 性能等，也是采用rrdtool绘图漂亮，没有扩展。
Nagios当前主流，功能强大，配置复杂，插件丰富，报警机制强大，实时能力强，突出功能在于监控并报警，能够对进程服务级别的进行监控。图形化不够出众，可以配合Cacti来综合使用。
Zenoss比较强大的监控软件，可纯WEB操作，配置比较复杂，支持的监控项目多，具有监控+报警能力，有自动化能力，无插件扩展，功能那个强大的企业版是收费的

。
Ganglia 分层模式适合于应用层扩展，能够对大规模集群进行监视，Web页面呈现，界面友好，可提供有效的历史信息，缺乏报警与插件支持。
Zabbix监控功能强大，支持报警，可以灵活定制，Web图形化支持较好，支持大的分布式系统，但没有Ganglia的扩展性高。

2，您在使用何种监控工具和平台，监控到故障时的一些故障处理机制
    nagios+cacti  nagios主要用来做邮件&短信报警，cacti有利于问题分析。
   检测到故障，主要还是从历史数据来分析问题了原因，具体问题具体解决。

3，谈谈您在处理故障过程中的一些心得及将来的规划

  其实平时平时没事儿的时候多观察观察，多做做功课，能够预防一些问题，省的除了问题，报警了才去解决。
   问题发生的时候，把自己的分析过程和记过记录下来，以备以后发生类似故障可以先从这些方面入手。
   其实各种监控软件还是各有所长，我认为插件的支持是一个很不错的功能。
   准备研究一下Zenoss和Ganglia，前者是一个整套的体系系统，功能丰富，后者的扩展性非常棒。    很多监控软件都是开源的，可以看看，没准儿什么时候做个二次开发就用上了。

作者: zhuzhiguo007 时间: 2013-09-24 16:28
ngios catic是实现自动化运维的利器，功能模块还需不断增强回复 1# send_linux

作者: lshlfyf 时间: 2013-11-12 21:51

chenyx 发表于 2013-08-19 15:35
nagios可以结合pnp来画图.
前一段时间我用过icinga,nagios的衍生版本,有中文版本的,还集成pnp,还不错

我也准备用icinga,这个界面比nagios好看些

欢迎光临 Chinaunix (http://bbs.chinaunix.net/)