自动化运维之---构建高性能Nagios监控服务器（获奖名单已公布-9-11）

send_linux 发表于 2013-08-16 16:17

获奖名单已公布，详情请看：http://bbs.chinaunix.net/thread-4098335-1-1.html

随着用户体验需求的不断提升，互联网运维等技术的飞速发展，网站运维支撑己经越来越受到公司的重视，用户己经受够了比如网页打开速度慢，访问出现空白页，更可怕的是，点击登录、提交等按钮，动不动就出现504，503，502，这一切的一切，只会导致用户的流失率不断攀升，如何处理监控到这些故障，采用怎么样的应急机制，成为当下运维们共同思考的一个问题。

工欲善其事，必先利其器。要做好系统监控，使自己的工作更轻松更有效的话，一个好的监控工具是必不可少。然而面对种类繁多的各种开源监控工具，比如 MRTG、Cacti、Smokeping、Nagios、Zenoss、Ganglia 、Zabbix 等等。在这其中Nagios应用最广泛，例如，国内外大量的互联网公司都在使用或者二次开发使用这套监控平台。

本期话题：
1，上述的各种监控工具的优缺点比较
2，您在使用何种监控工具和平台，监控到故障时的一些故障处理机制
3，谈谈您在处理故障过程中的一些心得及将来的规划

活动时间：
2013年8月16日-9月6日

本期嘉宾：
论坛ID：osapubOSA开源运维平台,OSA监控精灵项目负责人。
论坛ID：larry-liuOSA开源运维平台，shell负责人。
活动奖品：
分享最精彩的Cuer将获得清华大学出版社赞助的《掌控—构建Linux系统Nagios监控服务器》图书一本，共五本

图书简介：
http://images.china-pub.com/ebook60001-65000/62081/zcover.jpg
作者：陶利军
出版社：清华大学出版社
ISBN：9787302311409
上架时间：2013-5-25
出版日期：2013 年5月
开本：16开
页码：589
版次：1-1

内容简介：
nagios对于网络、系统管理员是必不可少的工具，nagios对服务器及服务和网络状态的监控能够实时报警，让管理员能够及时处理。正确使用nagios能够给自己和企业带来很好的“效益”。
　　在本书中我们将讲述nagios服务器的安装和使用以及nagios的基础知识，本书分为9个部分共25章，内容详细地讲述了nagios监控理论、安装前后的目录结构、配置文件、配置对象、插件开发、对linux服务器、windows服务器及路由器和交换机的host及service的监控、图形化 nagios监控数据、nagios xi(商业版nagios)等。

ding_cw 发表于 2013-08-16 16:35

Cacti还不错特别是CactiEZ整合的ISO基本只用简单设置就行了 Nagios还用的不太熟要是有机会得到书就好了

chenyx 发表于 2013-08-16 16:51

1，上述的各种监控工具的优缺点比较
上述工具,只是用过Mrtg,Cacti,Nagios.没用cacti之前用的是Mrtg,后来放弃了.
Cacti通过Snmp协议获取主机的信息很方便,一般的网络设备都支持Snmp,在设备上开启Snmp,在Cacti上面添加,很快就有数据过来.当然,还有很多插件可以正常Cacti的功能,比如mactrack,weathermap等等.
Nagios主要是通过命令获取被监控主机的信息,比如check_http等.对一些特定对象的监控比cacti强.另外,通过第三方软件,nagios可以实现飞信报警.还有,Nagios结合PnP,可以在监控的同时,通过rrd画图,这个对将来的分析也很有用.
所以.我在使用的时候,是将Cacti和Nagios结合起来使用,优势互补.

2，您在使用何种监控工具和平台，监控到故障时的一些故障处理机制
我是在Linux下用一台主机,上面安装Cacti和nagios,cacti主要检测网络交换设备的流量信息,Nagios主要用于检测服务状态以及网络出口的状态,有问题,通过nagios调用飞信接口通知相关的人员来维护.

3，谈谈您在处理故障过程中的一些心得及将来的规划
Nagios的报警功能有一定的延后性,这个应该与其算法有关,尽量减少误报吧.
线路出问题,有时候报警发不出了,将来有可能的话,尝试用短信猫的方式来实现.

jimmy-_-lixw 发表于 2013-08-16 17:52

本帖最后由 jimmy-_-lixw 于 2014-04-06 21:31 编辑

提示: 内容被隐藏或删除内容自动屏蔽

rover12421 发表于 2013-08-16 18:39

对Nagios不了解，来支持下活动:wink:

wenhq 发表于 2013-08-16 20:53

本帖最后由 wenhq 于 2013-08-19 11:01 编辑

nagios cacti zabbix ganglia 都是监控工具
1，上述的各种监控工具的优缺点比较
a.nagios 适合监视大量服务器上面的大批服务是否正常, 重点并不在图形化的监控, 其集成的很多功能例如报警；cacti 主要用途还是用来收集历史数据和画图, 所以界面相比要好看一些。
b.nagios 监控的是对服务器的关键服务及进程进行监控。cacti是对流量及主机在线状态监控。
c.ganglia 主要是利用通过XDL(xml的压缩格式)或者XML格式传递监控数据，达到监控效果。其侧重点是系统的性能。gmetad可以部署在集群内任一台节点或者通过网络连接到集群的独立主机，它通过单播路由的方式与gmond通信，收集区域内节点的状态信息，并以XML数据的形式，保存在数据库中。
集群内的节点，通过运行gmond收集发布节点状态信息，然后gmetad周期性的轮询gmond收集到的信息，然后存入rrd数据库，通过web服务器可以对其进行查询展示
d.由2部分构成，zabbix server与可选组件zabbix agent。一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。
zabbix能监视各种网络参数，保证服务器系统的安全运营;并提供柔软的通知机制以让系统管理员快速定位/解决存在的各种问题。
2，您在使用何种监控工具和平台，监控到故障时的一些故障处理机制
我们一直是用nagios+cacti监控，nagios来发报警邮件及短信。cacti来监视一些流量以及JVM内存的使用等。
如果收到这样的报警，我们会及时的处理以及查找问题的原因。并加强我们的监控系统。

3，谈谈您在处理故障过程中的一些心得及将来的规划
要完善监控软件存在的问题，需要对监控的原理及逻辑进行分析，然后进行2次开发。
还有一点就需要的是，如果单一的监控软件比如nagios监控的有问题的话那么需要再加一套监控体系在做互补。

laputa73 发表于 2013-08-16 23:50

开源的这些工具底层原理类似,关键看上层易用性.
mrtg最简单,可以支持snmp/cmd.可以支持rateup/rrd两种图形接口. 也有简单的web界面. 这个以前应用最广泛.集成到很多系统,
cacti就是php的界面+底层的snmp+rrd. 尤其胜在插件很多,基本用在企业里面就够了.很多地市电信都用这个.

当然考虑xx的, 还是solarwinds/orion更给力.特别是内置海量的mib.还有对cisco的丰富支持
主机管理,sitescope也不错.接口丰富
专注故障监控的话,whatsup绝对性能领先.

forgaoqiang 发表于 2013-08-17 00:17

本帖最后由 forgaoqiang 于 2013-08-17 21:07 编辑

占位编辑中~~~

上述工具只使用过MRTG、Cacti、Nagios，对Zabbix有基础的概念了了解，就分析下前三个工具吧，另外坐等学习有经验人员的评论~~

1，上述的各种监控工具的优缺点比较
综合的优缺点比较倒是说不上来，但是一些小的地方大体说下自己的看法。MRTG这个是Perl语言的，当时安装的时候印象特别深，Perl语言写的感觉配置和读起来都很费劲。Cacti是最上手的，使用了当前相当流行PHP语言（哈哈，因为本人主要用PHP语言开发，特别亲近），明显比MRTG方便的是：不仅支持SNMP协议进行监控和绘图，也支持简单的比如Ping方式进行设备检测，灵活性更好一些。一开始使用官方版本的Cacti，自己使用倒是问题不大，真正给客户使用的时候就换上了Cacti中文版（这个社区现在倒是还挺热闹），就是Cacti如果不使用已经打包好的镜像系统，安装起来还挺费劲，因为需要手动安装SNMP-NET等组件，配置起来也很麻烦，有些没有模版的设备还需要自己慢慢地配置出来，rrdtool本身语法也挺复杂，要是绘制自定义的图像也很费劲。然后就是Nagios，感觉功能和Cacti类似，也是使用了PHP做的前端，都能支持系统及服务监控，而不像MRTG这款老工具只支持网络流量方面的监控。

2，您在使用何种监控工具和平台，监控到故障时的一些故障处理机制
当前使用的还是Cacti平台，因为有比较现成的方案，使用起来很方便，因为业务紧急程度不高，即使宕机半天也影响不大，所以并不是太紧急，也只设置了Cacti的邮件报警，使用了139邮箱，这个倒是省钱的一个好办法，139邮箱又不限量的免费提醒。故障出现了一般到机器面前重启一下一般就好了，因为服务器对于我这边来说实在是不太重要，所以即使出现一些问题也没有特别的处理机制。

3，谈谈您在处理故障过程中的一些心得及将来的规划
发现故障是一方面，发现后记录并通知相关人员就可以了，其实最有效的还是解决故障，大部分问题通过重启服务器就能够解决，因此可以使用比如Cacti程序在发现问题后执行“修复脚本”就能够解决大部分问题，只有严重到一定程度上才需要人工干预。还有就是图像化重要性的问题，其实对于IT人员本身图表并不太重要，就是不是形象的图表，管理人员也能很容易看出来，那些漂亮的绘图其实很大程度上是给根本看不懂的“上层人员”用的。

自己的规划的话，就是继续研究下这些开源的监控解决方案，找一个比较合适的（目前来看Cacti不错）深入研究下，根据需要做一下二次开发，这样更能够满足自己真实环境的需求。

╮(╯▽╰)╭ 最大的问题还是自己没有足够多和好的设备好多运维只局限在理论上了~~

forgaoqiang 发表于 2013-08-17 00:18

这真是一个大实话。。。。
wenhq 发表于 2013-08-16 20:53 static/image/common/back.gif
nagios cacti zabbix ganglia 都是监控工具

send_linux 发表于 2013-08-17 00:41

forgaoqiang 发表于 2013-08-17 00:17 static/image/common/back.gif
占位编辑中~~~

上述工具只使用过MRTG、Cacti、Nagios，对Zabbix有基础的概念了了解，就分析下前三个工具 ...

这么晚...

页: [1] 2 3 4 5 6

Chinaunix's Archiver

自动化运维之---构建高性能Nagios监控服务器（获奖名单已公布-9-11）