免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: 草上飞2008
打印 上一主题 下一主题

监控讨论:如何选择合适的运维监控工具?《互联网运营智慧》精彩试读 [复制链接]

论坛徽章:
3
CU大牛徽章
日期:2013-03-13 15:29:07CU大牛徽章
日期:2013-03-13 15:29:49CU大牛徽章
日期:2013-03-13 15:30:19
131 [报告]
发表于 2010-10-25 22:02 |只看该作者
用nagios也接近三年了,感觉很不错,对管理员来说很实用,短信提醒功能我用的是发到手机邮箱,用手机邮箱的短信提醒功能向我报警,至于监控机的存活与否用了老田的每天定时发一条短信,很是好用

论坛徽章:
5
CU十周年纪念徽章
日期:2012-02-28 22:08:51CU大牛徽章
日期:2012-02-28 22:08:512010年中国数据库技术大会
日期:2012-02-28 22:05:302009年中国系统架构师大会
日期:2012-02-28 22:05:30ChinaUnix元老
日期:2012-02-28 22:26:02
132 [报告]
发表于 2010-10-25 22:04 |只看该作者
我也就我的一点经验谈一下现在很流行的监控和对监控的一点畅想吧!

1. nagios:
    优点:便宜,量又足 ...
realgod 发表于 2010-10-25 15:47



    realgod

   你提的建议太精彩了,就冲着这一贴,就送你一本书啊,

   你把你的邮寄快递地址、接收电话和接收姓名,发我邮件一下。

  另外:
上述的监控工具都是写死的阀值,没法做到趋势预测以及阀值的动态调整。

写死的阀值,这个真没办法改了?

我们这边之前设置的HTTP监控,检测间隔1分钟,重试的检测间隔10秒,重试4次,这样的话,1个HTTP的web监控,理论延迟40秒,还可以接受的。

这个办法,我回头给我们的运维部说说。要不然,社区监控不到位,对不起大家啊

论坛徽章:
0
133 [报告]
发表于 2010-10-25 23:55 |只看该作者
很热闹阿!帮顶!

论坛徽章:
0
134 [报告]
发表于 2010-10-26 09:56 |只看该作者
本帖最后由 贺兰云天 于 2010-10-26 10:02 编辑
我想提出一个问题:为什么我们都是用别人的开源工具,而没有我们自己开发的小工具,或贡献呢?
mcseit 发表于 2010-10-25 18:25



    哥开发的监控工具马上出炉

论坛徽章:
0
135 [报告]
发表于 2010-10-26 10:00 |只看该作者
realgod

   你提的建议太精彩了,就冲着这一贴,就送你一本书啊,

   你把你的邮寄快递地 ...
草上飞2008 发表于 2010-10-25 22:04



    有一种动态阀值的方法就是给定一个算法,通过一哥时间段的数据值来产生未来一个时间段的阀值。
而且报警的级别也随之产生。

论坛徽章:
0
136 [报告]
发表于 2010-10-26 10:36 |只看该作者
这些工具也草草看过,比较是第三方的东西,感觉两点不足,一来功能上不能完全满足要求,二来对于大规模的监控(几百台服务器)不是很好,三是二次开发不方便.

我们公司前辈高瞻远瞩,建立了自己的监控报警系统,完全自己开发的一套数据库监控报警系统,非常完善,经过改良,扩展性也非常好.几乎任何细节的监控都可以随时添加到系统中,二次开发和维护都很简单.前端采用php画图展示各类监控曲线,报警功能也是模仿linux日志管理,灵活多样.目前用的很好.

其实说到运维监控和报警软件,从软件框架来看,做到可扩展性,可灵活定制监控点,灵活的界面展示,基本就是一个好的监控框架了.

监控软件完全做成一个软件框架,类似于discuss这样的论坛模板.

论坛徽章:
0
137 [报告]
发表于 2010-10-26 10:42 |只看该作者
本帖最后由 sysit 于 2010-10-26 10:48 编辑

对于大型网站来说,Nagios已死,zabbix才是最好的选择,分步式才是王道。

Nagios的分布式是个伪分布式,当节点到5000个,怎么个分布式方法都无法解决。除非使用多套独立的Nagios ,那样维护会累死人。

监控系统至少需要满足: 准确、实时、易维护

大多说监控系统会考虑前两条,易维护总是被忽略,而这个对运维人员来说,没有自动化的工具来维护,一切都是浮云。

论坛徽章:
0
138 [报告]
发表于 2010-10-26 10:48 |只看该作者
本帖最后由 la19850302 于 2010-10-26 11:09 编辑

继续说说监控软件框架化应该达到的要求,这个软件必须满足以下几点:

1 横向扩展性:满足对大规模机器数量的监控,便捷的添加新监控服务器

2 功能扩展性:灵活的监控功能定制,每个监控功能模块化.可以像插件一样的添加到系统中

3 展示界面灵活:前端的展示曲线,画图等功能独立封装,提供界面展示图形化配置方法.灵活展示各种监控参数

4 报警的定制: 报警级别,报警阀值,报警时间段,报警频率,报警方式,报警对象等等都需要可以定制,细化到每一台机器.

我软件开发三流而已,但是基于一直在使用和改良公司前辈们开发的监控平台,对监控软件的需求和软件的构架设计有一定了解,对建立一个平台化的监控软件饶有兴趣.

论坛徽章:
0
139 [报告]
发表于 2010-10-26 11:12 |只看该作者
本帖最后由 dgvri 于 2010-10-26 11:29 编辑

  1. cacti是基于snmp协议的,感觉机器数据量比较多的话就会有问题,有没有同行使用cacti监控超过1000台服务器的?

复制代码
我增经在T开头的公司使用DELL2950的机器,RAID5硬盘系统,监控超过2000台服务器,100台网络设备。

cacti的监控对像过多的时候就对磁盘I/O要求较高,所以如果有条件还是把CACTI的机器配置高点,最好做成RAID5。



至于nagios,我维护超过6台nagios ,每台都监控不同的分组服务器,所有的配置文件都使用脚本+SSHkey来完成,不需要任何手功干预,我所要关注的就是每天九点查看下手机短信是不收到NAGIOS报告平安的短信。

至于短信方面,最早使用网络发短信,丢失率太高,后又使用电信发,有数量限制,最后使用4组短信猫轮询发短信。


提一个只有N多同类机器才会碰到的问题
    500台WEB服务器,10台后端计算服务器,在后端服务器出现程序问题时,会影响前端500台WEB服务器,这时500台会同时报警,你会怎么处理?
同时发500条短信?会直接堵死

论坛徽章:
0
140 [报告]
发表于 2010-10-26 11:34 |只看该作者
回复 139# dgvri


    设置父子关系 父有问题 就不再报子的
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP