免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 50903 | 回复: 56
打印 上一主题 下一主题

集群监控工具十八般兵器,哪个您最拿手?(获奖名单已公布-10-24) [复制链接]

论坛徽章:
49
15-16赛季CBA联赛之福建
日期:2016-06-22 16:22:002015年亚洲杯之中国
日期:2015-01-23 16:25:12丑牛
日期:2015-01-20 09:39:23未羊
日期:2015-01-14 23:55:57巳蛇
日期:2015-01-06 18:21:36双鱼座
日期:2015-01-02 22:04:33午马
日期:2014-11-25 09:58:35辰龙
日期:2014-11-18 10:40:07寅虎
日期:2014-11-13 22:47:15申猴
日期:2014-10-22 15:29:50摩羯座
日期:2014-08-27 10:49:43辰龙
日期:2014-08-21 10:47:58
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-09-17 16:18 |只看该作者 |倒序浏览
获奖名单已公布,详情请看:http://bbs.chinaunix.net/thread-4102939-1-1.html

随着大数据和其他对计算需求密集的问题来临,对大规模的计算机和网络的监控变得越来越重要,如何使得这些IT基础设施的利用率 变高,受到越来越多的企业关注,也是值得广大IT运维朋友值得思考并解决的一个问题。大部分的监控平台都能够提供了一整套的监控服务,它可以帮助您快速的了网站的可用率、服务器性能、服务状态等信息,发现故障立即通知到指定的用户,赶在用户之前发现并处理掉故障,从而提升用户体验。但是对于不同规模的IT基础设施和网络规模来说,选择不同的监控工具和监控手段则是需要运维管理工作人员认真考虑的。

有小而灵活的cacti,而功能复杂但是需要定制的Nagios,也是很多运维人员的最爱。还有以高性能计算设备监控为主的Ganglia。Ganglia是UC Berkeley发起的一个开源集群监视项目,设计用于测量数以千计的节点。Ganglia的核心包含gmond、gmetad以及一个Web前端。主要是用来监控系统性能,如:cpu 、mem、硬盘利用率, I/O负载、网络流量情况等,通过曲线很容易见到每个节点的工作状态,对合理调整、分配系统资源,提高系统整体性能起到重要作用。

Ganglia引起了计算机网络监控领域的一场大型革命,它独到的设计理念、强大的功能、丰富的插件,以及它与Nagios、sFlow等工具的有机结合,成为大型计算机网络监控领域当之无愧的王者。

本期话题:
1、说说您使用哪些监控软件,各自优缺点是什么
2、您是否使用过Ganglia,说说您的部署和运营经验

本期嘉宾:
ChinaUnix集群和高可用版版主:Gray1982

活动时间:2013年9月17日-10月10日

本期奖品:
活动结束后,我们会评选出5位积极参与话题讨论的网友奖励《Ganglia系统监控》图书1本,对其他积极参与讨论的网友(回帖有参考价值)我们将奖励积分20分。


    原书名:Monitoring with Ganglia
    原出版社: O'Reilly Media
    作者: Matt Massie    Bernard Li    Brad Nicholes    Vladimir Vuksan   
    译者: 陈学鑫 张诚诚
    出版社:机械工业出版社
    ISBN:9787111436744
    上架时间:2013-9-9
    出版日期:2013 年9月
    开本:16开

活动要求:
1、 要言之有物,不能低于20个字
2、 本次话题主要关IT运维监控工具的心得体会和使用技巧,其他问题可能不做重点
         

论坛徽章:
1
CU十二周年纪念徽章
日期:2013-10-24 15:41:34
2 [报告]
发表于 2013-09-17 21:14 |只看该作者
先沙发。监控工具的话,一共都很少用第三方的,都是用系统自带的命令查看。然后配合日志功能。

论坛徽章:
59
2015七夕节徽章
日期:2015-08-24 11:17:25ChinaUnix专家徽章
日期:2015-07-20 09:19:30每周论坛发贴之星
日期:2015-07-20 09:19:42ChinaUnix元老
日期:2015-07-20 11:04:38荣誉版主
日期:2015-07-20 11:05:19巳蛇
日期:2015-07-20 11:05:26CU十二周年纪念徽章
日期:2015-07-20 11:05:27IT运维版块每日发帖之星
日期:2015-07-20 11:05:34操作系统版块每日发帖之星
日期:2015-07-20 11:05:36程序设计版块每日发帖之星
日期:2015-07-20 11:05:40数据库技术版块每日发帖之星
日期:2015-07-20 11:05:432015年辞旧岁徽章
日期:2015-07-20 11:05:44
3 [报告]
发表于 2013-09-17 22:23 |只看该作者
我都拿手。哈哈。板凳坐上。

论坛徽章:
49
15-16赛季CBA联赛之福建
日期:2016-06-22 16:22:002015年亚洲杯之中国
日期:2015-01-23 16:25:12丑牛
日期:2015-01-20 09:39:23未羊
日期:2015-01-14 23:55:57巳蛇
日期:2015-01-06 18:21:36双鱼座
日期:2015-01-02 22:04:33午马
日期:2014-11-25 09:58:35辰龙
日期:2014-11-18 10:40:07寅虎
日期:2014-11-13 22:47:15申猴
日期:2014-10-22 15:29:50摩羯座
日期:2014-08-27 10:49:43辰龙
日期:2014-08-21 10:47:58
4 [报告]
发表于 2013-09-17 23:09 |只看该作者
renxiao2003 发表于 2013-09-17 22:23
我都拿手。哈哈。板凳坐上。


这么厉害?欢迎分享啊,呵呵

论坛徽章:
1
处女座
日期:2013-08-19 15:17:06
5 [报告]
发表于 2013-09-17 23:13 |只看该作者
先后用过cacti、nagois、zabbix,目前在用zabbix。
zabbix的优点是很灵活、图形展现非常不错,配合自定义脚本几乎可以监控任何事情,需要自己设计模版文件、定义graph、screen等。缺点是系统级别报警设置相对比较多,如果不筛选的话报警邮件会很多;并且自定义的项目报警需要自己设置,过程比较繁琐;web监控不能使用模版,只能一个个单独设置,如果web监控较多,设置会耗费不少时间,关键是都是重复劳动!!

论坛徽章:
16
IT运维版块每日发帖之星
日期:2015-10-02 06:20:00IT运维版块每月发帖之星
日期:2015-09-11 19:30:52IT运维版块每周发帖之星
日期:2015-09-11 19:20:31IT运维版块每日发帖之星
日期:2015-08-26 06:20:00每日论坛发贴之星
日期:2015-08-20 06:20:00IT运维版块每日发帖之星
日期:2015-08-20 06:20:002015年辞旧岁徽章
日期:2015-03-03 16:54:15金牛座
日期:2014-05-04 16:58:09双子座
日期:2013-12-17 16:44:37辰龙
日期:2013-11-22 15:20:59狮子座
日期:2013-11-18 22:55:08射手座
日期:2013-11-12 10:54:26
6 [报告]
发表于 2013-09-17 23:15 |只看该作者
本帖最后由 wenhq 于 2013-09-17 23:27 编辑

1.第一个问题,如果说他们的优缺点的话那跟之前那个nagios的帖子不是一样的问题么?

a.nagios 适合监视大量服务器上面的大批服务是否正常, 重点并不在图形化的监控, 其集成的很多功能例如报警;cacti 主要用途还是用来收集历史数据和画图, 所以界面相比要好看一些。
b.nagios 监控的是对服务器的关键服务及进程进行监控。cacti是对流量及主机在线状态监控。
c.ganglia 主要是利用通过XDL(xml的压缩格式)或者XML格式传递监控数据,达到监控效果。其侧重点是系统的性能。gmetad可以部署在集群内任一台节点或者通过网络连接到集群的独立主机,它通过单播路由的方式与gmond通信,收集区域内节点的状态信息,并以XML数据的形式,保存在数据库中。
Gmond监控程序(Ganglia Monitoring Daemon,Gmod)是一个组播守护进程,它运行在每一个被监控的节点上。该程序的安装并不依赖于网络文件系统(NFS文件系统)或者数据库服务器。

Gmond的功能主要以下四项:

1). 监控宿主机状态的改变
2). 报告相关的改变
3). 通过单播或组播来监控ganglia其它节点的状态
4).  对集群状态请求进行应答,该请求通过XML进行描述

集群内的节点,通过运行gmond收集发布节点状态信息,然后gmetad周期性的轮询gmond收集到的信息,然后存入rrd数据库,通过web服务器可以对其进行查询展示
d.由2部分构成,zabbix server与可选组件zabbix agent。一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。
zabbix能监视各种网络参数,保证服务器系统的安全运营;并提供柔软的通知机制以让系统管理员快速定位/解决存在的各种问题

2.ganglia部署比较简单。ganglia依赖的库太多,所以首先要准备好。即先用yum安装依赖库。这样相对简单点。
然后按照手册配置即可。这个软件可以集合nagios等来做为hadoop云平台的监控工具。

论坛徽章:
21
白羊座
日期:2013-08-23 15:49:17金牛座
日期:2013-10-08 17:00:03处女座
日期:2013-10-12 11:54:11CU十二周年纪念徽章
日期:2013-10-24 15:41:34午马
日期:2013-11-27 14:07:21巨蟹座
日期:2013-12-04 10:56:03水瓶座
日期:2013-12-04 15:58:00亥猪
日期:2014-05-24 16:02:3115-16赛季CBA联赛之辽宁
日期:2016-11-07 13:52:53戌狗
日期:2013-08-23 16:15:31白羊座
日期:2013-08-24 21:59:24巨蟹座
日期:2013-08-25 16:34:24
7 [报告]
发表于 2013-09-18 09:56 |只看该作者
1、说说您使用哪些监控软件,各自优缺点是什么
答: 我使用过的监控软件有nagios,cacti,zabbix. 现在用的是zabbix+cacti。

感觉cacti安装配置和使用最简单,现在的CactiEZ安装更是简单,并安装了所有的插件,阈值,阈值,存活性。。都有。大家可以通过cactiusers.org 获得。

优点:
        1)强大的图表功能。
        2)树图设置自由度高,可以调节经常看的图放在前面。
        3)用户权限设置细。

缺点:
        1)检验的频率是默认情况下5分钟。增加频率导致缺失的数据和错误的结果。没有zabbix好。
        2)web界面设置有时候需要找一会。


nagios:

优点:
        1)开源
        2)易用的web前端
        3)调试插件是适度简单
        4)适合大型网络
        5)报警设置多样性
缺点:

        1)配置复杂
        2)插件的易用性不好,至少我感觉没有cacti的好用。
        3)初学者投入的时间比较大

zabbix:

优点:
        1)支持多平台的监控软件
        2)功能强大,监控灵活,报警灵活
        3)支持分布式
        4)自带画图功能,得到的数据可以绘成图形
        5)全web管理。自带key
        6)同时支持调用脚本。很方便
        7)zabbix 支持5000台机器的监控(官方数据)

缺点:

        1)批量修改不方便
        2)中文资料少
        3)画图没cacti好

2、您是否使用过Ganglia,说说您的部署和运营经验
答:没用过。略。

论坛徽章:
0
8 [报告]
发表于 2013-09-18 10:09 |只看该作者
munin的默默飘过……

论坛徽章:
0
9 [报告]
发表于 2013-09-18 11:14 |只看该作者
ganglia没用过

07年开始一直在用nagios+cacti,几乎满足了所有的监控需求,个人没用过zabbix,但看了好多文档都没找出有什么事情是zabbix能做但nagios做不了的

论坛徽章:
27
CU大牛徽章
日期:2013-03-13 15:15:08CU大牛徽章
日期:2013-05-20 10:46:38CU大牛徽章
日期:2013-05-20 10:46:44CU大牛徽章
日期:2013-09-18 15:24:09CU大牛徽章
日期:2013-09-18 15:24:20CU大牛徽章
日期:2013-09-18 15:24:25CU大牛徽章
日期:2013-09-18 15:24:31CU大牛徽章
日期:2013-09-18 15:24:36CU大牛徽章
日期:2013-09-18 15:24:41CU大牛徽章
日期:2013-09-18 15:24:48CU大牛徽章
日期:2013-09-18 15:24:52处女座
日期:2013-09-27 17:45:43
10 [报告]
发表于 2013-09-18 13:12 |只看该作者
1、说说您使用哪些监控软件,各自优缺点是什么
答:1)mrtg是我第一个安装和使用的监控软件,
           优点:能够监控各自设备的流量包括各种路由和交换机,很多IDC和CDN服务商使用它来统计流量和计费
           缺点:只支持snmp协议,不能够自定义监控项,只能看到网路相关的数据
      2)ganglia是我第二个使用的监控软件,使用了3年时间
           优点:利用多播在同一个局域网内集合所有机器的监控信息,服务端只要向一台监控机请求即可,服务端压力小,能够监控大量服务器,能够监控多个ganglia集群,形成树状结构,理论上可以监控无穷台机器。可以自定义监控项,监控展示有表格和图像两种,支持手机版。
           缺点: 没有报警机制,出现问题不能够及时报警
     3)zabbix是我用过的定制化最高的监控软件
          优点:可以自由定制监控项,报警阈值,报警方式。监控项非常全面
          缺点:服务端负载很高,单台服务端支持的客户端少。

2、您是否使用过Ganglia,说说您的部署和运营经验
我用过ganglia3年了,对ganglia了解挺深,
ganglia的部署可以见我的博文:http://blog.chinaunix.net/uid-11121450-id-3147002.html
部署时在服务端最麻烦的是按照rrdtool,安装rrdtool最好使用rpm安装,客户端不依赖任何软件,编译好可以拷贝到相同系统的另外的机器上使用。
对于ganglia可以支持自己定义监控项,例如我写过监控mysql进程数,
gmetric -nmysql_process_num -v`mysql -e "show processlist"|wc -l` -tuint16 -u个
这个脚本只需要放到crontab 中1分钟执行一次,gmetric就会把数据发到gmond中加入到监控数据项中。在后台就会出现对应的监控曲线图。
ganglia有一个bug,有时会一直报错把错误信息写到/var/log/message中,而且写得很快,就会导致系统盘被写满。

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP