免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
123下一页
最近访问板块 发新帖
查看: 31249 | 回复: 27

【大话IT】我们为什么要自主开发监控系统?(获奖名单已公布) [复制链接]

论坛徽章:
146
2015年亚洲杯之日本
日期:2015-04-28 13:32:012015年亚洲杯之朝鲜
日期:2015-05-06 10:16:442015年亚洲杯之日本
日期:2015-05-06 10:21:342015年亚洲杯纪念徽章
日期:2015-05-13 17:16:442015亚冠之北京国安
日期:2015-05-13 17:18:292015亚冠之鹿岛鹿角
日期:2015-05-13 17:19:062015亚冠之德黑兰石油
日期:2015-05-27 16:47:402015亚冠之塔什干棉农
日期:2015-05-28 15:24:122015亚冠之卡尔希纳萨夫
日期:2015-06-01 13:52:392015亚冠之柏斯波利斯
日期:2015-06-04 17:37:292015亚冠之阿尔纳斯尔
日期:2015-06-16 11:31:202015亚冠之塔什干火车头
日期:2015-06-23 10:12:33
发表于 2016-09-19 15:49 |显示全部楼层
在本次话题讨论活动中,获得精选图书网友有:
@o枫叶o飘零
@znsk07
@laputa73
@_nosay


请以上获奖者在2016年11月15日前将姓名,公司,职务,行业,电话,邮箱,QQ,地址,所选纪念品,站内短信发送给王楠w_n以便及时给您快递奖品。

发不了站短的,请在原帖下方跟帖留言。

至于QQ现因两个编辑轮番值班登陆,可能会有遗漏的情况,有任何问题请尽量在原帖下方跟帖留言或在站务版块反馈,谢谢!

:因特殊原因,每次活动的获奖者我都会通知各位,如果大家在截止日期之前还未联系到管理员,那么本次活动的得奖资格将被取消,所以请大家及时的与管理员取得联系,谢谢合作!

==============================================================

话题背景:

最近,知乎上偶然看到一贴,有楼主问起,我们为什么要单独开发监控系统?觉得此话题很有意思,援引到咱们论坛,讨论一番。

网上开源的监控系统cacti、Nagios、zabbix和其他商业系统,有什么方面不满足公司的需求?


引用2楼董伟明的回复:

几年前做运维开发的时候, 曾经主导或参与过大概30多个运维自动化的项目, 我觉得自己还算业界人.

你觉得换工作的时候说, xxx我用的挺好和我写了个yyy代替了xxx更能让hr, 领导认可你?

简单地说就是有钱有人有时间. 不自己搞什么是KPI? 不自己搞留着那些什么神奇的运维架构师有什么用? 什么都用开源的, 那些领导们, 架构师们面子多过不去, HR, boss会觉得你有什么用?看人家的tutorial/manual??

美其名曰 1. 这是和我们的业务接轨; 2. 我们自己的东西我们完全可控; 3. 说不定以后还能开源.

为什么这么多公司都有自己号称xxx的项目, 但是基本没有开源? 我想除了知识产权, 怕竞争对手知道自己并会鄙视自己. 还有2个重要的问题, 怕太low放出来被吐槽, 怕被人说抄袭了xxx的思想

额 说的再清楚点, 是他们读不了nagios的源码(运维达到c精通的太少了)

其实放出来, 也没别人用
______________________________

以上纯属负能量, 说点实际的, 我来举例一些和监控有关的场景

1. 系统和公司的SSO(单点登录, 简单的理解就是用你公司的账号登录所有系统)怎么结合, 如何灵活的控制用户访问权限
2. 有很多业务项开源的项目没有给你准备, 你只能定制. 比如你想监控下服务器的负载趋势(好吧你可以让浏览器时常自动刷新nagios页面), 用户实时访问数据(你的一个业务新上线,作为领导你很想让大家让你的boss一起看你带来多大的流量增长吧?), 还有很多的你的业务指标, 而且最变态的, 可能这还和不同的产品线或者项目有关. 你给A项目的人顺便展示B项目的数据, 你觉得A的人愿意看?
3. 看过阿里双十一的销售额的大屏幕没? 好, 我们也可以做一个, 监控所有的想要监控指标, 放在一个监控室, 24个屏幕放一起的大屏. 效果特别好. 本来想放个图片, 想想还是算了. 没经过老东家授权.
4. 让你的监控和你其他的系统结合. 比如出现某种故障, 你就会报警. 当然发个邮件短信啥的就算走自己的sms平台也就是个用nagios的被动检查调接口的问题. 关键是, 有监控的时候要会让系统自己处理- 谁都不希望夜里2点收到报警短信, 然后必须起来看问题这种情况吧?1. 那好监控X出现了问题, 直接graceful的把它从负载均衡上移走. 早上再解决呗. 服务器那么多的, 闲的都生锈了. 2. 监控X出现了问题, 直接切换到一个正常的相同的备用系统上继续用. 还比如资产管理系统, 同步服务器数据.
5. 比如nagios监控, 我要用大量的被动检查脚本检查我的业务, 还经常变动, 有人得专门的负责改, 删脚本. 非常折磨人
6. 说道开源软件, 他的报警误报几率好高, 等你登陆服务器的时候可能问题早就过去了, 我们的监控系统会做系统截图(额 不知道用什么词了), 对相关的数据都收集起来
7. 说点好玩的, 比如你不在公司还没有网, 你想看看什么样的监控指标, 直接发一些暗号的短信给某些号码, 他就会返回给你当前数据
8. caicti的画图也太丑了, 你知道这个世界已经发展的很美好了么? 还是php, 几个运维喜欢php

等等吧, 都想不起来了. 每当要做什么的时候, 我们都义愤填膺的, 因为他有特别多的原因让我们op不满意

那么,除了开源工具灵活性的诟病之外,还有哪些原因是我们自主开发监控系统的原因?


讨论话题:

结合您现有的业务,如何理解监控粒度和深度?



讨论时间:2016年9月19日—10月19日


话题奖励:

话题结束后,我们将选取4个优质回复,各赠送精选图书一本。


=========================================================


燃爆九月!最后折扣来袭!

作为国内最受欢迎的架构师盛会,一年一度的中国系统架构师大会将于10月27-29日在北京万达索菲特大饭店撼世来袭!
大会以"架构创新之路"为主题,云集了国内外顶尖专家,共同探讨云计算和大数据等技术背景下,如何通过架构创新及各种IT新技术来带动企业转型增效。本届大会共设置两个主场分享时段,24个技术交流专场时段;邀请来自互联网、电子商务、金融、电信、政府、行业协会等20多个领域,150多位技术专家及行业领袖来分享他们的经验;并将吸引4000多名系统运维、架构师、及各种企业的IT决策人士参会,为他们提供最具价值的交流平台


【大会详情】


官网链接:http://sacc.it168.com/

欢迎扫码关注SACC官方微信,获取最新信息!






论坛徽章:
39
双子座
日期:2014-08-06 17:37:19极客徽章
日期:2016-12-07 14:03:402017金鸡报晓
日期:2017-01-10 15:13:292017金鸡报晓
日期:2017-02-08 10:39:4215-16赛季CBA联赛之新疆
日期:2017-03-24 16:36:1915-16赛季CBA联赛之江苏
日期:2017-04-26 17:19:08黑曼巴
日期:2018-03-07 18:56:5615-16赛季CBA联赛之八一
日期:2018-03-09 10:44:1015-16赛季CBA联赛之江苏
日期:2018-03-12 15:12:1915-16赛季CBA联赛之青岛
日期:2018-03-16 09:13:0515-16赛季CBA联赛之山东
日期:2018-04-27 18:23:0515-16赛季CBA联赛之新疆
日期:2018-05-04 11:29:30
发表于 2016-09-19 23:50 |显示全部楼层
本帖最后由 o枫叶o飘零 于 2016-10-09 15:41 编辑

先占坑,想好再发
第一  我们需要了解监控系统对于每个公司的重要性。
如果公司不重视监控这一块、那就只能用开源的监控系统或者甚至不做监控。(对于运维来讲,就算公司不重视、但是你还是必须得把自己的职责做好。)
如果用开源的监控系统(nagios、cacti、zabbix、ganglia)等等、只能做些基本监控:cpu、内存、硬盘... 如果想定制化监控,还得按照它们的格式要求、自己写监控插件。。
如果自己写监控插件,还不如直接写一个监控脚本放进服务器里面跑就行了。
而且用开源的监控系统就注定了对网络环境的限制。比如说  多机房多机器,用nagios就不辣麽好做分布式,而且nagios是没有自带proxy的。这时候用zabbix就比较方便....
所以针对特定的环境,只能用特定的开源监控系统

第二  个人觉得,在有条件的情况下,还是需要自主开发监控系统。自主开发监控系统可以结合公司的业务进行针对性的监控。
就比如有多个nginx、多个tomcat时,自主开发监控可以监控每一个节点
如果用开源的监控系统,一般就1-2个运维负责整个环境。
而自主开发监控系统把权限整合一下,就能把责任分摊到每一个运维上面,使得每一个步骤更详细,更流程化。

论坛徽章:
0
发表于 2016-09-20 10:23 |显示全部楼层
先占个坑

首先如果仅仅是用于linux运维 也就是如果你的监控系统仅需要机器指标 那么开源产品随便用 反正就那么十几个到几十个指标 你就算有十万台服务器 分钟级监控 也还是可以毫无压力搞定的,但是吧,很多时候还有监控服务器上的进程,甚至还有些业务数据或者说是进程性能数据。这样现有开源就有点费劲了。之前我们用opentsdb,然后发现数据每天3.5g,查询聚合数据的时候很慢(因为opentsdb每次从磁盘捞数据)。实在忍不了了,重写。现在每天500g,查询秒级返回。各种报警自行支持。这就是我们写的目的。只因为已有的满足不了并且开源社区的发展速度跟不上公司需求的发展速度。

最后,文无第一的原则,程序员还是有点炫技倾向的。

当然,从私人角度讲,重头解决采集,聚合,存储,同步,报警甚至是智能化,这个过程本身就是一次非常好的学习经历。

论坛徽章:
43
15-16赛季CBA联赛之上海
日期:2020-11-04 09:36:5515-16赛季CBA联赛之北控
日期:2018-10-29 18:20:3415-16赛季CBA联赛之北京
日期:2018-10-06 21:39:5715-16赛季CBA联赛之天津
日期:2018-08-09 10:30:41ChinaUnix元老
日期:2018-08-03 17:26:00黑曼巴
日期:2018-07-13 09:53:5415-16赛季CBA联赛之吉林
日期:2018-03-30 12:58:4315-16赛季CBA联赛之佛山
日期:2017-12-01 10:26:3815-16赛季CBA联赛之上海
日期:2017-11-14 09:20:5015-16赛季CBA联赛之江苏
日期:2019-02-20 09:53:3319周年集字徽章-庆
日期:2019-08-27 13:23:2515-16赛季CBA联赛之广夏
日期:2019-09-03 18:29:06
发表于 2016-09-20 11:15 |显示全部楼层
没用过开源的监控,一般都是用公司整的。

1:真正需要的指标很少。自己整的可以灵活的通知管理人员。
2:太复杂的话,要进行改动挺麻烦。

论坛徽章:
42
19周年集字徽章-周
日期:2019-10-14 14:35:31平安夜徽章
日期:2015-12-26 00:06:30数据库技术版块每日发帖之星
日期:2015-12-01 06:20:002015亚冠之首尔
日期:2015-11-04 22:25:43IT运维版块每日发帖之星
日期:2015-08-17 06:20:00寅虎
日期:2014-06-04 16:25:27狮子座
日期:2014-05-12 11:00:00辰龙
日期:2013-12-20 17:07:19射手座
日期:2013-10-24 21:01:23CU十二周年纪念徽章
日期:2013-10-24 15:41:34IT运维版块每日发帖之星
日期:2016-01-27 06:20:0015-16赛季CBA联赛之新疆
日期:2016-06-07 14:10:01
发表于 2016-09-21 08:53 |显示全部楼层
本帖最后由 laputa73 于 2016-09-22 10:02 编辑

开源的缺点:
一类是自己整合一堆零散方案,比如mrtg/cacti/nagios/statsd/rrd/influxdb等,  整合复杂,运维工作量大。当然也有整合好的版本,比如小米的openfalcon.
一类是一站式打包的系统,比如zabbix/zenoss/ganglia, 功能繁杂,安装部署使用都麻烦,而且二次开发困难, 有门槛。

而且,开源方案,往往不能完全应付实际的需求。比如,对性能、存储、高可用,基本都很少考虑或者兼顾。
比如cacti,底层snmp采集调用系统的snmpget命令实现,这个一旦上量,真不能忍。
如果真的想用好,基本都会对其中的部分或者整个系统进行重构。

这时候,一些偏向底层采集的轻量级开源系统,看起来还是可以考虑整合的。
比如nagios, 默认页面完全无法接受。可以把数据导到mysql/pg,二次开发页面. 告警通知还是可以应付的。
还有collectd这类的主机采集agent.
可是你用过一阵可能就会觉得,好像真正用的都是我自己写的插件啊?

当然所谓自主开发,并不是一切从零开始。
至少操作系统,数据库,存储,webserver这些,还是有开源产品可以选的。
自主开发+整合一些开源组件,只是整合多少的问题。



论坛徽章:
1
2017金鸡报晓
日期:2017-02-08 10:39:42
发表于 2016-09-21 10:35 |显示全部楼层
我们公司就有自己的监控产品,装好了卖给有钱的客户。


那些有钱的客户如银行、证券、通讯,谁在乎这些钱啊?变成成本然后转嫁到消费者身上去。关键是不出错误,不要让他们承担责任。

出了问题,义正严辞的叫系统公司来臭骂一顿,然后责任就是系统公司的。系统公司能接到这些垄断企业业务的,也都是赫赫有名的大公司,这些大公司扯皮和化解问题都有专家团队的。

所以成本不是需要首先考虑的,出错谁来负责才是最重要的。大公司和政府部门一样,四平八稳的干部才能升上去。

反正大公司垄断的是整个社会,为什么要开源,垄断有什么不好啊?这些问题垄断企业里的人是不想知道的。

这里开源的方案我们都不敢提,万一出了问题怎么办?叫John Smith来骂一顿?John Smith有个gmail,他不要你的钱当然也不帮你承担责任高兴回答一下你,不高兴就不理你了 l。没人承担责任的时候,责任就是你的了。

1、绝对是偷工减料造成了系统质量出了问题!
2、负责人是不是拿了红包?
3、一定是贪污了。
4、这和豆腐渣工程不是一样么?
垄断企业的上面都是国家行政机构啊,用OSS,不是找死么?

论坛徽章:
13
15-16赛季CBA联赛之八一
日期:2016-07-08 21:00:1415-16赛季CBA联赛之同曦
日期:2017-02-15 14:26:1515-16赛季CBA联赛之佛山
日期:2017-02-20 14:19:2615-16赛季CBA联赛之青岛
日期:2017-05-07 16:49:1115-16赛季CBA联赛之广夏
日期:2017-07-30 09:13:1215-16赛季CBA联赛之广东
日期:2018-07-05 22:34:3615-16赛季CBA联赛之江苏
日期:2018-09-03 12:10:2115-16赛季CBA联赛之上海
日期:2018-09-25 03:49:2215-16赛季CBA联赛之广东
日期:2018-09-25 04:09:12
发表于 2016-09-21 13:34 |显示全部楼层
不管用开源还是自己开发的模块,用到一定阶段,就会发现有需要改进或扩展的地方。
我自己觉得,有把握自己开发出来的尽量不要用开源,否则坑出来了,连坑在哪可能都不知道,自己开发前期可能慢一点,后期维护会得心应手的多(不过要保证自己不是坑货才行)。
对于小公司来说,成本有限,又不知道你的深浅,而且你也总有离开的一天,所以往往更偏向直接用开源的东西;财大气粗的大公司,才更有可能选择从头开发,但最终的效果往往也一般,因为大公司人多,关系也比小公司更复杂,开发出来的东西,思想不够凝聚,似马非马。
一流的软件,肯定是几个惺惺相惜的人做出来的,在公司很难找到这样的几个人,要看缘分

评分

参与人数 1信誉积分 +30 收起 理由
gyd1 + 30 很给力!

查看全部评分

论坛徽章:
2
2015年迎新春徽章
日期:2015-03-12 10:39:39IT运维版块每日发帖之星
日期:2015-10-10 06:20:00
发表于 2016-09-21 17:49 |显示全部楼层
这软件系统,就是一个坑

评分

参与人数 1信誉积分 +30 收起 理由
gyd1 + 30

查看全部评分

论坛徽章:
0
发表于 2016-09-23 11:18 |显示全部楼层
看了大神的回复 我们纯运维 不会写代码的运维人员无可奈何啊

论坛徽章:
381
CU十二周年纪念徽章
日期:2014-01-04 22:46:58CU大牛徽章
日期:2013-03-13 15:32:35CU大牛徽章
日期:2013-03-13 15:38:15CU大牛徽章
日期:2013-03-13 15:38:52CU大牛徽章
日期:2013-03-14 14:08:55CU大牛徽章
日期:2013-04-17 11:17:19CU大牛徽章
日期:2013-04-17 11:17:32CU大牛徽章
日期:2013-04-17 11:17:37CU大牛徽章
日期:2013-04-17 11:17:42CU大牛徽章
日期:2013-04-17 11:17:47CU大牛徽章
日期:2013-04-17 11:17:52CU大牛徽章
日期:2013-04-17 11:17:56
发表于 2016-09-26 19:14 |显示全部楼层
众口难调,虽然已经有很多开源的监控系统,比如cacti、Nagios、zabbix,但是,工具都有适用的问题,不能说一套系统能适应所有系统监控任务。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP