免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: 红豆抹茶

12306订票系统空调故障暂停售票事有蹊跷 机房常见故障分析(获奖名单已公布-1-24) [复制链接]

论坛徽章:
0
发表于 2012-12-26 17:16 |显示全部楼层
回复 29# arron刘


    淫家贴倒布都敢这么干,有啥不敢想的。

论坛徽章:
29
技术图书徽章
日期:2013-09-02 19:59:502015元宵节徽章
日期:2015-03-06 15:51:332015小元宵徽章
日期:2015-03-06 15:57:20操作系统版块每日发帖之星
日期:2015-08-16 06:20:002015七夕节徽章
日期:2015-08-21 11:06:17操作系统版块每日发帖之星
日期:2015-09-21 06:20:002015亚冠之水原三星
日期:2015-10-30 00:06:07数据库技术版块每日发帖之星
日期:2015-12-24 06:20:0015-16赛季CBA联赛之上海
日期:2016-01-07 10:32:07操作系统版块每日发帖之星
日期:2016-01-08 06:20:00操作系统版块每日发帖之星
日期:2016-05-18 06:20:00IT运维版块每日发帖之星
日期:2016-07-23 06:20:00
发表于 2012-12-26 17:30 |显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
3
季节之章:冬
日期:2015-01-15 10:36:57IT运维版块每日发帖之星
日期:2015-09-24 06:20:00IT运维版块每日发帖之星
日期:2015-10-24 06:20:00
发表于 2012-12-26 17:33 |显示全部楼层
本帖最后由 ylky_2000 于 2013-01-04 11:40 编辑

太巧了,刚刚票系统去掉什么了保险,票的计算公式要重新定义,购票系统就恰当的时候挂了。。。。
1、机房内一般遇见的故障是什么?你是如何解决的?面对12306这样的空调故障问题你怎么看?
一般遇到的主要故障,电源、空调、和网络故障。
电源故障:服务器和网路设备采用冗余电源,电源接入采用双回路设计,简单的说部署两套电源系统,实时在线,并配备ups在线式电源;
空调故障:部署两个空调系统,一般机房需要5p空调,这个要根据面积和机器的发热量,部署防静电地板,并要能通风;
网络故障:这个其实是最常见的故障,做好网络设计、冗余设备、线路标签、规划好机柜、防火墙防攻击、设备状态、流量监控等等。
机房里要有温湿记监控、有语音报警拨号系统,当温度过高或者市电跳闸,有问题的自动拨号到固定的手机或者电话,第一时间通知维护人员。
对于12306空调故障看法。没有实地考察过,机房温度到底多高,有几台空调,不好发表意见。不过觉得因为空调问题出现长时间中断系统确实少见,难道只有一个数据库服务器、数据库集群、高可用和cdn都成了浮云?都放在一个机房?个人觉得空调故障只是一个托词。
2、众所周知,机房中的空调供电等设施都有监控设备,那么如何提高监控设备的监控力度和准确性?
重点系统,还是要定制开发响应的监控系统,开源的监控系统如cacti、nagios等也有,毕竟本地化做的有限,也没有那个领导愿意把监控赌在开源监控系统上。就算开源的很牛逼了,有响应的真正的专业人员跟进?不要被市面上的专家忽悠了。。。。
要建立运维知识案例库,毕竟大型系统运维故障没有太多可参考的案例,需要靠团队积累。包括人力资源的积累。
3、支招12306 设计一套你认为最合理的数据中心架构?
个人觉得一套最合理的,就是所有的东西必须有冗余架构,门、电源、水、监控系统、服务器、空调、网络、专业人员、作业流程等等,机房要分布式,地震自然灾害不可避免,总之一切不要在一棵树上吊死。
今年流行一句话,觉得在这里也使用,不怕神一样的对手,就怕猪一样的队友。要有经过严格审查的运维制度,责任落实到团队。千金重担人人挑,个个头上有指标,让混日子的人见鬼去。

2013-1-3
今天路过南站,特意去查看了下广珠城轨的取票机,非常惊讶的是,票价居然不声不响的涨了。
我之前经常坐的那趟广州到中山北 二等票从之前的25元涨到了40元。非常愤怒,决定改用其他交通工具了。。。
我在想作为经常使用轻轨的老顾客,在这个方面他们信息化也有空白,很多人跟我一样,不知道要涨价,一点预兆都没有。是否启用网络调查问卷?专家给出合理票价的依据,我想之前25元的价位并不是随便定出来的吧?一年时间不到居然涨成这样?莫非志军同志走了,有更大的鱼来了?手机短信通知、邮件提前通知等等呢?见过一个人没有带够钱,而耽误行程的,因为涨的厉害啊。

刚收到腾讯新闻弹出页,三星因为价格垄断罚款3点多个亿,我想这样的乱无依据的涨价是否也属于垄断,寡头?

论坛徽章:
0
发表于 2012-12-26 17:47 |显示全部楼层
回复 29# arron刘


    玩笑话,勿当真哈。。

论坛徽章:
0
发表于 2012-12-27 08:58 |显示全部楼层
本帖最后由 starggw 于 2012-12-27 15:43 编辑

1、机房内一般遇见的故障是什么?你是如何解决的?面对12306这样的空调故障问题你怎么看?

1.1
机房内一般是网站相关设备的硬件故障较多。其次是人为的一些误操作。IDC基础设施,比如制冷/电力等出问题较少,但只要一出问题,这个影响就是大范围的。当然,还有一些匪夷所思的其他偶发故障。

1.2 怎么解决
一般故障,比如服务器/负载设备等,比如磁盘坏道,I/O异常情况下,在应用层面应该做到自动剔除出错主机;而在设备层面通过监控,自动告警,及早发现及早维修,让第一种情况发生的概率减到很小。

人为操作失误,比如插错网线导致网络环路了,误拔电源线了。。。。 悲剧,迟早总会很惨 很惨的 发生! 怎么样尽量避免呢? 对于现场操作的人员,一定要把标准操作流程培训到位。操作前,确保做到要做的事情有预案。重要的变更,已经通告相关人员。如果是让他人操作,要让对方准确的接受操作的消息。现场操作过程中,尽量保证有2个人在场,一人操作,一人监督。操作完成后,更新操作结果给相关人员。

对于基础设施的故障规避,主要做好维护和监控,还有应急预案吧,定期还要进行演练。

1.3
面对12306这样的空调故障问题你怎么看?
IDC内制冷设备是有监控和冗余的,而且有相应的应急机制。即使故障报警监控消息没人收到,常规的机房也都有人定期(3-4小时内)巡检吧 。个人推断,如果真是空调的问题
那么,空调报警/制冷冗余机制/人员巡检/应急预案,12306把这一系列环节统统都克服了,最终做到把机房环境温度升高到60度以上,服务器盖板差不多可以烤肉的情况,真心不容易啊。
也可能,12306的IDC 对于成本非常看重,基本上没有这些保障环节。。。。


2、众所周知,机房中的空调供电等设施都有监控设备,那么如何提高监控设备的监控力度和准确性?

检查机房设备和监控系统,看有无设备未被监控到。检查监控项,确认是否有监控项遗漏。检查监控阀值,提高监控敏感度。比如机房湿度,正常值在40-60%之间,而报警阀值,有没有设置范围过大导致未触发报警但可能已影响到设备,比如设置到 20-80%就不合理了。还可以增加报警信息告知渠道,比如 电话机器人/短信/IM/邮件/人工值守监控等 报警方式

进行应急演练,找出故障发生时,监控系统的是否收集到了设施的报警信息,报警阀值是否设置准确,报警信息有没有准确的告知外界等等,找出遗漏环节,进行整改。
       


3、支招12306 设计一套你认为最合理的数据中心架构?
12306把握着屌丝们/叔叔们过年肥家的命运,绝对是不允许挂掉的,否则,我们从感情上不能接受。
从数据中心架构考虑的话。首先,要做到多机房部署,屌丝们买票的流量,可以根据情况在多机房间切换(包括本次空调时间)。保证在某个机房整体挂掉的时候,其他机房可以承载业务。要做好机房间的数据备份。

另外,在具体的某个机房内,IDC的电力/制冷/监控/门禁/安保等,都需要完备到位,并定期演练。IDC内的维护人员,需要按计划做变更,变更前/变更时要有double check .并及时知会相关人员。IDC内的操作,需要有例行的标准流程。大家都按照流程来处理,避免突发的/无计划的变更。

如果网站规模只在一个IDC内,那么,这个IDC内的电力/制冷/监控/门禁/安保这些项目都要关注的,需要和IDC接口人和值班人员有畅通的联系渠道。确保任何信息及时获取,并能做到快速响应。

论坛徽章:
0
发表于 2012-12-27 09:36 |显示全部楼层
1、机房内一般遇见的故障是什么?你是如何解决的?面对12306这样的空调故障问题你怎么看?
最常见的应该是电源供应问题吧。解决之道无非就是UPS+UPS。12306不是耗资多少多少亿么,还除这样的空调故障?接着继续忽悠P民吧,反正他们是不会被和谐的
2、众所周知,机房中的空调供电等设施都有监控设备,那么如何提高监控设备的监控力度和准确性?
高配置设备+人员每天定时亲临巡检
3、支招12306 设计一套你认为最合理的数据中心架构?
尼玛的自己做不了给阿里做吧

论坛徽章:
29
技术图书徽章
日期:2013-09-02 19:59:502015元宵节徽章
日期:2015-03-06 15:51:332015小元宵徽章
日期:2015-03-06 15:57:20操作系统版块每日发帖之星
日期:2015-08-16 06:20:002015七夕节徽章
日期:2015-08-21 11:06:17操作系统版块每日发帖之星
日期:2015-09-21 06:20:002015亚冠之水原三星
日期:2015-10-30 00:06:07数据库技术版块每日发帖之星
日期:2015-12-24 06:20:0015-16赛季CBA联赛之上海
日期:2016-01-07 10:32:07操作系统版块每日发帖之星
日期:2016-01-08 06:20:00操作系统版块每日发帖之星
日期:2016-05-18 06:20:00IT运维版块每日发帖之星
日期:2016-07-23 06:20:00
发表于 2012-12-27 10:17 |显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
29
技术图书徽章
日期:2013-09-02 19:59:502015元宵节徽章
日期:2015-03-06 15:51:332015小元宵徽章
日期:2015-03-06 15:57:20操作系统版块每日发帖之星
日期:2015-08-16 06:20:002015七夕节徽章
日期:2015-08-21 11:06:17操作系统版块每日发帖之星
日期:2015-09-21 06:20:002015亚冠之水原三星
日期:2015-10-30 00:06:07数据库技术版块每日发帖之星
日期:2015-12-24 06:20:0015-16赛季CBA联赛之上海
日期:2016-01-07 10:32:07操作系统版块每日发帖之星
日期:2016-01-08 06:20:00操作系统版块每日发帖之星
日期:2016-05-18 06:20:00IT运维版块每日发帖之星
日期:2016-07-23 06:20:00
发表于 2012-12-27 11:42 |显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
0
发表于 2012-12-27 12:23 |显示全部楼层
不是技术的问题,而是体制问题。

论坛徽章:
0
发表于 2012-12-27 12:38 |显示全部楼层
讨论话题:1、机房内一般遇见的故障是什么?你是如何解决的?面对12306这样的空调故障问题你怎么看?
               2、众所周知,机房中的空调供电等设施都有监控设备,那么如何提高监控设备的监控力度和准确性?
               3、支招12306 设计一套你认为最合理的数据中心架构?
机房内的故障主要包括:物理环境故障、和IT设备故障以及链路故障以及病毒和攻击。
物理环境故障包括:1、电:电压不稳,或者市电中断            电压不稳通过采用UPS供电,UPS供电也要选择合适的方案才能满足他的高可靠性。 当UPS出现故障时,系统可以直接切入市电运行。  市电问题,除了可                 以用UPS外,还需要保证从两个不同的变压器接入市电。
                  2、温度、湿度            这个主要通过机房专业空调来保障。同样也要选择合适的方案满足高可用,比如模块化的,分布式的 多台空调并机等扽。   同时可以通过空调的一些智能解决方案保证室内各个点的温度基本一致,而不会出现局部过热现象。在设计时充分考虑设备的特殊性以及未来的扩展性,为未来留有余量。
                  3、防雷、静电、零地电压等等,这些都会引起问题。按照机房施工标准去做可以解决相关问题。
                   4、其它突发事件,如空调漏水 ,这个可以通过配置相应的监控解决;非机房人员进入盗窃,破坏等,可以通过安保健康解决。 机房失火可以通过一些消防监控措施进行监控 。

总之以上这些环境故障,如果他按照国标来做,他就不应该出问题,起码不应该出这么大的问题。               总结他的问题,就是没有按照机房标准来做。这么重要的机房,应该按照A级标准来建,如果资金有问题,最少不低于B级标准。 以他目前的情况来看,以及他公布的理由,C级标准都不符合。


就说空调故障:首先对于这么重要的机房,应该设置智能的监控和报警设施,温度过热应提前报警,而不是到设备停了不能运作了才能发现。就算他用的刀片,如果温度异常提早报警,到抢修完成过程中,还是能坚持一会的不会立马就不行。其次,他的空调不应该是一组,所以不存在空调同时坏,如果空调不同时坏,最多温度会上升,但不应该这么快。如果温度上身这么快,说明他的余量设计不足,到有大量反问的时候还会出现温度立马上升问题。而且可以通过关闭其它不重要的系统来保证定订票系统的运行。最后就是管理制度不完善,设置专门的值班人员,和巡检人员,周期性察看机房实际运行情况。在此,应该有专门的单位对机房的设备进行保养和维护。很多问题在另行检查中应该能发现。如果是空调故障,这么重要的机房,维护单位需要有空调的重要部件的现场备件,出现问题,几个小时内就能换上。
他的问题估计是个综合问题,在我们假定他确实是空调问题的前提下。他的机房散热和风道以及设备摆设,可能都存在问题。不能单纯的是空调设备问题,我觉得是他的这整套系统都有问题。

IT设备故障:能想到的问题就是 采用高可用设备,如用小机或者大型机   或者采用高可用集群 或者HA等等多种方式来应对设备故障

链路故障,就是采用冗余方式解决,通信链路采用多运营商接入,链路负载均衡 。  物理链路采用多备份链路。

病毒和攻击:在架构上,按照安全规范,设立边界,并对边界做好防护。什么IDS,IPS,防火墙 ,防病毒软件。当然其它就是通过有效的管理,减少这些事件发生。工作按照标准流程来。

所有以上设备和方案选择靠普的最重要。

2、众所周知,机房中的空调供电等设施都有监控设备,那么如何提高监控设备的监控力度和准确性?

设备加人员保证准确性。总结监控软件的特性,熟悉报警规律,再加人员的巡逻补充,可以提高监控力度和准确性。好的管理制度和管理方法真的很重要。

3、支招12306 设计一套你认为最合理的数据中心架构?
最少是两地两中心的,应用级的容灾,最好是两地三中心

     
                  
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP