Chinaunix

标题: 12306订票系统空调故障暂停售票事有蹊跷 机房常见故障分析(获奖名单已公布-1-24) [打印本页]

作者: 红豆抹茶    时间: 2012-12-26 10:16
标题: 12306订票系统空调故障暂停售票事有蹊跷 机房常见故障分析(获奖名单已公布-1-24)
获奖名单已公布,详情请看:http://bbs.chinaunix.net/thread-4065463-1-1.html

12月24日下午,铁路网上售票系统“12306”发公告称“因硬件设备故障,正组织抢修,暂停互联网售票服务”。稍后又发布公告表示“因空调设备故障,经抢修,互联网订票已恢复”。听起来也许不可思议,但空调设备故障,居然逼停了铁道部的网上售票系统“12306”网站。今天12306又罢工了,有关部门给出的回答依然是空调设备故障。

官方公告:
因机房空调系统故障,正在积极组织抢修。目前暂停互联网售票、退票、改签业务。您可通过电话预订2013年1月6日以内车票,也可在车站售票窗口或代售点购买2013年1月4日以内的车票。退票、改签业务,请您到车站窗口办理。给您带来不便,敬请谅解!2012年12月26日



大家都知道一个网站能够很好的运营数据中心是必不可少的,所以选择合适的服务器很有必要,刀片还是机架都是需要仔细斟酌的。与此同时机房的环境设备(供配电、空调、消防、告警等)也一样影响着系统的运行,一旦出现故障,就会造成数据传输或者存储故障,严重的还会造成机房内服务器、存储等设备报废!所以对于维护数据中心的基础设施来讲,充分和全面了解数据中心设施设备的运行情况是非常重要的。


讨论话题:1、机房内一般遇见的故障是什么?你是如何解决的?面对12306这样的空调故障问题你怎么看?
              2、众所周知,机房中的空调供电等设施都有监控设备,那么如何提高监控设备的监控力度和准确性?
              3、支招12306 设计一套你认为最合理的数据中心架构?

ps:大家注意言辞哦,你们都懂的!

讨论时间:2012.12.26-2013.1.13

活动奖励:最佳交流奖:5名,奖励《六西格玛在IT管理中的应用 》图书一本6其他所有参与,且回复有效的用户均可以获得CU积分20分.


六西格玛作为一种改进业务流程的方法论,在诸多行业迅速得到应用。随着IT业的发展,六西格玛也将很快运用于IT管理的过程中。本书由一个世界级的IT管理服务团队和六西格玛专家组共同编写和审定。对六西格玛和ITIL的涵义、二者结合运用以及在IT和业务活动中的有效利用方蔼作了新的诠释。此外。该书的价值还在于它提供了许多实用的案例,这就为IT管理实践过程中的从业者带来了具有时效性的实证参考。


作者: zongg    时间: 2012-12-26 10:31
1、机房内一般遇见的故障是什么?你是如何解决的?面对12306这样的空调故障问题你怎么看?
无非是电和空调的问题,一般我们的机器是托管在IDC,不用操心.线下有自己的测试机房,有UPS,两个空调24小时跑,温度调到22度左右.
感觉因为空调坏了,12306不能售票,有点假.
2、众所周知,机房中的空调供电等设施都有监控设备,那么如何提高监控设备的监控力度和准确性?
这个不清楚.
3、支招12306 设计一套你认为最合理的数据中心架构?
12306让淘宝做得了,肯定比现在好.
作者: dengbao2001    时间: 2012-12-26 10:55
1、机房内一般遇见的故障是什么?你是如何解决的?面对12306这样的空调故障问题你怎么看?

我们的机房最近遇到一个问题,就是UPS电池老化了,本来应该年初就应该更换电池,但是一直都没更换,最近发生了突然停电,UPS却没法启动,后来检查发现部分电池已经完全没电了

这么大单位空调的问题,咱真不好说。

我们有2个机房,一个机房用普通的空调,随时开着

另外一个机房,有3台专用空调,轮流开着

最重要的是有温度监控,一旦温度超过设定值,马上会报警,这个报警是在保安值班室,红色的警报一响,他们会马上通知IT

2、众所周知,机房中的空调供电等设施都有监控设备,那么如何提高监控设备的监控力度和准确性?

我们机房有温度监控,如上所述

3、支招12306 设计一套你认为最合理的数据中心架构?

12306不缺这点做方案的Money
作者: realmon    时间: 2012-12-26 10:57
分布式,分布式,分布式!
作者: realmon    时间: 2012-12-26 10:58
本帖最后由 realmon 于 2012-12-26 11:01 编辑

耗资xx亿元,分布式计算轻松搞,还怕机房出问题?
再说放长假之前不先检修一下么?
作者: guyeh    时间: 2012-12-26 12:00
12306就是一个技术小白或者技术大牛都搞不明白的事物,不做评论,不能以常理推测。
作者: 枫之歌    时间: 2012-12-26 12:04
1、机房内一般遇见的故障是什么?你是如何解决的?面对12306这样的空调故障问题你怎么看?
最常见的一定是电源供应问题。解决之道无非就是加UPS,但UPS也要是定期检查,有务用UPS。12306这样的空调故障问题不可信,几乎可定为忽悠大众的说法。
2、众所周知,机房中的空调供电等设施都有监控设备,那么如何提高监控设备的监控力度和准确性?
现在的监控准确性已经相当高了,但也会有1%100000的出错几率。高配置设备+人员每天定时亲临巡检更好。
3、支招12306 设计一套你认为最合理的数据中心架构?
给淘宝或者是新浪做吧。
作者: zhaopingzi    时间: 2012-12-26 12:43
绝对是借口,空调坏了,也不能这么长时间不能用
作者: ddd010    时间: 2012-12-26 12:54
1、机房内一般遇见的故障是什么?你是如何解决的?面对12306这样的空调故障问题你怎么看?
前几天机房碰到了电源故障,整个机房罢工。
是不是托词?
辅助设备的监控应该不会同时出问题吧?如果是,那么只能说明这个设备问题太多。采用不合理。
              2、众所周知,机房中的空调供电等设施都有监控设备,那么如何提高监控设备的监控力度和准确性?
我认为,一个是要买合适的。另外一个选择依据是可靠性。。这个肯定是最重要的。。
              3、支招12306 设计一套你认为最合理的数据中心架构?
不懂!
作者: 瀚海书香    时间: 2012-12-26 13:06
回复 1# 红豆抹茶
政府做事的风格岂是我等小民能猜测的

铁路对民间资本开放,12306的问题自然就解决了。。。

   
作者: yifangyou    时间: 2012-12-26 13:09
1、机房内一般遇见的故障是什么?你是如何解决的?面对12306这样的空调故障问题你怎么看?
答:一遍遇见的是
                1)电源问题:电源过载,检修,更换电源设备
                2)网络问题:网络终端,arp攻击,病毒
                3)制冷问题:空调过载,热量交换中断,空调电源中断
解决无论是机柜还是空调都应该是双路电源,这样检修或者中断一路电源不会影响工作。
若是空调坏了,冬天可以采取直接获取外部空气进行降温的方法,需要准备大型抽风机。
热循环中断一般是管道堵塞引起的,需要检查管道。
作者: dengbao2001    时间: 2012-12-26 14:42
到目前为止,故障依旧中
作者: chenyx    时间: 2012-12-26 14:59
怎么又是12306?本来已经快淡出大家的视野了,这个节骨眼上又出现问题了,真是无语啊.

1、机房内一般遇见的故障是什么?你是如何解决的?面对12306这样的空调故障问题你怎么看?
   机房一般故障主要集中在电源以及病毒,恶意攻击方面,电源故障可以通过双路电源+双路ups的方式,一般的网络设备都有双电源的选项,这个很好解决.病毒/恶意攻击的话,只能平时检查的时候多注意了.
   空调故障应该很少见吧,一般的机房都是专业的空调设备,模块化的,单纯的几个制冷模块损坏不应该出现网站公布的那个结果.
2、众所周知,机房中的空调供电等设施都有监控设备,那么如何提高监控设备的监控力度和准确性?
  这个没研究过.设备监控力度以及准确性这个应该是对监控设备本身的要求,质量保证了就没有问题了.
3、支招12306 设计一套你认为最合理的数据中心架构?
  象12306这样的类型,应该学习淘宝的经验,分布式+集群的方式,将大量的访问分布处理,效果肯定比现在好.
作者: 红豆抹茶    时间: 2012-12-26 15:00
不过其实想想也是空调坏了是挺正常的原因,但是三天坏两次就说不过去了。。回复 2# zongg


   
作者: 红豆抹茶    时间: 2012-12-26 15:01
模块化的结构。难道是整个机房的调温系统都怀了?没办法理解啊。仁兄有见过这样的案例么?
chenyx 发表于 2012-12-26 14:59
怎么又是12306?本来已经快淡出大家的视野了,这个节骨眼上又出现问题了,真是无语啊.

1、机房内一般遇见的 ...

作者: chenyx    时间: 2012-12-26 15:02
回复 15# 红豆抹茶


    这个真没见过,即使使用普通的空调系统,也不应该是单个,至少是两个.我的机房很小,也是双空调.
作者: arron刘    时间: 2012-12-26 15:04
12月24日,铁路网上售票系统“12306”发公告称“因硬件设备故障,正组织抢修,暂停互联网售票服务”。12306网站在今天早上再次发出通告称“因机房空调系统故障,正在积极组织抢修。目前暂停互联网售票、退票、改签业务。”要知道这个网站当初花了整整3个亿啊。
作者: chenyx    时间: 2012-12-26 15:04
回复 14# 红豆抹茶


    我也有同感,即使是空调坏了,也不至于这么长时间都解决不了.北方冬天的天气还没有那么热吧,即使没有空调,自然散热也应该能挺住吧
作者: arron刘    时间: 2012-12-26 15:05
炸酱面君:#春运忙,订票难#话说12306的铁路网花了多少钱来着?真是给力啊,这钱都花哪去了?一到大批人开始订票就总是有各种理由崩溃啊,什么人多系统瘫痪这理由人家都不爱用了,直接就空调故障,系统暂停。是不是哪天一只猫感冒都会成为系统暂停的理由了呢?

22分钟前 - 新浪微博 - 评论
星辰VS海沙:12306 花了好几亿天朝币搞出来的系统,因区区一空调系统故障,正在积极组织抢修……这是笑话吗?

25分钟前 - 新浪微博 - 评论
个人电脑杂志:铁道部今天在12306网站上发布一则“关于暂停互联网售票服务的公告”。公告称,因机房空调系统故障,正在积极组织抢修。目前暂停互联网售票、退票、改签业务。-----太厉害了,空调也能导致网站瘫痪。。。。。。网管是体育老师教出来的吧?[查看图片]
26分钟前 - 新浪微博 - 评论
terry-BLOG:12306啊!!网络瘫痪的理由竟然是空调引起的,shit !我的车票啊!

28分钟前 - 新浪微博 - 评论
万国数据:【机房为什么需要空调?】12306官方声称机房的空调频频出问题导致网络售票瘫痪。那么,机房为什么需要空调?这是因为IT硬件会产生大量集中的热量,同时对温度和湿度的变化极其敏感。温度和湿度的轻微浮动,就可能导致系统发生严重问题,轻则系统产生无用信息,重则系统停机。难道12306没有备用空调吗?[查看图片]
29分钟前 - 新浪微博 - 评论
一块肩胛骨:淘宝一天付190亿都没问题,敢问12306一天是收了多少,居然因为空调瘫痪,好高级的理由

29分钟前 - 新浪微博 - 评论
唯一的_唯一:【12306网站暂停售票 源于机房空调又坏了!】元旦小长假将至,12306网站又将面临新一轮的挑战,以往,12306在关键的春运时刻,以瘫痪结尾,被众多网友所诟病。今天12306网站直接发布公告,称由于因机房空调系统故障,正在积极组织抢修。
作者: xjianzy    时间: 2012-12-26 15:21
钱都被贪了呀,哎!!
作者: 北京野狼    时间: 2012-12-26 15:28
年初cu还是那个cu的时候, cu一些神一样的给12306提了些神一样的"技术"方案, 那些方案至今仍然令人疯狂。

至于机房嘛,俺真不懂。
作者: DiDeCrouse    时间: 2012-12-26 15:37
看到这样的解释,呵呵……
作者: loversxyc    时间: 2012-12-26 15:41
瞎扯....

以我头几天的感受,一定是夜里升级失败,不是数据库趴窝了,就是主服务起不来

因为我上周出差的时候,高铁车站的自动售票机系统升级导致网上订票不能取,只有到人工售票窗口去大票,那是7天前,我估计这次是网站系统该升级...一宿没搞好....项目人员亚历山大.....
作者: zongg    时间: 2012-12-26 15:43
红豆抹茶 发表于 2012-12-26 15:00
不过其实想想也是空调坏了是挺正常的原因,但是三天坏两次就说不过去了。。回复 2# zongg


恩,是的,花了3亿,空调说坏就坏,钱都被tan 没了.说不定实际只花了几千万.

空调坏了只是一种说辞,实际上不定是怎么回事呢。
作者: arron刘    时间: 2012-12-26 16:17
其实有人说,,,高铁过年涨价,这几天就不买票了。。。。回复 23# loversxyc


   
作者: llzqq    时间: 2012-12-26 16:23
一定不是空调的问题,只是找个借口罢了。
作者: 智勇双全    时间: 2012-12-26 16:39
本帖最后由 智勇双全 于 2012-12-26 16:40 编辑

回复 1# 红豆抹茶


              1、机房内一般遇见的故障是什么?你是如何解决的?面对12306这样的空调故障问题你怎么看?
                    机房内一般问题常见的有断电、空调故障、UPS故障、小动物咬断线缆、网络接口线路松动等。对于断电和UPS故障问题目前解决方案主要是通过市电加UPS双PDU电源接入。
               机房内至少要放置1台冗余空调。60平机房4台空调,平时主要是3台运行,一台不工作,室温保持在24-26,湿度50%左右。对于温湿度机房内有温感设备,如果出现问题在机房外
               有告警提示音,在控制中心也会收到短信通知。小动物平时加强巡检,每天3次例行检查,登记并且对于通风口及走线边缘有黏鼠贴。
                  话说这个空调问题可能也许应该是个说辞而已,比如我们在受理故障的时候,经常把一些比较不可控的因素拿出来做文章。当然是不是可以再考虑增加3亿投入加强对空调的监控,这就不知道了。。
             2、众所周知,机房中的空调供电等设施都有监控设备,那么如何提高监控设备的监控力度和准确性?
                     监控设备一般机房这块肯定是要布置的,除了通过设备监控,平时也要有巡检措施,人工检查比起监控告警来得直观。特别在大型机房内这个应该要加入更多的人工干预元素。
             3、支招12306 设计一套你认为最合理的数据中心架构?
             数据中心架构可以参考科技网等大型数据中心的架构。话说有钱的机构,不差解决方案。
作者: Hongqiyaodao    时间: 2012-12-26 16:44
提示: 作者被禁止或删除 内容自动屏蔽
作者: arron刘    时间: 2012-12-26 17:07
3亿的监控。。。你也真敢想啊。。 回复 27# 智勇双全


   
作者: arron刘    时间: 2012-12-26 17:08
有什么内部消息么?透漏一下回复 28# Hongqiyaodao


   
作者: zhengb302    时间: 2012-12-26 17:16
回复 29# arron刘


    淫家贴倒布都敢这么干,有啥不敢想的。
作者: Hongqiyaodao    时间: 2012-12-26 17:30
提示: 作者被禁止或删除 内容自动屏蔽
作者: ylky_2000    时间: 2012-12-26 17:33
本帖最后由 ylky_2000 于 2013-01-04 11:40 编辑

太巧了,刚刚票系统去掉什么了保险,票的计算公式要重新定义,购票系统就恰当的时候挂了。。。。
1、机房内一般遇见的故障是什么?你是如何解决的?面对12306这样的空调故障问题你怎么看?
一般遇到的主要故障,电源、空调、和网络故障。
电源故障:服务器和网路设备采用冗余电源,电源接入采用双回路设计,简单的说部署两套电源系统,实时在线,并配备ups在线式电源;
空调故障:部署两个空调系统,一般机房需要5p空调,这个要根据面积和机器的发热量,部署防静电地板,并要能通风;
网络故障:这个其实是最常见的故障,做好网络设计、冗余设备、线路标签、规划好机柜、防火墙防攻击、设备状态、流量监控等等。
机房里要有温湿记监控、有语音报警拨号系统,当温度过高或者市电跳闸,有问题的自动拨号到固定的手机或者电话,第一时间通知维护人员。
对于12306空调故障看法。没有实地考察过,机房温度到底多高,有几台空调,不好发表意见。不过觉得因为空调问题出现长时间中断系统确实少见,难道只有一个数据库服务器、数据库集群、高可用和cdn都成了浮云?都放在一个机房?个人觉得空调故障只是一个托词。
2、众所周知,机房中的空调供电等设施都有监控设备,那么如何提高监控设备的监控力度和准确性?
重点系统,还是要定制开发响应的监控系统,开源的监控系统如cacti、nagios等也有,毕竟本地化做的有限,也没有那个领导愿意把监控赌在开源监控系统上。就算开源的很牛逼了,有响应的真正的专业人员跟进?不要被市面上的专家忽悠了。。。。
要建立运维知识案例库,毕竟大型系统运维故障没有太多可参考的案例,需要靠团队积累。包括人力资源的积累。
3、支招12306 设计一套你认为最合理的数据中心架构?
个人觉得一套最合理的,就是所有的东西必须有冗余架构,门、电源、水、监控系统、服务器、空调、网络、专业人员、作业流程等等,机房要分布式,地震自然灾害不可避免,总之一切不要在一棵树上吊死。
今年流行一句话,觉得在这里也使用,不怕神一样的对手,就怕猪一样的队友。要有经过严格审查的运维制度,责任落实到团队。千金重担人人挑,个个头上有指标,让混日子的人见鬼去。

2013-1-3
今天路过南站,特意去查看了下广珠城轨的取票机,非常惊讶的是,票价居然不声不响的涨了。
我之前经常坐的那趟广州到中山北 二等票从之前的25元涨到了40元。非常愤怒,决定改用其他交通工具了。。。
我在想作为经常使用轻轨的老顾客,在这个方面他们信息化也有空白,很多人跟我一样,不知道要涨价,一点预兆都没有。是否启用网络调查问卷?专家给出合理票价的依据,我想之前25元的价位并不是随便定出来的吧?一年时间不到居然涨成这样?莫非志军同志走了,有更大的鱼来了?手机短信通知、邮件提前通知等等呢?见过一个人没有带够钱,而耽误行程的,因为涨的厉害啊。

刚收到腾讯新闻弹出页,三星因为价格垄断罚款3点多个亿,我想这样的乱无依据的涨价是否也属于垄断,寡头?

作者: 智勇双全    时间: 2012-12-26 17:47
回复 29# arron刘


    玩笑话,勿当真哈。。
作者: starggw    时间: 2012-12-27 08:58
本帖最后由 starggw 于 2012-12-27 15:43 编辑

1、机房内一般遇见的故障是什么?你是如何解决的?面对12306这样的空调故障问题你怎么看?

1.1
机房内一般是网站相关设备的硬件故障较多。其次是人为的一些误操作。IDC基础设施,比如制冷/电力等出问题较少,但只要一出问题,这个影响就是大范围的。当然,还有一些匪夷所思的其他偶发故障。

1.2 怎么解决
一般故障,比如服务器/负载设备等,比如磁盘坏道,I/O异常情况下,在应用层面应该做到自动剔除出错主机;而在设备层面通过监控,自动告警,及早发现及早维修,让第一种情况发生的概率减到很小。

人为操作失误,比如插错网线导致网络环路了,误拔电源线了。。。。 悲剧,迟早总会很惨 很惨的 发生! 怎么样尽量避免呢? 对于现场操作的人员,一定要把标准操作流程培训到位。操作前,确保做到要做的事情有预案。重要的变更,已经通告相关人员。如果是让他人操作,要让对方准确的接受操作的消息。现场操作过程中,尽量保证有2个人在场,一人操作,一人监督。操作完成后,更新操作结果给相关人员。

对于基础设施的故障规避,主要做好维护和监控,还有应急预案吧,定期还要进行演练。

1.3
面对12306这样的空调故障问题你怎么看?
IDC内制冷设备是有监控和冗余的,而且有相应的应急机制。即使故障报警监控消息没人收到,常规的机房也都有人定期(3-4小时内)巡检吧 。个人推断,如果真是空调的问题
那么,空调报警/制冷冗余机制/人员巡检/应急预案,12306把这一系列环节统统都克服了,最终做到把机房环境温度升高到60度以上,服务器盖板差不多可以烤肉的情况,真心不容易啊。
也可能,12306的IDC 对于成本非常看重,基本上没有这些保障环节。。。。


2、众所周知,机房中的空调供电等设施都有监控设备,那么如何提高监控设备的监控力度和准确性?

检查机房设备和监控系统,看有无设备未被监控到。检查监控项,确认是否有监控项遗漏。检查监控阀值,提高监控敏感度。比如机房湿度,正常值在40-60%之间,而报警阀值,有没有设置范围过大导致未触发报警但可能已影响到设备,比如设置到 20-80%就不合理了。还可以增加报警信息告知渠道,比如 电话机器人/短信/IM/邮件/人工值守监控等 报警方式

进行应急演练,找出故障发生时,监控系统的是否收集到了设施的报警信息,报警阀值是否设置准确,报警信息有没有准确的告知外界等等,找出遗漏环节,进行整改。
       


3、支招12306 设计一套你认为最合理的数据中心架构?
12306把握着屌丝们/叔叔们过年肥家的命运,绝对是不允许挂掉的,否则,我们从感情上不能接受。
从数据中心架构考虑的话。首先,要做到多机房部署,屌丝们买票的流量,可以根据情况在多机房间切换(包括本次空调时间)。保证在某个机房整体挂掉的时候,其他机房可以承载业务。要做好机房间的数据备份。

另外,在具体的某个机房内,IDC的电力/制冷/监控/门禁/安保等,都需要完备到位,并定期演练。IDC内的维护人员,需要按计划做变更,变更前/变更时要有double check .并及时知会相关人员。IDC内的操作,需要有例行的标准流程。大家都按照流程来处理,避免突发的/无计划的变更。

如果网站规模只在一个IDC内,那么,这个IDC内的电力/制冷/监控/门禁/安保这些项目都要关注的,需要和IDC接口人和值班人员有畅通的联系渠道。确保任何信息及时获取,并能做到快速响应。
作者: wsxedcer    时间: 2012-12-27 09:36
1、机房内一般遇见的故障是什么?你是如何解决的?面对12306这样的空调故障问题你怎么看?
最常见的应该是电源供应问题吧。解决之道无非就是UPS+UPS。12306不是耗资多少多少亿么,还除这样的空调故障?接着继续忽悠P民吧,反正他们是不会被和谐的
2、众所周知,机房中的空调供电等设施都有监控设备,那么如何提高监控设备的监控力度和准确性?
高配置设备+人员每天定时亲临巡检
3、支招12306 设计一套你认为最合理的数据中心架构?
尼玛的自己做不了给阿里做吧
作者: Hongqiyaodao    时间: 2012-12-27 10:17
提示: 作者被禁止或删除 内容自动屏蔽
作者: Hongqiyaodao    时间: 2012-12-27 11:42
提示: 作者被禁止或删除 内容自动屏蔽
作者: OKatCU    时间: 2012-12-27 12:23
不是技术的问题,而是体制问题。
作者: xueni    时间: 2012-12-27 12:38
讨论话题:1、机房内一般遇见的故障是什么?你是如何解决的?面对12306这样的空调故障问题你怎么看?
               2、众所周知,机房中的空调供电等设施都有监控设备,那么如何提高监控设备的监控力度和准确性?
               3、支招12306 设计一套你认为最合理的数据中心架构?
机房内的故障主要包括:物理环境故障、和IT设备故障以及链路故障以及病毒和攻击。
物理环境故障包括:1、电:电压不稳,或者市电中断            电压不稳通过采用UPS供电,UPS供电也要选择合适的方案才能满足他的高可靠性。 当UPS出现故障时,系统可以直接切入市电运行。  市电问题,除了可                 以用UPS外,还需要保证从两个不同的变压器接入市电。
                  2、温度、湿度            这个主要通过机房专业空调来保障。同样也要选择合适的方案满足高可用,比如模块化的,分布式的 多台空调并机等扽。   同时可以通过空调的一些智能解决方案保证室内各个点的温度基本一致,而不会出现局部过热现象。在设计时充分考虑设备的特殊性以及未来的扩展性,为未来留有余量。
                  3、防雷、静电、零地电压等等,这些都会引起问题。按照机房施工标准去做可以解决相关问题。
                   4、其它突发事件,如空调漏水 ,这个可以通过配置相应的监控解决;非机房人员进入盗窃,破坏等,可以通过安保健康解决。 机房失火可以通过一些消防监控措施进行监控 。

总之以上这些环境故障,如果他按照国标来做,他就不应该出问题,起码不应该出这么大的问题。               总结他的问题,就是没有按照机房标准来做。这么重要的机房,应该按照A级标准来建,如果资金有问题,最少不低于B级标准。 以他目前的情况来看,以及他公布的理由,C级标准都不符合。


就说空调故障:首先对于这么重要的机房,应该设置智能的监控和报警设施,温度过热应提前报警,而不是到设备停了不能运作了才能发现。就算他用的刀片,如果温度异常提早报警,到抢修完成过程中,还是能坚持一会的不会立马就不行。其次,他的空调不应该是一组,所以不存在空调同时坏,如果空调不同时坏,最多温度会上升,但不应该这么快。如果温度上身这么快,说明他的余量设计不足,到有大量反问的时候还会出现温度立马上升问题。而且可以通过关闭其它不重要的系统来保证定订票系统的运行。最后就是管理制度不完善,设置专门的值班人员,和巡检人员,周期性察看机房实际运行情况。在此,应该有专门的单位对机房的设备进行保养和维护。很多问题在另行检查中应该能发现。如果是空调故障,这么重要的机房,维护单位需要有空调的重要部件的现场备件,出现问题,几个小时内就能换上。
他的问题估计是个综合问题,在我们假定他确实是空调问题的前提下。他的机房散热和风道以及设备摆设,可能都存在问题。不能单纯的是空调设备问题,我觉得是他的这整套系统都有问题。

IT设备故障:能想到的问题就是 采用高可用设备,如用小机或者大型机   或者采用高可用集群 或者HA等等多种方式来应对设备故障

链路故障,就是采用冗余方式解决,通信链路采用多运营商接入,链路负载均衡 。  物理链路采用多备份链路。

病毒和攻击:在架构上,按照安全规范,设立边界,并对边界做好防护。什么IDS,IPS,防火墙 ,防病毒软件。当然其它就是通过有效的管理,减少这些事件发生。工作按照标准流程来。

所有以上设备和方案选择靠普的最重要。

2、众所周知,机房中的空调供电等设施都有监控设备,那么如何提高监控设备的监控力度和准确性?

设备加人员保证准确性。总结监控软件的特性,熟悉报警规律,再加人员的巡逻补充,可以提高监控力度和准确性。好的管理制度和管理方法真的很重要。

3、支招12306 设计一套你认为最合理的数据中心架构?
最少是两地两中心的,应用级的容灾,最好是两地三中心

     
                  
作者: 枫之歌    时间: 2012-12-27 14:33
在新闻上看到了某些砖家的说法
据业内人士介绍,机房的电子设备运行时会产生大量热量,对温度和湿度的变化也极其敏感。温度和湿度的轻微浮动,就可能导致系统发生严重问题,轻则系统产生无用信息,重则系统停机。

拿高科技来忽悠人,纯属当大众为白痴。机房的电子设备都是经过各种物理测试的,跌落测试、高温测试等
作者: yidou    时间: 2012-12-27 14:48
神一样的空调
作者: koolji    时间: 2012-12-27 14:50
标题: 技术不能解决管理问题
本帖最后由 koolji 于 2012-12-27 15:06 编辑

1.电、网、制冷有备份,有巡检
2.DB集群,虚拟化

作者: wosl2001    时间: 2012-12-27 14:59
空调会造成部分功能可用 部分功能失效 扯什么淡啊 我感觉是数据库或者中间件层面逻辑上出问题了
作者: loversxyc    时间: 2012-12-27 15:18
对了,12306,买俺们一套设备维修系统吧,可以搞PM预防性工单,定时巡检,如果加上摄像头时时监控,保证设备正常运转,我们用不了3个亿,600万就搞定了....
作者: dzminglong    时间: 2012-12-27 16:14
12306其实找的借口都不好成立,多少亿砸出去了,真正用上的有多少呢?
那没有用上的钱哪儿去了?
无法信服
作者: zm_wl    时间: 2012-12-27 16:50
仁者见仁智者见智

作者: carllai    时间: 2012-12-27 17:03
1、机房内一般遇见的故障是什么?你是如何解决的?面对12306这样的空调故障问题你怎么看?
电力供应问题,空调制冷,服务器或者交换机硬件故障。
我们公司曾经出现过机房渗水的现象,当时都觉得不可思议,是因为楼上公司机房的空调冷凝水渗到下层,将我们机房的天花板滴出了一个孔,水就直接滴在了交换机上面,还好没导致短路断电,也幸好是接入层交换机,没有影响到设备,剩下的就是善后处理了。
机房真的是需要定期巡查维护的地方,必须要引起重视,不然后果非常严重。
觉得12306的空调故障只是一面之词,此事必定有蹊跷。
2、众所周知,机房中的空调供电等设施都有监控设备,那么如何提高监控设备的监控力度和准确性?
加大巡查力度,做好监控计划,随时提供反馈给IT。
3、支招12306 设计一套你认为最合理的数据中心架构?
向国内的大型门户网站和电子商务网站学习,引入流行的负载均衡和高可用技术。
作者: zeriyuanxing    时间: 2012-12-27 17:25
回复 11# yifangyou


    太可爱了~~~
作者: pchaibo    时间: 2012-12-27 19:17
1、机房内一般遇见的故障是什么?你是如何解决的?面对12306这样的空调故障问题你怎么看?
答:去年出现服务器并发承受不起,那么今年是不是自己去找新浪,阿里,这样的网站学一下,人家的数据也值钱,说空调问题,明明是找借口。看机房的人在做什么,,,
作者: pitonas    时间: 2012-12-27 19:58
瀚海书香 发表于 2012-12-26 06:06
回复 1# 红豆抹茶
政府做事的风格岂是我等小民能猜测的
12306这样的空调故障问题不可信,大众不能猜测的。
作者: zhangck    时间: 2012-12-27 20:24
呵呵,应该是措词吧,俺没有看到上面的信息,不错机房的空调坏了,就能搞停系统瘫痪,可疑呀、、、

给机房安装一个主抽风扇吧、、、、
作者: yifangyou    时间: 2012-12-27 22:19
回复 49# zeriyuanxing
啥意思
   
作者: abc32    时间: 2012-12-27 22:26
再花30亿在南极上建个镜像,不怕空调坏了。
作者: Hongqiyaodao    时间: 2012-12-27 22:45
提示: 作者被禁止或删除 内容自动屏蔽
作者: mmmmmm    时间: 2012-12-28 07:19
标准机房都在封闭的空间,如果空调系统单故障点出现问题,在不需净化空气的情况下,通过强大的空气交换设备,在冬天可以将机房温度进行控制。
但是如果机房设置在地下,对于设备众多的机房,没有强大有效的空气交换设备,即使再冷的天气,也会造成机房的温度短时间内超过40度,引起设备瘫痪。
作者: lanjian9151    时间: 2012-12-28 14:44
mmmmmm 发表于 2012-12-28 07:19
标准机房都在封闭的空间,如果空调系统单故障点出现问题,在不需净化空气的情况下,通过强大的空气交换设备 ...


整个帖子看下来,就你的回复靠谱,久不来CU发现怎么这里的人跟微博上的高度重合了,随口就是体制问题管理问题。我一直以为CU都是大神,以前也有很多大神,没想到一个机房的问题就发现在这块还是有那么多糊涂的人。
作者: Hongqiyaodao    时间: 2012-12-28 15:35
提示: 作者被禁止或删除 内容自动屏蔽
作者: q1208c    时间: 2012-12-28 16:00
本帖最后由 q1208c 于 2012-12-28 16:01 编辑

1、
    机房常见的故障, 通常包括:
    (1) 电力故障, 现象为机器掉电. 原因可以是UPS本身的故障;
                                          外线的故障时间过长, UPS不能支持, 而发电机又没有正常工作;
                                          电力电缆的故障; 电力开关的故障; ...
    (2) 空调故障, 现象为机器过热, 自保护关机或死机. 原因可能是空调本身的故障, 或者空调的电力故障.
    (3) 网络故障, 现象为机器断网, 无法连接外部网络. 原因可能是运营商的网络故障, 也可能线路故障.
    (4) 其它故障, 现象可以能楼上漏水, 被车撞了, 地震 ... ...

    空调系统的问题导致机房故障, 一般是电力引起的. 这个需要复杂的电力切换设备来处理, 一般比较贵, 结构复杂,
         愿意投入的机房不多.
2、
    (1) 机房的设备监控多数只是一个监测系统, 通常只能报警, 问题一般需要人工处理. 设备多数是靠数量冗余的.
         
3、
    (1) 不要把鸡蛋放在一个篮子里.
作者: chenyx    时间: 2012-12-28 16:10
@Hongqiyaodao机房的室温超过40 机器会不会宕,我有过类似的情况,不过,那噪声老可怕了.基本上所有机器的风扇全部狂转.
作者: chenyx    时间: 2012-12-28 16:13
@mmmmmm短时间内超过40应该不会瘫痪,几乎所有的服务器都能在40度的情况下正常运转,一般服务器上都会写温度要求,50度好像是最大值了.
作者: Hongqiyaodao    时间: 2012-12-28 16:18
提示: 作者被禁止或删除 内容自动屏蔽
作者: Mylib    时间: 2012-12-28 16:31
1、机房内一般遇见的故障是什么?你是如何解决的?面对12306这样的空调故障问题你怎么看?
机房内遇到的问题主要有网线被人弄断,热插拔硬盘插错过等低级错误。
我个人觉得12306的空调故障有点瞎扯淡。


2、众所周知,机房中的空调供电等设施都有监控设备,那么如何提高监控设备的监控力度和准确性?
没用过,不了解。

3、支招12306 设计一套你认为最合理的数据中心架构?
以我目前的实力,没有什么好的建议;但是在怎么地,也应该分机房啊,不能一个机房出问题,整个系统就崩了
作者: 牵你的左手沙    时间: 2012-12-28 18:10
1、机房内一般遇见的故障是什么?你是如何解决的?面对12306这样的空调故障问题你怎么看?
   1)常见的就是被黑客入侵,被当作傀儡机使用,遇到这种情况最好是重装系统,或者是自己找出黑客替换的程序和部署的后门程序清理掉,修改服务器的密码,使用强度的密码,禁止root用户直接登陆。
   2)这个有点不靠谱,政府的网站肯定会放在政府的专业机房里面,就像我们公司和联通合作的就放在联通的国际标准机房里面,根本不会出这种问题的呀。
2、众所周知,机房中的空调供电等设施都有监控设备,那么如何提高监控设备的监控力度和准确性?
   1)标准机房都具备硬件检测设备的,有正规的监控房间进行所有参数的监控,出现问题会及时报警,包括声音,光,短信等。
   2)电源使用双电加发电机供电方式的
3、支招12306 设计一套你认为最合理的数据中心架构?
   1)前端web应用采用nginx增加静态页面响应速度。
   2)web和数据库之间使用memorycache缓存技术加快数据访问速度,减小数据库压力。
   3)数据库采用数据集群方式,将读写分离,查询使用查询集群数据库,订单、修改信息使用修改集群数据库。

4、有那么多钱使VM的虚拟化,mysql的云技术就搞定了呗。
作者: snow888    时间: 2012-12-28 19:13
项目经费的 1/10 给俺,俺帮忙搞定哈。


作者: pitonas    时间: 2012-12-28 20:05
abc32 发表于 2012-12-27 15:26
再花30亿在南极上建个镜像,不怕空调坏了。

看来你不糊涂啊。
作者: Hongqiyaodao    时间: 2012-12-28 20:45
提示: 作者被禁止或删除 内容自动屏蔽
作者: anthie    时间: 2012-12-29 11:09
铁道部真扯蛋。如果是夏天还有可能。现在北京就算没有空调,室内温度湿度完全满足运行环境要求。他们把我们当弱智,我们真的成弱智了。
作者: goodwall    时间: 2012-12-29 12:33
12306的机房到底是个什么样的,值得思考
作者: micm    时间: 2012-12-29 14:38
还不专业,空调不应该用普通的家用空调,虽然机房内的温度是正常的,但标准机柜内温度却超高,这什么原因?主要是用的空调不对,专业的空调导风口应该是从机柜下方吹入,这样才能保证机柜内温度。
这是单位领导的观念问题,不知道都把钱用在了什么地方,关键的地方去很吝啬!
作者: syzxlyx_cu    时间: 2012-12-29 15:18
我见过一个机房,一架空调坏了,但人家是用超大的风扇,进去有点热,但也没有出现人家托管的机器停止服务的。
作者: ahsflp    时间: 2012-12-29 17:21
换个角度看问题:

现在讨论的是:谁家产的空调这么不给力!!!!!!!!!!

作者: snow888    时间: 2012-12-29 19:59
@Hongqiyaodao

不能。


作者: uriyliu    时间: 2012-12-30 16:01
这么冷的天还要空调?
作者: lkkkun    时间: 2012-12-31 09:18
1、机房内一般遇见的故障是什么?你是如何解决的?面对12306这样的空调故障问题你怎么看?
就我所知,机房内的故障一般就是空调啊,突然断电之类的事情,最多的是电源的故障。对于12306这样的空调故障,我真的不可理解,就比如我的公司,
机房里面都是配备两个UPS供电系统,即使电源断电了,UPS也能支持4个多小时的供电,而且都是有两台空调轮流工作,一般不会出现两台空调都坏了吧。
2、众所周知,机房中的空调供电等设施都有监控设备,那么如何提高监控设备的监控力度和准确性?
  供电实施都有监控系统,就我所知,温度传感器是最直接,最有效的监控设备,而且能够支持发送邮件或短信的方式到管理员的邮箱或者手机里。
3、支招12306 设计一套你认为最合理的数据中心架构?
  我建议让淘宝,或者腾讯,新浪等等互联网公司来做架构吧。
作者: hywangtao    时间: 2012-12-31 13:07
这种问题,搞技术的就不要再自作聪明去想办法解决了,不要真的都以为自己的技术了不起。
作者: ddzt10086    时间: 2012-12-31 17:11
订张票回家还真不容易啊。。
作者: qingxues    时间: 2012-12-31 21:44
空调是替死鬼吧

现在的北京,是不是需要 制热的空调吧
哈哈
作者: methaneoxy    时间: 2013-01-01 13:17
服务器被修空调的拖走了。。。
作者: renxiao2003    时间: 2013-01-01 21:21
5、责任的免除和限制

      (1)遇以下情况,本网站不承担任何责任,包括但不仅限于: ①因不可抗力、系统故障、通讯故障、网络拥堵、供电系统故障、恶意攻击等造成本网站未能及时、准确、完整地提供服务。 ②无论在任何原因下,您通过使用本网站上的信息或由本网站链接的其他网站上的信息,或其他与本网站链接的网站上的信息所导致的任何损失或损害。 ③在“3.用户注册”第二款情形下,注册用户被暂停使用以及因此导致已购车票不能在本网站改签、退票等后果。
      (2)本网站负责对本网站上的信息进行审核与更新,但并不就信息的时效性、准确性以及服务功能的完整性和可靠性承担任何义务和赔偿责任。
      (3)如用户利用系统差错、故障或其他原因导致的漏洞,损害本网站及任何第三方的权益,本网站将终止该用户资格,并保留法律追究的权利。
      (4)如果本网站发现有影响用户信息安全的行为,本网站有权对用户信息实施保护。必要时用户需经重新验证身份后方可继续使用。

6、拒绝提供担保

      本网站对以下情形不做任何担保,包括但不仅限于:
      (1)服务一定能满足您的要求。
      (2)服务不会受中断。
      (3)服务的安全性、及时性、完整性和准确性。
      (4)服务所涉及相关方的服务。
      (5)您从本网站收到口头或书面的意见或信息。
      (6)您所提供的身份信息一定被注册。
      (7)他人使用与您相同的身份信息注册。

看看这些霸王条款,我们还在这里讨论有P用啊。
作者: wwr    时间: 2013-01-01 21:35
明显是是那里的技术小白瞎捣鼓,结果宕机了
作者: niao5929    时间: 2013-01-03 10:42
本来就应该搞成分布式大系统.数据应该逐步向OPENFLOW流转发方式转变.旧体制加上旧架构,再好的服务器又有什么用呢!!!
作者: jinmaodao    时间: 2013-01-03 10:56
1、机房内一般遇见的故障是什么?你是如何解决的?面对12306这样的空调故障问题你怎么看?
       服务器故障,或者人为因素故障。
       监控。
       机房的电力匹配都是有富余的,空调有备用的。12306的说法把别人当小白了。
2、众所周知,机房中的空调供电等设施都有监控设备,那么如何提高监控设备的监控力度和准确性?
       低端提供最准确的信息最为重要,要做强做精。
3、支招12306 设计一套你认为最合理的数据中心架构?
       京东、易迅等网购系统的架构就可以适合,或者用国内靠谱的的“云服务”。  
作者: DNFCF    时间: 2013-01-03 12:10

作者: simonfirst    时间: 2013-01-03 13:01
那么大的一个IDC居然因为空调原因导致?实在是可笑之极,通常正规的IDC都是有多台空调同时工作,且是独立的空调系统。

如果真是空调原因导致,那么那个负责维护这个IT系统的主管人员要重打1000大板了,这点风险评估都没做到。
作者: taotao_112206_c    时间: 2013-01-03 22:17
1、空调坏可能也是真的,不要将自己认为的常识,在别人身上也是常识。
2、电源问题,曾经工作过全国性金融机构也遇到过主电源停电,副电源被火灾切断、UPS坏掉的情况
3、电压过载,由于机房机器太多,功率过高,自动跳闸,这也是我们曾经遇到过的
4、淘宝模式不可靠,铁路数据全国集中,淘宝分布式。南辕北辙。不具有可比性
5、可借鉴建行DCC核心应用业务系统
作者: taotao_112206_c    时间: 2013-01-03 22:22
回复 83# niao5929



    铁路这种根本就不能搞成分布式的,全国集中大数据大并发处理,案例多得很,建行就是全国集中的,每天上亿笔的交易量,注意是每天上亿笔!!怎么就没问题呢????不要逢系统就分布式,太不动脑子了。可以这么说,随便拿一套全国性的银行核心系统方案,改一改就能实现铁道部的需求
作者: woziwo    时间: 2013-01-04 02:18
这机房已经建在南半球,还是三沙?怎么会因为空调影响机房运转?或者说需要加温才能运转?那边关门窗都不顶事?

机房里基本上只有用电问题了,大家都说了……
作者: xike2002    时间: 2013-01-04 10:35
这是一个很好的话题,非常值得大家来讨论,因为我们已经饱受买票带来的各种痛苦,希望大家讨论的结果能得出一些启发性的东西。

1、机房内一般遇见的故障是什么?你是如何解决的?面对12306这样的空调故障问题你怎么看?
服务器down机这个应该是最常见的故障了,但是解决方法就各不相同了,得根据具体down机的原因好好分析一下了,如果是系统的BUG,那么根据down机时的日志信息和报错信息,一般可以分析出原因,并且做出修改。如果是非软件原因的话,那就得看具体情况了。

2、众所周知,机房中的空调供电等设施都有监控设备,那么如何提高监控设备的监控力度和准确性?
首先还是监控设备的选型工作,这是一个非常重要的环节,我们得根据具体的环境和对于性能的要求,做出合理的选择,最后得出结论。

3、支招12306 设计一套你认为最合理的数据中心架构?
应该多和大型商业网站的技术人员做交流和沟通,可以借鉴一下淘宝和腾讯对于超大数据量访问问题的解决方法。
作者: xiaodylan    时间: 2013-01-04 11:35
1、IDC小公司较多的可能会遇到攻击,网络不稳。或者断网。这是常见的,有条件的公司,双机房吧。做切换。
2、不了解
3、这个话题有点大...还是让大牛们来设计吧。
作者: xiaoqingy    时间: 2013-01-04 12:26
很多原因,只的中国才想得出来,很有“创新力”
作者: zm_wl    时间: 2013-01-04 16:14
哎,又是一个笑话
作者: kanawalo    时间: 2013-01-04 17:21
回复 35# starggw


    一看就是外企的,流程流程,如此完善的工作流程
作者: 刺客阿地    时间: 2013-01-04 17:35
1、机房内一般遇见的故障是什么?你是如何解决的?面对12306这样的空调故障问题你怎么看?
答:一般是机房夏天开制冷,然后会有漏水现象。更换排气管道。实在不行,更换新的空调。具体情形不清楚,我觉得空调故障,不会导致服务器全部都出故障
没有备机?
2、众所周知,机房中的空调供电等设施都有监控设备,那么如何提高监控设备的监控力度和准确性?
答:这个监控设备,暂时不了解,俺也不清楚。
3、支招12306 设计一套你认为最合理的数据中心架构?

答:有点难啊,除非对架构特别熟悉。
作者: yzkarchive    时间: 2013-01-04 17:49
在北京的话,空调坏了,把大门打开,制冷效果应该非常好,同时可以调节门开的大小来调节温度。
作者: musezh2    时间: 2013-01-05 08:53
估计有部分资金没到位
作者: minunix    时间: 2013-01-05 17:28
1、机房内一般遇见的故障是什么?你是如何解决的?面对12306这样的空调故障问题你怎么看?
   机房内一般遇到的问题大致分为电源问题、网络问题、设备问题、环境问题
  1)、这电源问题,12306不至于交不起电费吧;UPS 模块坏了,简单的问题就修,坏的比较严重了,不行就更换了,难不成机房还会有虫把电源线咬断了 ,,
  2)、如若机房内有攻击,这安全做的也太不差劲了吧,发现有攻击了,弥补漏洞,检查攻击的源ip,禁止其ip;检查攻击的目的ip,不行就切断目的ip,再不行了切断总出口
  3)、设备问题的话包括硬件问题,和系统软件问题。这硬件问题抓紧找工程师来修呀,该更换就更换,系统的话,不可能没有主从吧!
  4)、环境问题就比较多了,像他们说的空调了,加湿器了,门禁等之类的了,这空调、加湿器出问题了就联系他们的工程师来修呗,但是这出问题不至于所有的空调一下子都出问题吧,再说了,偶尔坏一台空调,影响也不会太大的!再者就是加湿器或者空调漏水了,机房的人没有及时发现,再加上他们的机房走线属于下走线,结果就所有的电源线全部泡水了,这下子是够他们忙的了
2、众所周知,机房中的空调供电等设施都有监控设备,那么如何提高监控设备的监控力度和准确性?
机房的所有设备都是有监控系统了,包括门禁也是有的;对于这个漏水 可以有专门的监控漏水系统的,空调的工作正常与否啊,加湿器的工作正常与否啊,这个有的空调是支持所有的空调会组成一个网络,统一又一个监控的系统,如果空调产品次的话,那就需要定时去机房查看了,至于加湿器貌似就需要去机房查看设备的状态了。
3、支招12306 设计一套你认为最合理的数据中心架构?
这个可以多向淘宝学习下的
或者比如各省设立一个分节点,所有这个省的IP都来通过这个节点来订票或者办理其他的业务

作者: fengyun530    时间: 2013-01-06 09:48
12306不如拿给大型网络公司去做,花那个价格,请职业团队负责,肯定稳定性比现在强几倍。经常不稳定就找借口。唉。新浪微博、淘宝等日峰值访问量我想不比12306低。但是也不见得人家会访问不了!
作者: vcdtwo    时间: 2013-01-06 13:44
铁路对民间资本开放,12306的问题自然就解决了。。。
作者: toshaobo    时间: 2013-01-06 14:33
都是扯淡啦,查下12306网站,IP上竟然200个域名,一个为全国人民服务,中华人民共和国的铁道部,竟然用的是共享,一台服务器加个电信机房托管要多少钱啊,我想就算自己搭简单的小机房也比这个强吧,还动辄上千万,上亿的,我晕,钱都跑哪去了




欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2