忘记密码   免费注册 查看新帖 | 论坛精华区

ChinaUnix.net

  平台 论坛 博客 认证专区 大话IT 视频 徽章 文库 沙龙 自测 下载 频道自动化运维 虚拟化 储存备份 C/C++ PHP MySQL 嵌入式 Linux系统
12下一页
最近访问板块 发新帖
查看: 22663 | 回复: 19

【号外、号外】AWS、百度近期故障频繁,你怎么看? [复制链接]

论坛徽章:
18
卯兔
日期:2013-09-27 17:41:0615-16赛季CBA联赛之佛山
日期:2016-07-09 17:34:45操作系统版块每周发帖之星
日期:2015-12-02 15:01:04IT运维版块每日发帖之星
日期:2015-12-02 06:20:00IT运维版块每日发帖之星
日期:2015-10-07 06:20:00IT运维版块每日发帖之星
日期:2015-10-03 06:20:00IT运维版块每日发帖之星
日期:2015-10-01 06:20:00羊年新春福章
日期:2015-04-01 17:56:06拜羊年徽章
日期:2015-04-01 17:56:062015年迎新春徽章
日期:2015-03-04 09:49:452015年辞旧岁徽章
日期:2015-03-03 16:54:15天秤座
日期:2015-01-14 06:39:28
发表于 2017-03-06 06:57 |显示全部楼层
【现象+影响】
1.  2017年2月28日晚8点39分,百度移动端搜索发生故障,搜索请求无法显示结果,至晚9点21分恢复,历时42分钟。据估计,故障期间导致手机用户上亿次的搜索受到影响。
2.  北京时间2月28日夜间,美国时间周二,亚马逊AWS出现了较高的错误率,影响了数千个在线服务,包括项目管理工具和费用报告工具等。最终于北京时间3月1日凌晨,美国太平洋时间14: 08,亚马逊宣布S3恢复正常。

【原因分析】
1. 据初步分析,故障原因是由于百度公司的软件更新中存在BUG(漏洞),导致服务器停止服务。故障发生后,百度公司紧急处置并恢复服务,目前该软件问题已得到修复
2. 上述故障是由于人为因素所致,此次事故还导致多家客户的网站和服务出现了大规模故障,由于一项错误的指令,比计划中更多的服务器被移除。此次事故发生在亚马逊S3存储服务,持续了超过3个半小时,影响了客户的数据收发。

【引申】
3月1日**相关司局立即紧急约谈百度公司,了解相关情况,对以上情况,**责令百度公司立即对本次故障进行深入调查,提出切实有效的整改措施,坚决防止类似问题的再次发生,3日内向**提交书面报告。同时,下发紧急通知,要求阿里巴巴、腾讯等各重点互联网企业吸取教训,举一反三,采取各项有力措施加强安全防范,尤其要做好全国“两会”期间的业务服务保障,确保各类重要系统和业务平台安全稳定运行,为广大网民提供良好的信息服务。

【议题】
1. 又是人为因素造成的,又是软件升级,不管是百度,还是AWS或者其他大系统,该怎样规避认为因素造成的事故?你怎么看?怎么解决?
2. 怎样确认软件升级后,系统的健壮性,该从哪几方面着手?
3. 当前ICT厂家 HA,高可用,容灾、灾备等说的花里胡哨,但是真正的落地,为什么有那么多的困难之处?你怎么看?怎么解决?
4. 技术发展到如今,系统越来越复杂繁琐,在复杂的系统中怎么能够快速的定位问题所在?

【活动时间】3月6日--4月6日

活动奖励
活动结束后,我们将会选取1个精彩回复,送移动电源一个,2个精彩回复送社区15周年限量版男士商务晴雨伞一把。

欢迎各位大侠互动。
DTCC 2017 来啦!

随着云计算和大数据时代的来临,数据正在以前所未有的速度成为各个领域价值创造的核心驱动力。

在此背景下,国内最受关注的数据库技术盛会——2017第八届中国数据库技术大会(DTCC2017)将于2017年5月11-13日如约而至。本届大会以“数据驱动•价值发现”为主题,汇集来自互联网、电子商务、金融、电信、政府、行业协会等20多个领域的120多位技术专家,共同探讨Oracle、MySQL、NoSQL、云端数据库、智能数据平台、区块链、数据可视化、深度学习等领域的前瞻性热点话题与技术。大会共设定2大主场和20个技术专场,将吸引5000多名IT人士参会,为数据库人群、大数据从业人员、广大互联网人士及行业相关人士提供最具价值的交流平台。




官网链接:http://dtcc.it168.com/
购票链接:http://dtcc.it168.com/goupiao.html

欢迎扫码关注DTCC官方微信,获取最新信息!

打赏鼓励一下!

论坛徽章:
129
操作系统版块每日发帖之星
日期:2016-05-11 17:06:57操作系统版块每日发帖之星
日期:2016-05-11 17:06:57数据库技术版块每日发帖之星
日期:2016-05-11 17:07:05操作系统版块每日发帖之星
日期:2016-05-11 17:06:57操作系统版块每日发帖之星
日期:2016-05-11 17:06:57综合交流区版块每日发帖之星
日期:2016-05-11 17:07:052022北京冬奥会纪念版徽章
日期:2015-08-07 17:10:57IT运维版块每日发帖之星
日期:2016-05-11 17:06:49操作系统版块每日发帖之星
日期:2016-05-11 17:06:57综合交流区版块每日发帖之星
日期:2016-05-11 17:07:05操作系统版块每日发帖之星
日期:2016-05-11 17:06:57程序设计版块每日发帖之星
日期:2016-05-11 17:06:57
发表于 2017-03-06 08:40 来自手机 |显示全部楼层
系统测试不够就上架,估计又是新人干的

论坛徽章:
0
发表于 2017-03-06 09:48 |显示全部楼层
回复 2# shang2010

春天刚刚跳槽过去的新手,是谁给的他权力让他能测试不严格的产品就发布,权限细致的分配也是 应该考虑的。

论坛徽章:
12
2015年亚洲杯之乌兹别克斯坦
日期:2015-04-10 18:29:00狮子座
日期:2016-01-17 15:40:28处女座
日期:2016-01-16 17:36:17巨蟹座
日期:2016-01-16 17:35:48未羊
日期:2015-12-12 16:18:26IT运维版块每日发帖之星
日期:2015-12-05 06:20:00神斗士
日期:2015-12-03 23:13:59青铜圣斗士
日期:2015-12-09 01:07:50IT运维版块每日发帖之星
日期:2015-11-22 06:20:00IT运维版块每日发帖之星
日期:2015-11-08 06:20:00IT运维版块每日发帖之星
日期:2015-10-29 06:20:00IT运维版块每日发帖之星
日期:2016-06-30 06:20:00
发表于 2017-03-06 15:10 |显示全部楼层
1. 又是人为因素造成的,又是软件升级,不管是百度,还是AWS或者其他大系统,该怎样规避认为因素造成的事故?你怎么看?怎么解决?
首先人为因素,只能从人员管理上来约束,加强一线人员对运维风险的认识;其次我觉的应该在这方面给运维人员以鼓励而不是刻板要求,形成有效鼓励机制,大家都积极去这样做,自然而然会提高运维质量。
其次对于整个运维流程,应该建立完整的ITIL流程管理机制,对每次上线的影响进行评估,注意上线的操作应先做好测试, 建立有效的回滚应对机制,制定相对可控的上线时间,确保在对用户影响最低风险的情况下实施上线, 一旦升级或上线发生问题,应该确保回滚操作能有效进行。
最后推行自动化以及容器化部署机制,降低人为操作频度, 加强对系统口令权限的授权管理,用权限对操作人员的操作进行有效管控对风险进行规避。
2. 怎样确认软件升级后,系统的健壮性,该从哪几方面着手?
在变更/上线/升级后,应该保证有相对应的监控系统部署到位,能对新上线的业务在系统硬件,系统服务上做到有效监控,并由监控,运维以及研发三线进行全程跟踪,确保已升级的服务运行稳定运行
3. 当前ICT厂家 HA,高可用,容灾、灾备等说的花里胡哨,但是真正的落地,为什么有那么多的困难之处?你怎么看?怎么解决?
懂得比较少,自己看来HA、高可用、容灾、备份等机制是在应对大的事故上很好的灾难恢复和规避措施,但是存在一些不足:
1)企业对容灾备份重要性的不足,容灾备份机制需要耗费庞大的人力物力来进行部署,浅显一点看是绝对的成本中心,而且如果系统不发生问题,意味着这些系统的作用更是鸡肋。所以几乎都是在关键业务点比如数据库之类做些这样的备份。
2)已部署的容灾系统长时间没有用到的情况下,其可用性以及本身的有效性不能得到保障,一般工作的重心都放在生产系统上,对于备用系统的关注比较少,导致在事故一旦发生时原本应该起的备用系统没有自动切换或者在备份时发现已经有好几周没有进行全备了。这就尴尬了。
综上认为出现这些问题的主要原因还是对容灾备份的不重视导致的。
应该加大对HA、容灾备份等机制的投入,成立专门的容灾部门与操作和监控中心平行共同完成对企业数据以及业务的保障,在部署上,备份应该走专有备份线路而与上产环境中的正常业务线路和管理线路分开避免容灾业务影响正常业务数据流量。
4. 技术发展到如今,系统越来越复杂繁琐,在复杂的系统中怎么能够快速的定位问题所在?
1)有效的工作日志记录,对每次操作的事件、变更、问题等做好记录以便追踪定位
2)加强对技术人员的培训,特别是一线操作人员,一线往往是跟系统和服务直接打交道的存在,加大对一线操作人员的技能培养能够在事件问题发生时第一时间
对故障进行排查和恢复。
3)建立有效的监控机制,保证系统中发生的问题能在第一时间反馈出来。
4)建立有效的事件升级机制,保证事件或者事故能在规定的SLA保障时间内得到升级,传递,解决。

评分

参与人数 1信誉积分 +10 收起 理由
qingduo04 + 10 内容写的很详实,赞一个

查看全部评分

论坛徽章:
18
卯兔
日期:2013-09-27 17:41:0615-16赛季CBA联赛之佛山
日期:2016-07-09 17:34:45操作系统版块每周发帖之星
日期:2015-12-02 15:01:04IT运维版块每日发帖之星
日期:2015-12-02 06:20:00IT运维版块每日发帖之星
日期:2015-10-07 06:20:00IT运维版块每日发帖之星
日期:2015-10-03 06:20:00IT运维版块每日发帖之星
日期:2015-10-01 06:20:00羊年新春福章
日期:2015-04-01 17:56:06拜羊年徽章
日期:2015-04-01 17:56:062015年迎新春徽章
日期:2015-03-04 09:49:452015年辞旧岁徽章
日期:2015-03-03 16:54:15天秤座
日期:2015-01-14 06:39:28
发表于 2017-03-06 19:16 |显示全部楼层
我也抛砖引玉一下

1. 又是人为因素造成的,又是软件升级,不管是百度,还是AWS或者其他大系统,该怎样规避认为因素造成的事故?你怎么看?怎么解决?
如果是人为因素,需要从以下几个问题进行解决
  • 管理方面:需要在管理上提高员工的警戒意识,如履薄冰,战战兢兢。
  • 流程方面:提前做好操作命令,然后内部评审或者一个写,一个评审,相互制约,互相担责,操作前进行评审。这样虽然耗时间,但是防止意外发生。
  • 操作方面:操作时,禁止敲非评审的内容。

如果是软件升级的原因
  • 生产环境和测试环境分离,软件升级必须在测试环境升级完毕后,并模拟现网的的压力进行测试。
  • 测试完毕后,确认无问题后,再进行同步到生产环境。
  • 生产环境和容灾环境必须提前验证,确保生产环境异常后,能第一时间进行切换。

2. 怎样确认软件升级后,系统的健壮性,该从哪几方面着手?
  • 对测试环境进行升级,升级完成后模拟生产环境进行压力测试,争取做全覆盖测试。
  • 升级前保障容灾和生产环境的切换是否正常?确保生产环境如果升级异常,可以切到容灾环境。

3. 当前ICT厂家 HA,高可用,容灾、灾备等说的花里胡哨,但是真正的落地,为什么有那么多的困难之处?你怎么看?怎么解决?
因为一直在一线负责交付和维护,厂商过来说高可用、容灾,说实话一般是技术上可行,但是真正罗导实际项目上,可能总有这样那样的事情,造成生产系统异常后,容灾不能正常切换。
主要原因:
  • 投入的问题,客户如果建设一套和生产一模一样的系统,投入过高,部分客户没有这么多预算。
  • 切换的问题,容灾和生产需要定期进行切换演练,才能保障生产出问题时,能够快速切换。
  • 操作的问题,自动化切换的命令,让系统自动切换,避免人为出问题。
  • 现网改造问题,如果前期没有考虑容灾,后续再进行容灾切换,实施过程以及测试过程过于复杂。

4. 技术发展到如今,系统越来越复杂繁琐,在复杂的系统中怎么能够快速的定位问题所在?

  • 专岗专人负责,避免灰度空间的发生
  • 代码清晰可读,方便查询

论坛徽章:
18
卯兔
日期:2013-09-27 17:41:0615-16赛季CBA联赛之佛山
日期:2016-07-09 17:34:45操作系统版块每周发帖之星
日期:2015-12-02 15:01:04IT运维版块每日发帖之星
日期:2015-12-02 06:20:00IT运维版块每日发帖之星
日期:2015-10-07 06:20:00IT运维版块每日发帖之星
日期:2015-10-03 06:20:00IT运维版块每日发帖之星
日期:2015-10-01 06:20:00羊年新春福章
日期:2015-04-01 17:56:06拜羊年徽章
日期:2015-04-01 17:56:062015年迎新春徽章
日期:2015-03-04 09:49:452015年辞旧岁徽章
日期:2015-03-03 16:54:15天秤座
日期:2015-01-14 06:39:28
发表于 2017-03-07 19:13 |显示全部楼层
每天顶一顶,生活更健康

论坛徽章:
3
IT运维版块每日发帖之星
日期:2015-08-25 06:20:002017金鸡报晓
日期:2017-01-10 15:13:292017金鸡报晓
日期:2017-02-08 10:33:21
发表于 2017-03-08 11:41 |显示全部楼层
我还是觉得,国内和国外的面对故障的态度天差地别。
看国内的,几乎都说什么临时工啊,离职员工恶意操作啊。
国外直接就说是程序员的一个误操作 rm -rf
直视问题,勇敢面对才行,而不是找个ABC去背锅。就说不是自己人搞的。

论坛徽章:
18
卯兔
日期:2013-09-27 17:41:0615-16赛季CBA联赛之佛山
日期:2016-07-09 17:34:45操作系统版块每周发帖之星
日期:2015-12-02 15:01:04IT运维版块每日发帖之星
日期:2015-12-02 06:20:00IT运维版块每日发帖之星
日期:2015-10-07 06:20:00IT运维版块每日发帖之星
日期:2015-10-03 06:20:00IT运维版块每日发帖之星
日期:2015-10-01 06:20:00羊年新春福章
日期:2015-04-01 17:56:06拜羊年徽章
日期:2015-04-01 17:56:062015年迎新春徽章
日期:2015-03-04 09:49:452015年辞旧岁徽章
日期:2015-03-03 16:54:15天秤座
日期:2015-01-14 06:39:28
发表于 2017-03-08 19:01 |显示全部楼层
回复 7# Fl_wolf

国外比较担责,国内比较推责。

论坛徽章:
1
IT运维版块每日发帖之星
日期:2015-11-03 06:20:00
发表于 2017-03-09 16:24 |显示全部楼层
同意八楼的观点。

论坛徽章:
18
卯兔
日期:2013-09-27 17:41:0615-16赛季CBA联赛之佛山
日期:2016-07-09 17:34:45操作系统版块每周发帖之星
日期:2015-12-02 15:01:04IT运维版块每日发帖之星
日期:2015-12-02 06:20:00IT运维版块每日发帖之星
日期:2015-10-07 06:20:00IT运维版块每日发帖之星
日期:2015-10-03 06:20:00IT运维版块每日发帖之星
日期:2015-10-01 06:20:00羊年新春福章
日期:2015-04-01 17:56:06拜羊年徽章
日期:2015-04-01 17:56:062015年迎新春徽章
日期:2015-03-04 09:49:452015年辞旧岁徽章
日期:2015-03-03 16:54:15天秤座
日期:2015-01-14 06:39:28
发表于 2017-03-09 18:55 |显示全部楼层
回复 9# ping192168101

欢迎9楼的兄弟继续发言......
您需要登录后才可以回帖 登录 | 注册

本版积分规则

久等啦!10张门票开启你的DTCC2017之旅

2017中国数据库技术大会将于2017年5月11-13日如约而至,本届大会以“数据驱动•价值发现”为主题,共设定2大主场和21个技术专场,云集海内外120+位技术大牛,共同探讨Oracle、MySQL、NoSQL、云端数据库、区块链、深度学习等领域的前瞻性热点话题。
即日起,填写DTCC2017会前调查问卷,即有机会赢取价值2600元的大会门票1张!仅限10张!
----------------------------------------
活动截止时间:2017年5月5日统一公布

问卷入口>>
  

北京皓辰网域网络信息技术有限公司. 版权所有 京ICP证:060528号 北京市公安局海淀分局网监中心备案编号:1101082001
广播电视节目制作经营许可证(京) 字第1234号 中国互联网协会会员  联系我们:
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP