免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: arron刘
打印 上一主题 下一主题

【话题讨论】从6·23工行事件 谈企业IT系统灾备问题(获奖名单已公布-2013-7-25) [复制链接]

论坛徽章:
18
卯兔
日期:2013-09-27 17:41:0615-16赛季CBA联赛之佛山
日期:2016-07-09 17:34:45操作系统版块每周发帖之星
日期:2015-12-02 15:01:04IT运维版块每日发帖之星
日期:2015-12-02 06:20:00IT运维版块每日发帖之星
日期:2015-10-07 06:20:00IT运维版块每日发帖之星
日期:2015-10-03 06:20:00IT运维版块每日发帖之星
日期:2015-10-01 06:20:00羊年新春福章
日期:2015-04-01 17:56:06拜羊年徽章
日期:2015-04-01 17:56:062015年迎新春徽章
日期:2015-03-04 09:49:452015年辞旧岁徽章
日期:2015-03-03 16:54:15天秤座
日期:2015-01-14 06:39:28
21 [报告]
发表于 2013-07-09 22:36 |只看该作者
本帖最后由 qingduo04 于 2013-07-09 22:36 编辑

1,你认为这次事故后,灾备系统无法迅速恢复系统的原因是什么?
   a.处理问题时的果断性、心理素质。
  b.现场人员的技术水平,项目经验
  c.还得看一下灾备系统到底能否正常切换。


2,你认为目前银行的IT系统建设目前存在哪些问题?
  IT行业一直是背后支撑着,在银行业这种更是OLTP的系统上,只要是系统正常运行,领导一般不重视到底IT怎么建设,建设的稳定性、规范性、可用性、可发展性。所以如果真正做到高可用,容灾秒级切换必须有大领导的支持,没钱什么都不可能做。
  其次还得有专业的支撑团队对现有IT问题、性能等做好技术支持.



3,你认为灾备系统的有效性如何得以实现?
  个人觉得有效性基于软件较好,平时定期的进行演练,按照真正的故障去演练,而不是为了应付而演练,这种罪基本的责任。


论坛徽章:
20
CU大牛徽章
日期:2013-04-17 11:48:26羊年新春福章
日期:2015-03-10 22:39:202015年中国系统架构师大会
日期:2015-06-29 16:11:282015亚冠之平阳省
日期:2015-07-31 09:19:042015七夕节徽章
日期:2015-08-21 11:06:17IT运维版块每日发帖之星
日期:2015-09-30 06:20:002015亚冠之柏太阳神
日期:2015-10-19 20:29:5915-16赛季CBA联赛之天津
日期:2016-11-29 14:03:4315-16赛季CBA联赛之北控
日期:2016-12-24 20:51:492015年辞旧岁徽章
日期:2015-03-03 16:54:15双鱼座
日期:2015-01-12 20:58:532014年中国系统架构师大会
日期:2014-10-14 15:59:00
22 [报告]
发表于 2013-07-09 22:38 |只看该作者
DB V10版本升级之前难道就没有进行好好的测试,就这么上线了?

论坛徽章:
8
巨蟹座
日期:2013-08-12 09:41:40IT运维版块每日发帖之星
日期:2015-12-09 06:20:00寅虎
日期:2013-12-25 14:59:40天秤座
日期:2013-12-06 14:04:55酉鸡
日期:2013-11-28 10:22:22水瓶座
日期:2013-08-26 15:40:54巨蟹座
日期:2013-08-12 09:42:01每日论坛发贴之星
日期:2015-12-09 06:20:00
23 [报告]
发表于 2013-07-10 10:06 |只看该作者
要么就是技术不熟悉,要么就是从来没有做个测试。回复 22# beyondfly


   

论坛徽章:
10
CU大牛徽章
日期:2013-09-18 15:20:48程序设计版块每日发帖之星
日期:2016-07-21 06:20:00IT运维版块每日发帖之星
日期:2015-07-30 09:40:01技术图书徽章
日期:2014-10-14 16:00:43天蝎座
日期:2013-09-27 17:41:29CU大牛徽章
日期:2013-09-18 15:21:17CU大牛徽章
日期:2013-09-18 15:21:12CU大牛徽章
日期:2013-09-18 15:21:06CU大牛徽章
日期:2013-09-18 15:20:58每日论坛发贴之星
日期:2016-07-21 06:20:00
24 [报告]
发表于 2013-07-10 11:44 |只看该作者
1,你认为这次事故后,灾备系统无法迅速恢复系统的原因是什么?
我做过银行的运行。就我个人来看,工行这次的处理已经是挺迅速了。
在银行中运行和维护是两批人马,运行人员通常是以财务为主,技术为辅。
毕竟回滚是有风险的,如果回滚过程中又出现问题怎么办?这个决定不是运行人员所能做出来的。
从运行人员来看,因为不知晓其中的技术原因。可以等待是运行人员的主要使命。
回滚后再执行是否会继续出错,运行人员并不知道。所以从风险角度来看,坚持等待是运维人员的唯一出路。
而执行回滚这样的操作,应该是技术人员的事也就是维护人员。


2,你认为目前银行的IT系统建设目前存在哪些问题?
大集中,大安全,大风险


3,你认为灾备系统的有效性如何得以实现?
这次事件其实和灾备没什么关系。现有的灾备技术够用了。只是需要时间和金钱来维护好。

论坛徽章:
32
CU大牛徽章
日期:2013-05-20 10:45:13每日论坛发贴之星
日期:2015-09-07 06:20:00每日论坛发贴之星
日期:2015-09-07 06:20:00数据库技术版块每日发帖之星
日期:2015-12-13 06:20:0015-16赛季CBA联赛之江苏
日期:2016-03-03 11:56:13IT运维版块每日发帖之星
日期:2016-03-06 06:20:00fulanqi
日期:2016-06-17 17:54:25IT运维版块每日发帖之星
日期:2016-07-23 06:20:0015-16赛季CBA联赛之佛山
日期:2016-08-11 18:06:41JAVA
日期:2016-10-25 16:09:072017金鸡报晓
日期:2017-01-10 15:13:292017金鸡报晓
日期:2017-02-08 10:33:21
25 [报告]
发表于 2013-07-10 11:45 |只看该作者
中国工商银行(601398,SH;1398,HK)信息科技部就6月23日工行系统故障事件(以下简称“6·23事件”)正式作出内部通报,这份通报称,工行数据中心(上海)主机系统出现故障,是由于IBM提供的主机DB2V10版本内存清理机制存在缺陷引发。

而在技术问题之外,工行本身的管理问题以及国内银行业信息系统落后的沉疴可能也是此次事件的诱因。

事件原因直指IBM:软件存在缺陷

6月28日上午,工行某直属一级分行信息科技部员工陆续收到内部通报邮件。该通报就6·23事件的情况及原因作了基本描述,但对事件影响范围、内部处理能力判断均语焉不详。

通 报称,“6月23日上午,数据中心(上海)监控发现主机CPU利用率升高,经分析判断与6月23日凌晨实施的主机DB2数据库软件升级版本有关(从V9升 级到V10),在紧急回退升级系统软件版本后系统运行恢复正常。”同时,工行总行信息科技部将该事件直接原因归为IBM公司提供的软件产品存在缺陷,并称 这点“经IBM公司正式确认”。



工行就6·23事件做出的正式内部通报文件

6月23日上午,全国多地中国工商银行柜台、ATM、网银业务出现故障,持续近1个小时。作为服务2.92亿个人客户及400多万公司客户的全国金融服务巨头,工行此次故障波及北京、上海、广州、武汉、哈尔滨等多个大中型城市。

当日,工行将该事故对外模糊描述为:“中国工商银行部分地区因计算机系统升级原因造成柜面和电子渠道业务办理缓慢。”这也是迄今为止工行就6·23事件向用户发布的唯一公开解释。

IBM公开官方资料显示,工行与IBM的合作始于1997年,至今16年之久。针对通报中提及的“经IBM公司正式确认”,记者联系多位IBM相关负责人,但均未得到回应。

工行IT运维能力遭质疑

这份内部通报由一位不愿透露姓名的工行在职员工提供。该员工表示,自己并不太满意这份解释:“对灾难备份只字未提,有意将管理问题规避为技术问题。”

通报也提及了一些管理问题,但表述颇为模糊,通报称,“(数据中心上海)没有按照‘第一时间恢复生产’的要求采取果断措施及时进行回退,并且回退过程不坚决,耗时较长。”

银行的灾难备份系统,是指银行对本地数据中心的数据、业务系统、软硬件等资源进行同城或异地备份,以确保发生某些不可预测的灾难后,重要信息系统的数据安全的一种预防措施。

据中国银行业监督管理委员会(以下简称“银监会”)发布的《银行业金融机构信息系统风险管理指引》,银行业金融机构应制定信息系统应急预案,并定期演练、评审和修订;全国性数据中心要实现异地灾备。

日 前,国内 最大的灾难备份服务商万国数据CEO黄伟在接受福布斯中文网采访时表示,“银行的IT系统永远面临信息安全的挑战,但悲哀的是,银行在IT系统和灾难备份 中不计成本,但遇到这样的大面积的安全问题依然无法在短时间内恢复系统。”他认为,长久以来国内银行的IT系统运作是在给这样的事件埋下伏笔,他最后指 出,“在国内银行,IT系统的搭建更像是给上级和银监会看的‘政绩工程’。”

2008年,现任银监会副主席郭利根曾就多起国内银行信息科技风险事件发表讲话。他说,工行等国有银行是国内在IT技术和风险管控上都比较先进的银行,它们的问题频发,“充分暴露出我国银行业信息系统的脆弱性。”

他指出,基础建设滞后、软硬件及核心技术受制于人和系统管理粗放是当时银行业信息科技建设存在的主要问题,“特别是在业务连续性规划、业务恢复机制、风险化解和转移措施、技术恢复方案等方面,存在明显的‘短板’。”

整整五年过去,工行6 23事件证明了这些问题仍旧没有得到有效解决。

论坛徽章:
8
巨蟹座
日期:2013-08-12 09:41:40IT运维版块每日发帖之星
日期:2015-12-09 06:20:00寅虎
日期:2013-12-25 14:59:40天秤座
日期:2013-12-06 14:04:55酉鸡
日期:2013-11-28 10:22:22水瓶座
日期:2013-08-26 15:40:54巨蟹座
日期:2013-08-12 09:42:01每日论坛发贴之星
日期:2015-12-09 06:20:00
26 [报告]
发表于 2013-07-10 12:51 |只看该作者
5年没有改变,改变就出问题.回复 25# jieforest


   

论坛徽章:
0
27 [报告]
发表于 2013-07-10 14:01 |只看该作者
1,你认为这次事故后,灾备系统无法迅速恢复系统的原因是什么?
   
硬件(服务器,主机)的无法更换和接替;软件未及时做更新和容灾机制;人为缺乏统一严格的管理和快速的处理。

2,你认为目前银行的IT系统建设目前存在哪些问题?

首先,缺乏统一规划,今天上个IBM服务器,明天上个HP存储,后天加个负载均衡,再后天换个曙光存储。其次,缺乏集中管理,现在IT管理讲节能,统一规划,异构存储,无论再高明的规划,需要有优秀的人才和管理体制做后盾和调度。再次,在IT方面的投入没有得到良好的回馈,也希望银行领导把信息化看得越来越重,在考虑考虑总体拥有成本( TCO )的情况下,更多得考虑IT的规划和转型。

3,你认为灾备系统的有效性如何得以实现?
比如两城三地异地容灾,本地做双机备份,本地管理员及时做好数据的快照和备份。
说的有点乱,见笑了。:wink:

论坛徽章:
0
28 [报告]
发表于 2013-07-10 15:17 |只看该作者
回复 1# arron刘

1,你认为这次事故后,灾备系统无法迅速恢复系统的原因是什么?
缺少平时的应急演练,同时也没有考虑到DB2数据库升级后的回退方案。
2,你认为目前银行的IT系统建设目前存在哪些问题?
备份固然重要,但只是纯粹的数据备份投入确实过多。不要把备份想象成一个移动硬盘。应该考虑人员的备份、技术的备份、风险的备份。
3,你认为灾备系统的有效性如何得以实现?

灾备最重要的就是和生产数据的切换时间,越短越好。平时应该多做模拟演练。


   

论坛徽章:
0
29 [报告]
发表于 2013-07-10 16:01 |只看该作者
本地镜像备份,本地实时备份,异地镜像备份,异地实时备份,如果出现数据丢失,这样我们也能临时切换走,然后恢复本地数据,不过之前肯定要做好一些准备工作,比如异地的数据能不能支撑银行的访问量,切换异地时如何保障网络访问等。

论坛徽章:
29
技术图书徽章
日期:2013-09-02 19:59:502015元宵节徽章
日期:2015-03-06 15:51:332015小元宵徽章
日期:2015-03-06 15:57:20操作系统版块每日发帖之星
日期:2015-08-16 06:20:002015七夕节徽章
日期:2015-08-21 11:06:17操作系统版块每日发帖之星
日期:2015-09-21 06:20:002015亚冠之水原三星
日期:2015-10-30 00:06:07数据库技术版块每日发帖之星
日期:2015-12-24 06:20:0015-16赛季CBA联赛之上海
日期:2016-01-07 10:32:07操作系统版块每日发帖之星
日期:2016-01-08 06:20:00操作系统版块每日发帖之星
日期:2016-05-18 06:20:00IT运维版块每日发帖之星
日期:2016-07-23 06:20:00
30 [报告]
发表于 2013-07-10 20:06 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP