免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 56591 | 回复: 6

[数据库] 7月份的时候,宁夏银行系统故障业务中断37小时 ,7年未购维保服务,您怎么看? [复制链接]

论坛徽章:
7
天蝎座
日期:2013-08-16 23:19:32丑牛
日期:2014-01-08 09:20:14寅虎
日期:2014-01-11 11:03:44午马
日期:2014-04-28 11:02:40天秤座
日期:2014-05-16 23:24:24摩羯座
日期:2014-07-20 10:46:04卯兔
日期:2014-08-08 15:21:41
发表于 2014-08-06 21:44 |显示全部楼层
宁夏银行今年7月1日下午15时至7月3日核心系统数据库出现故障,导致存取款、网银、ATM等业务全部中断长达37个多小时,其间只能依靠手工办理业务。

下面是详细报道:
有消息称,监管部门发文也通报了宁夏银行的这起数据库故障,称经初步分析,在季末结算业务量较大的情况下,因备份系统异常导致备份存储磁盘读写处理严重延时,备份与主存储数据不一致,在采取中断数据备份录像操作后,造成生产数据库损坏并宕机。
  不过本报记者暂未联系上监管部门置评。某城商行电子银行部负责人表示,听说了宁夏银行数据库故障的事,但暂未收到监管部门的文件。
  当日21世纪经济报道记者致电宁夏银行董事会办公室时,相关工作人员表示,“不方便说”。至于数据库故障是否造成损失,其称,“以监管部门的通报为准”。
  曾经的演练:仅1小时恢复正常
  有媒体引述监管部门消息称,2014年7月1日,宁夏银行核心系统数据库出现故障,导致该行(含异地分支机构)存取款、转账支付、借记卡、网上银行、ATM和POS业务全部中断。因宁夏银行应急恢复处置机制严重缺失,导致系统恢复工作进展缓慢,业务系统中断长达37小时40分钟,其间完全依靠手工办理。
  尽管宁夏银行并未有相关公告,但是另外两则消息可以佐证这一事实。7月2日,银川市医疗保险事务管理中心官方微博称,因宁夏银行机房出现故障,自2014年7月1日15:30起全市定点医疗机构和定点零售药店共700多家不能刷医保卡(社保卡)就医结算。
  此外,宁夏土地和矿业权交易中心网站也于7月3日通知,宁夏银行2014年7月1日下午15时37分至7月3日8时30分业务系统出现故障,导致土地和矿业权网上交易系统无法与银行连接。
  前述城商行电子银行部负责人向21世纪经济报道表示,“之前有一家全国性的商业银行也出现过这样的情况,核心数据库出现故障。不过造成业务这么长时间中断的比较少见。”
  监管部门此前就对银行的信息系统安全提出诸多指导意见。早在2006年,央行和银监会就分别发文,要求全国性大型银行,原则上同时采用同城和异地灾难备份和恢复策略,区域性银行可采用同城或异地灾难备份和恢复策略。
  2008年2月,央行发布《银行业信息系统灾难恢复管理规范》要求:短时间中断对国家、外部机构和社会产生重大影响或影响单位关键业务功能并造成重大经济损失的系统RTO(恢复时间目标)<6小时,RPO(恢复点目标)<15分钟。
  RTO是反映业务恢复及时性的指标,表示业务从中断到恢复正常所需的时间;RPO是反映恢复完整性的指标,在同步复制下,RPO等于数据传输时延长时间。
  宁夏银行官网刊登于2010年的一篇新闻稿也表示,该行当时实施过一次异地灾难恢复演练。宁夏银行数据中心与备份中心,分处宁夏银川和陕西西安。演练设计了数据库系统瘫痪和数据中心发生火灾两个场景,分别进行本地和异地的系统恢复和切换。
  模拟灾难发生后,银川数据中心瘫痪,无法向外界提供服务。此时,需要在西安容灾中心启动备份系统进行数据和业务恢复。该行称,演练的RTO<1小时,RPO<1分钟。
  2007年至今未购维保服务
  按照前述媒体的说法,监管部门表示,宁夏银行系统故障的根源在于,安全意识薄弱、应急管理体系缺失、应急处置过程混乱。核心系统数据库版本严重老化,2007年至今未购买维保服务。核心系统长期缺乏维护,事故发生后,无法获得系统供应商及时的数据支持。系统恢复过程中,缺乏应急预案和准备,长时间无法实施有效处置,导致业务恢复缓慢,对银行产生较为严重的影响。
  前述城商行电子银行部负责人表示,按监管部门的要求,大型银行的要建立“两地三中心”的灾备设施。要求银行的核心系统,既要有同城的灾备中心,也要有异地的。
  有业内人士向21世纪经济报道透露,灾备中心的投入巨大,年运营和维保费用一般都是几千万元。
  上述电子银行部人士也表示,“通常情况,银行数据库系统的延长维保费用每年约为购买费用的20%,核心的数据库都会购买维保服务,这是最重要的,这是不能省的钱。”
  宁夏银行此前还表示,该行大胆采用了新技术——持续数据保护技术(CDP),并从2010年2月开始实施新核心主机的升级方案和业务系统升级方案,进行CDP灾备设备的部署。
  宁夏银行信息技术部负责人王春也曾表示,“不可能抛开股东回报和经营业绩去建设一个非常昂贵的系统,成本因素是中小银行建设灾备系统时特别需要考虑的问题,也是宁夏银行灾备系统建设的着眼点之一。”
  至于什么产品能降低成本呢?王春认为,“就是选择开放式技术的产品,我们现在用的设备自己的工程师基本上能够独立操作,遇到处理不了的故障还可以找国内的厂家,能够提供技术服务的公司不止一家,这就避免了垄断厂家对服务费漫天要价的情况。”
  前述城商行电子银行部负责人也表示,CDP就是把数据的变化传到本地和异地,也可以还原到某个时点,很多银行都在用这种系统。开放性产品的确是更能节约成本,不过这次宁夏银行系统故障应该和开放式、封闭式系统没有关系。目前有相当多的银行采用封闭式系统,更多是取决于银行自身的应用环境,这就好比安卓和苹果系统,无法比较优劣。

从上面得到:
1.数据库宕机的原因:
称经初步分析,在季末结算业务量较大的情况下,因备份系统异常导致备份存储磁盘读写处理严重延时,备份与主存储数据不一致,在采取中断数据备份录像操作后,造成生产数据库损坏并宕机。
如此就宕机了,您怎么看? 存储问题?还是数据库问题?
2.宁夏银行曾经恢复演练:
仅一小时恢复正常,为什么核心业务中断达37小时之久? 如此,要这容灾系统何用!
如此演练,您怎么看?
3.宁夏银行7年不请乙方DBA,让我们这些乙方DBA们情何以堪啊。
7年不请维保商, 您怎么看? 人生有几个7年,7年=37小时吗? “真值!”
4.最后,谈谈您的看法,DBA们如何才能保证您的关键业务数据库不宕机,即使宕机,恢复的时间也在SLA之内。




论坛徽章:
17
天蝎座
日期:2014-03-10 14:35:04数据库技术版块每日发帖之星
日期:2015-12-13 06:20:00IT运维版块每日发帖之星
日期:2015-12-13 06:20:00数据库技术版块每日发帖之星
日期:2015-10-20 06:20:00数据库技术版块每日发帖之星
日期:2015-08-21 06:20:00数据库技术版块每日发帖之星
日期:2015-06-17 22:20:002015年迎新春徽章
日期:2015-03-04 09:57:092015年辞旧岁徽章
日期:2015-03-03 16:54:15技术图书徽章
日期:2015-01-12 17:05:35亥猪
日期:2014-11-09 13:05:04金牛座
日期:2014-09-25 11:28:54处女座
日期:2014-09-15 19:58:36
发表于 2014-08-07 09:49 |显示全部楼层
确实是好话题呀,涉及的东西真的很多。
1.不管是存储性能问题也好,还是数据库问题也好,我觉得平时得关注一下高峰期的性能状态吧,如果长期有问题,应该事先调整一下。表面上是技术问题,实际上是态度问题吧。
2.可能在系统正常状态下演练是理想化的,真正发生了问题的话,确实有可能有意料之外的难题,这都是正常的。感觉最好是容灾+全库备份方式都用,思路上没问题。
3.有果就有因,专业的人干专业的事,术业有专攻,省钱不省心,省心不省钱。
4.多学习,多做实验,多监控系统和容灾、备份的健康状态,密切关注系统相关的各方面指标,多来论坛交流、讨论,看看别人遇到的奇怪的案例和变态的场景,一个人能遇到的问题不如一群人遇到的问题多,一个人的思路不如一群人的思路开阔。

论坛徽章:
0
发表于 2014-08-08 15:30 |显示全部楼层
吐槽一句,在论坛里混的甲方,都是从来不请乙方DBA的,不然谁还来逛论坛啊?!

论坛徽章:
0
发表于 2014-08-10 09:44 |显示全部楼层
值了 呵呵

论坛徽章:
1
荣誉版主
日期:2011-11-23 16:44:17
发表于 2014-08-26 00:30 |显示全部楼层
1.数据库宕机的原因:
称经初步分析,在季末结算业务量较大的情况下,因备份系统异常导致备份存储磁盘读写处理严重延时,备份与主存储数据不一致,在采取中断数据备份录像操作后,造成生产数据库损坏并宕机。
如此就宕机了,您怎么看? 存储问题?还是数据库问题?

业务遇到高峰,数据库变慢,cdp方式,如果I/O压力太大,是不是会影响到源系统?
CDP中断数据备份录像操作,如果是高峰期停掉lvm的镜像,是否会风险很大?
是数据库损坏并宕机,还是宕机后损坏了数据库?
informix生产有每天全备份和归档日志备份没?

论坛徽章:
71
15-16赛季CBA联赛之同曦
日期:2018-08-23 15:41:42辰龙
日期:2014-08-15 09:07:43狮子座
日期:2014-06-03 13:55:33亥猪
日期:2014-06-02 11:17:08巨蟹座
日期:2014-05-06 10:02:03午马
日期:2014-05-04 08:18:27亥猪
日期:2014-04-29 11:11:32技术图书徽章
日期:2014-04-24 15:51:26技术图书徽章
日期:2014-04-17 11:01:53辰龙
日期:2014-04-15 12:45:46亥猪
日期:2014-04-11 09:06:23射手座
日期:2014-04-01 15:28:10
发表于 2014-09-16 15:36 |显示全部楼层
说明产品乱透了

论坛徽章:
4
CU十二周年纪念徽章
日期:2013-10-24 15:41:34摩羯座
日期:2013-12-24 13:05:332015亚冠之西悉尼流浪者
日期:2015-10-09 16:03:47fulanqi
日期:2016-06-17 17:54:25
发表于 2014-09-22 18:38 |显示全部楼层
本帖最后由 hbsycw 于 2014-09-22 18:39 编辑

全球第一大行 工行,前段时间不也出问题导致核心业务系统停摆吗?请问,又能说明神马问题?
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP