免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: 王楠w_n
打印 上一主题 下一主题

【大话IT】由炉石传说数据库事故说起!你的数据如何备份?(获奖名单已公布) [复制链接]

论坛徽章:
224
2022北京冬奥会纪念版徽章
日期:2015-08-10 16:30:32操作系统版块每日发帖之星
日期:2016-02-18 06:20:00操作系统版块每日发帖之星
日期:2016-03-01 06:20:00操作系统版块每日发帖之星
日期:2016-03-02 06:20:0015-16赛季CBA联赛之上海
日期:2019-09-20 12:29:3219周年集字徽章-周
日期:2019-10-01 20:47:4815-16赛季CBA联赛之八一
日期:2020-10-23 18:30:5320周年集字徽章-20	
日期:2020-10-28 14:14:2615-16赛季CBA联赛之广夏
日期:2023-02-25 16:26:26CU十四周年纪念徽章
日期:2023-04-13 12:23:1015-16赛季CBA联赛之四川
日期:2023-07-25 16:53:45操作系统版块每日发帖之星
日期:2016-05-10 19:22:58
11 [报告]
发表于 2017-01-23 18:34 |只看该作者
社区评论不少,有人吼163做事做人要多学学暴雪大神
也有人直接吼大神下次出事情,请提前通知(领取补偿)

论坛徽章:
18
卯兔
日期:2013-09-27 17:41:0615-16赛季CBA联赛之佛山
日期:2016-07-09 17:34:45操作系统版块每周发帖之星
日期:2015-12-02 15:01:04IT运维版块每日发帖之星
日期:2015-12-02 06:20:00IT运维版块每日发帖之星
日期:2015-10-07 06:20:00IT运维版块每日发帖之星
日期:2015-10-03 06:20:00IT运维版块每日发帖之星
日期:2015-10-01 06:20:00羊年新春福章
日期:2015-04-01 17:56:06拜羊年徽章
日期:2015-04-01 17:56:062015年迎新春徽章
日期:2015-03-04 09:49:452015年辞旧岁徽章
日期:2015-03-03 16:54:15天秤座
日期:2015-01-14 06:39:28
12 [报告]
发表于 2017-01-26 10:43 |只看该作者
先说说官方给的电力问题的解释

如果归因在电力问题,那可以解释过去,不过也存在一些问题,先说说解释的问题

1.  电力故障是机房中最严重的故障问题,不仅仅涉及到数据库,同时涉及到其他的业务,比如前台访问均出现问题,并且由于机房电力故障,对于正在高速读写的存储来说灾难性比较大,
这也就造成了,数据可能会丢失。
     举例:我们机房原来发生过一个机柜出现断电,造成数据库对应的部分数据变成不可读,好在是OLAP系统,数据可以再生成,影响不大。

2.  由于异常断电,可能灾备会出现问题,数据没有及时同步过去,造成数据丢失,同时如果没有灾备,数据绝对就会丢失了,但是灾备和生产是在一个机房么? 这是需要考虑的?


除官方给的说明外,我觉得也有几方面造成这样的问题
1. 数据被误操作,包含灾备的数据,同时被误操作。
2. 数据容灾或者备份不到位,真正要启动备份,发现根本不可行。
...................



论坛徽章:
54
2017金鸡报晓
日期:2017-02-08 10:39:42操作系统版块每日发帖之星
日期:2016-03-08 06:20:00操作系统版块每日发帖之星
日期:2016-03-07 06:20:00操作系统版块每日发帖之星
日期:2016-02-22 06:20:00操作系统版块每日发帖之星
日期:2016-01-29 06:20:00操作系统版块每日发帖之星
日期:2016-01-27 06:20:00操作系统版块每日发帖之星
日期:2016-01-20 06:20:00操作系统版块每日发帖之星
日期:2016-01-06 06:20:0015-16赛季CBA联赛之江苏
日期:2015-12-21 20:00:24操作系统版块每日发帖之星
日期:2015-12-21 06:20:00IT运维版块每日发帖之星
日期:2015-11-17 06:20:002015亚冠之广州恒大
日期:2015-11-12 10:58:02
13 [报告]
发表于 2017-01-29 16:12 |只看该作者
1、断电就造成这么大伤害,这系统也应该背点锅才对,包括操作系统、文件系统、数据库系统,断电可以出现异常,丢部分数据也是正常的,但是大批量丢失数据肯定是不正常的。

2、备份和主库同时损坏,这种机率应该比彩票中奖还小,除非……有人为因素。

3、备份和主库放在同一机房?这就不仅仅是技术问题了,领导就根本不拿数据当财富!

4、对于在线的热备,主库坏了,备份库应该马上能接手,但是如果主库被黑了,或者主库出错了,那么热备的库肯定也是完蛋——是不是我想多了?不针对任何人哦!

5、从网易发的声明中有点困惑,回滚的时间为出现问题的时间,然后说有人需要重新练,也就是说,数据库故障后,游戏仍在继续,但是数据没法入库了,那么结论就是:游戏数据不是实时入库,并且数据缓存没有持久化的功能——这种情况跟现在的技术好像不点不搭,我一直认为这方面的技术已经比较成熟了。



论坛徽章:
40
水瓶座
日期:2013-08-15 11:26:422015年辞旧岁徽章
日期:2015-03-03 16:54:152015年亚洲杯之乌兹别克斯坦
日期:2015-03-27 14:01:172015年亚洲杯之约旦
日期:2015-03-31 15:06:442015亚冠之首尔
日期:2015-06-16 23:24:37IT运维版块每日发帖之星
日期:2015-07-01 22:20:002015亚冠之德黑兰石油
日期:2015-07-08 09:32:07IT运维版块每日发帖之星
日期:2015-08-29 06:20:00IT运维版块每日发帖之星
日期:2015-08-29 06:20:00IT运维版块每日发帖之星
日期:2015-10-10 06:20:00IT运维版块每日发帖之星
日期:2015-10-11 06:20:00IT运维版块每日发帖之星
日期:2015-11-10 06:20:00
14 [报告]
发表于 2017-02-04 15:32 |只看该作者
本帖最后由 forgaoqiang 于 2017-02-17 20:23 编辑

祸不单行 不管是gitlab的五层备份 还是各家公司的各种吹的牛,在事故面前都是纸老虎

先解读下官方说明:
我们看到这个破壳而出的Robot甚至牛X,故障发生在1月14日(东八区)的下午3点20分,当时也不是什么阴谋就给数据库供电的电没了,然后数据就损坏了。
当时维护人员就上去搞,发现不管是二进制日志还是啥的都不好使,主数据库宣告正式阵亡。
于是团队找了备份君顶上去,不知道什么原因备份君也不给力,一起跟着歇菜了(比较奇怪,备份君为啥会也跟着歇菜呢)
没办法只能继续回溯,找更早的备份君顶上去。

于是和当年腾讯QQ一样做了个艰难的决定,把大家的数据都丢了吧,回炉重造(毕竟是炉石嘛,可以重头练)
当然大家的损失我们还是要补偿的,比如每个人添加点数据进去(要真金白银那是肯定不行的,当然我们回头开个会决定下给多少)





故事情节大概就是上面说的吧,于是问题就来了:

炉石传说,这可是炉石传说啊,直播都排名前几的超级火的游戏,那哗哗的氪金玩家的银子那是流淌个不停,运维肯定是最顶尖的,服务器和设备也是最好的,当然供电和空调肯定也是必备的,只是出了点问题:
首先电源不知道为什么没了(如果真是电源没了的话),物理安全存在问题。
当然不就是没电了么,上电后继续跑呗,额 跑不动了,系统损坏了,已经和windows和linux还是unix无关了,总之数据是不对了
当然这都是小事,旁边不还是有个slave等着么,他整天想着翻身把歌唱,只是继续咸鱼了
先不说主服务器那么容易歇菜,问题是备份服务器为什么也会跟着一起歇菜,不是没做好就是有人做的太好

总之吧,这事就是个教训,肯定没有检查过备份君的情况,估计他一直没有好好干活





论坛徽章:
42
19周年集字徽章-周
日期:2019-10-14 14:35:31平安夜徽章
日期:2015-12-26 00:06:30数据库技术版块每日发帖之星
日期:2015-12-01 06:20:002015亚冠之首尔
日期:2015-11-04 22:25:43IT运维版块每日发帖之星
日期:2015-08-17 06:20:00寅虎
日期:2014-06-04 16:25:27狮子座
日期:2014-05-12 11:00:00辰龙
日期:2013-12-20 17:07:19射手座
日期:2013-10-24 21:01:23CU十二周年纪念徽章
日期:2013-10-24 15:41:34IT运维版块每日发帖之星
日期:2016-01-27 06:20:0015-16赛季CBA联赛之新疆
日期:2016-06-07 14:10:01
15 [报告]
发表于 2017-02-06 14:37 |只看该作者
这类大型游戏,估计数据库都是集群,做了切片处理。
停电之后数据库损坏,这个可以理解,主备库可能在同机房。电信的idc机房都时不时来一次全区域掉电。游戏数据库,估计也不可能做到异地容灾。
只能使用之前备份的镜像+停电前的事务日志进行恢复。
如果等到恢复之后再开服,应该问题不大。
但是如果带病运行,不同服务器间的数据一致性就会被破坏,无法恢复。

论坛徽章:
0
16 [报告]
发表于 2017-02-08 11:35 |只看该作者
1.首先确认通过此类事故,用户关键业务的RTO、RPO要求是多少?
2.其次需要确认用户的环境信息,什么数据库,版本信息,运行在什么平台,物理机还是虚拟机?
了解了这些大致状况,才能给用户推荐合适的方案。当然,方案也是基于预算的。
备份方案的RTO和RPO毕竟是有限的,满足不了的情况下就应该考虑关键业务的本地双活了,那就是另外的话题了。

论坛徽章:
10
CU大牛徽章
日期:2013-05-20 10:44:54数据库技术版块每日发帖之星
日期:2015-06-09 22:20:00IT运维版块每日发帖之星
日期:2015-06-05 22:20:00亥猪
日期:2014-08-23 14:52:27摩羯座
日期:2013-11-29 18:02:31CU十二周年纪念徽章
日期:2013-10-24 15:41:34CU大牛徽章
日期:2013-05-20 10:45:31CU大牛徽章
日期:2013-05-20 10:45:24CU大牛徽章
日期:2013-05-20 10:45:13综合交流区版块每日发帖之星
日期:2016-02-12 06:20:00
17 [报告]
发表于 2017-02-11 21:57 |只看该作者
本帖最后由 fengzhanhai 于 2017-02-18 09:32 编辑

回复 1# 王楠w_n
主题错了

论坛徽章:
5
IT运维版块每日发帖之星
日期:2015-08-25 06:20:002017金鸡报晓
日期:2017-01-10 15:13:292017金鸡报晓
日期:2017-02-08 10:33:2115-16赛季CBA联赛之新疆
日期:2018-04-23 13:55:2315-16赛季CBA联赛之辽宁
日期:2018-07-23 08:59:12
18 [报告]
发表于 2017-02-13 14:59 |只看该作者
个人觉得,他们给出的是备份数据不能恢复
这个是有可能的,但是有数据库备份权限的用户全备不可能不检查的吧
有可能只备份了数据结构? 还是什么,也有可能备份的管理员换了个人,导致出了问题。
这些很难说,也有可能是恶意删除。的原因,说不准。
不过还是警醒运维人员,数据要多备份,每个月要查看一次备份数据是否正常。

论坛徽章:
40
水瓶座
日期:2013-08-15 11:26:422015年辞旧岁徽章
日期:2015-03-03 16:54:152015年亚洲杯之乌兹别克斯坦
日期:2015-03-27 14:01:172015年亚洲杯之约旦
日期:2015-03-31 15:06:442015亚冠之首尔
日期:2015-06-16 23:24:37IT运维版块每日发帖之星
日期:2015-07-01 22:20:002015亚冠之德黑兰石油
日期:2015-07-08 09:32:07IT运维版块每日发帖之星
日期:2015-08-29 06:20:00IT运维版块每日发帖之星
日期:2015-08-29 06:20:00IT运维版块每日发帖之星
日期:2015-10-10 06:20:00IT运维版块每日发帖之星
日期:2015-10-11 06:20:00IT运维版块每日发帖之星
日期:2015-11-10 06:20:00
19 [报告]
发表于 2017-02-16 21:44 |只看该作者
感觉备份可能是做了 但是至于能不能用 只能在主数据不能用的时候才知道了

论坛徽章:
0
20 [报告]
发表于 2017-02-17 08:55 |只看该作者
hellioncu 发表于 2017-01-23 09:39
说是1.14 15:20停电导致数据库损坏,备份也坏无法恢复,后面又说回档到1.14 15:20的状态,那就是说停电并没 ...

我也留意了
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP