免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1167 | 回复: 0
打印 上一主题 下一主题

[MongoDB] MongoDB 误操作后的point in time recovery [复制链接]

求职 : Linux运维
论坛徽章:
203
拜羊年徽章
日期:2015-03-03 16:15:432015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:57:092015小元宵徽章
日期:2015-03-06 15:58:182015年亚洲杯之约旦
日期:2015-04-05 20:08:292015年亚洲杯之澳大利亚
日期:2015-04-09 09:25:552015年亚洲杯之约旦
日期:2015-04-10 17:34:102015年亚洲杯之巴勒斯坦
日期:2015-04-10 17:35:342015年亚洲杯之日本
日期:2015-04-16 16:28:552015年亚洲杯纪念徽章
日期:2015-04-27 23:29:17操作系统版块每日发帖之星
日期:2015-06-06 22:20:00操作系统版块每日发帖之星
日期:2015-06-09 22:20:00
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2016-01-23 20:08 |只看该作者 |倒序浏览
在生产环境中,尽管我们尽力避免,但是还是会遇到误操作或是其他情况的出现。
这时候我们就需要进行Point in time recovery了。
我们point in time recovery 是基于oplog进行的,所以请确保oplog的size足够大,也请确保定时有冷备份(或是延时备份)

切记:在出现问题的时候,我们第一时间要做的时保护犯罪现场,停止应用写入,保护数据库数据与状态。有可能的话,在进行恢复之前,将现在的oplog进行一次全备份,也将现在数据进行一次全备份。

以下是通过冷备份+oplog进行point in time recovery的例子(例子仅供参考,实际中请根据情况来操作,过程需严谨。):

1.首先我们往一个collection里插入数据。


zhou1RIMARY>  use test3
switched to db test3
zhou1RIMARY>
zhou1RIMARY>  for (var i=0;i<1000;i++){
...  db.a.save({"a":i})
...   }
2.让我们来检查下collection a中的数据

   
zhou1RIMARY> db.a.find()
{ "_id" : ObjectId("54655693f169ef6a4b9cf9b4", "a" : 0 }
{ "_id" : ObjectId("54655693f169ef6a4b9cf9b5", "a" : 1 }
{ "_id" : ObjectId("54655693f169ef6a4b9cf9b6", "a" : 2 }
{ "_id" : ObjectId("54655693f169ef6a4b9cf9b7", "a" : 3 }
{ "_id" : ObjectId("54655693f169ef6a4b9cf9b8", "a" : 4 }
{ "_id" : ObjectId("54655693f169ef6a4b9cf9b9", "a" : 5 }
{ "_id" : ObjectId("54655693f169ef6a4b9cf9ba", "a" : 6 }
{ "_id" : ObjectId("54655693f169ef6a4b9cf9bb", "a" : 7 }
{ "_id" : ObjectId("54655693f169ef6a4b9cf9bc", "a" : 8 }
{ "_id" : ObjectId("54655693f169ef6a4b9cf9bd", "a" : 9 }
{ "_id" : ObjectId("54655693f169ef6a4b9cf9be"), "a" : 10 }
{ "_id" : ObjectId("54655693f169ef6a4b9cf9bf"), "a" : 11 }
{ "_id" : ObjectId("54655693f169ef6a4b9cf9c0"), "a" : 12 }
{ "_id" : ObjectId("54655693f169ef6a4b9cf9c1"), "a" : 13 }
{ "_id" : ObjectId("54655693f169ef6a4b9cf9c2"), "a" : 14 }
{ "_id" : ObjectId("54655693f169ef6a4b9cf9c3"), "a" : 15 }
{ "_id" : ObjectId("54655693f169ef6a4b9cf9c4"), "a" : 16 }
{ "_id" : ObjectId("54655693f169ef6a4b9cf9c5"), "a" : 17 }
{ "_id" : ObjectId("54655693f169ef6a4b9cf9c6"), "a" : 18 }
{ "_id" : ObjectId("54655693f169ef6a4b9cf9c7"), "a" : 19 }
Type "it" for more
zhou1RIMARY> db.a.find().count()
1000
3.这时候我们将a表dump出来做备份。


# mongodump --port 37017 -d test3 -c a -o /tmp/test3/
4.我们再往a中插入一条document


zhou1RIMARY> db.a.save({a:19999})
zhou1RIMARY> db.a.find().count()
1001
5.删除a表中,a为10的document


zhou1RIMARY> db.a.remove({"a":10})
zhou1RIMARY> db.a.find().count()
1000
6.再像a表中插入一条document


zhou1RIMARY> db.a.save({a:9999})
zhou1:PRIMARY> db.a.find().count()
1001
7.我们现在想要取消操作5(remove操作,假设其为误操作),但是不影响其他数据。

a.我们先整体备份oplog(保护犯罪现场,哈哈,防止出现其他问题,有可能的话,还可以将现在的数据进行一次备份,防止如果操作失败造成的数据问题。)


# mongodump --port=37017 -d local -c oplog.rs -o /tmp/oplog/
再取出dump之后到删除之前的oplog。
先根据时间戳和操作特性找到操作5的ts



zhou1:PRIMARY> db.oplog.rs.find({"op" : "d","ns" : "test3.a",},{ts:1}).pretty()
{ "ts" : Timestamp(1415928580, 1) }
再根据这个ts 和dump的时间ts 来查询dump之后,删除之前的oplog。


zhou1:PRIMARY> db.oplog.rs.find({ts:{$lt:Timestamp(1415928580, 1),$gt: Timestamp(1415928529, 1000)}}).pretty()
{
        "ts" : Timestamp(1415928569, 1),
        "h" : NumberLong("-4718889676574368147"),
        "v" : 2,
        "op" : "i",
        "ns" : "test3.a",
        "o" : {
                "_id" : ObjectId("54655af9e6e268b4ebe284c5"),
                "a" : 19999
        }
}
由于生产环境中会是很多操作,所以将其dump出来。


# mongodump --port 37017 -d local -c oplog.rs -q '{ts:{$lt:Timestamp(1415928580, 1),$gt: Timestamp(1415928529, 1000)}}' -o /tmp/oplog1/

再同理找到操作5之后的操作。将其dump出来


mongodump --port 37017 -d local -c oplog.rs -q '{ts:{$gt:Timestamp(1415928580, 1)}}' -o /tmp/oplog2/
8.可以进行恢复了,删除a表,并用3操作中的dump file 进行恢复


# mongorestore --port 37017 -d test3 -c a /tmp/test3/test3/a.bson
检查下


zhou1:PRIMARY> db.a.find().count()
1000
zhou1:PRIMARY> db.a.find({a:10})
{ "_id" : ObjectId("54655693f169ef6a4b9cf9be"), "a" : 10 }
我们发现,数据恢复到操作5之前了。

9.我们先将7操作中备份的oplog1 恢复到其他机器的mongodb local数据库中(原先无oplog.rs表的)。
在使用mongooplog 来恢复我们dump数据到remove操作这段时间内的数据。


# mongooplog --port=37017 -d test3 -c a --from xxxx(oplog1恢复到的机器)

zhou1:PRIMARY> use test3
switched to db test3
zhou1:PRIMARY> db.a.find().count()
1001
zhou1:PRIMARY> db.a.find({a:19999})
{ "_id" : ObjectId("54655af9e6e268b4ebe284c5"), "a" : 19999 }
10.将之前恢复了oplog1的机器的oplog.rs删除,并恢复oplog2.
使用mongooplog 来恢复我们remove操作之后的数据变动。


# mongooplog --port=37017 -d test3 -c a --from xxxx(oplog1恢复到的机器)

zhou1:PRIMARY> use test3
switched to db test3
zhou1:PRIMARY> db.a.find().count()
1002
zhou1:PRIMARY> db.a.find({a:9999})
{ "_id" : ObjectId("54655b0fe6e268b4ebe284c6"), "a" : 9999 }

至此,我们整个的point in time recovery 便完成了。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP