免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1484 | 回复: 1
打印 上一主题 下一主题

[MongoDB] Mongodump 工作原理(代码解读) [复制链接]

求职 : Linux运维
论坛徽章:
203
拜羊年徽章
日期:2015-03-03 16:15:432015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:57:092015小元宵徽章
日期:2015-03-06 15:58:182015年亚洲杯之约旦
日期:2015-04-05 20:08:292015年亚洲杯之澳大利亚
日期:2015-04-09 09:25:552015年亚洲杯之约旦
日期:2015-04-10 17:34:102015年亚洲杯之巴勒斯坦
日期:2015-04-10 17:35:342015年亚洲杯之日本
日期:2015-04-16 16:28:552015年亚洲杯纪念徽章
日期:2015-04-27 23:29:17操作系统版块每日发帖之星
日期:2015-06-06 22:20:00操作系统版块每日发帖之星
日期:2015-06-09 22:20:00
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2016-01-14 10:19 |只看该作者 |倒序浏览
本帖最后由 lyhabc 于 2016-01-14 10:19 编辑

MongoDB 在3.0 用Go 语言重写了所有的工具集。下面是对一个最常用的mongodump 备份工具做一些介绍。主要注意的地方:
* mongodump可以使用多线程来进行并发dump
* 单个集合还是只能单线程
* 使用oplog选项可以实现Point In Time备份

源码地址: https://github.com/mongodb/mongo-tools/tree/master/mongodump

1. 主要类

main/mongodump.go 入口文件
mongodump.go 主要工作文件
oplog_dump.go Oplog 的dump实现
2. main/mongodump.go

初始化并校验参数
初始化logger
创建 MongoDump实例并调用Dump() 方法 (下面3.1)
3. mongodump.go

3.1 Dump()

再次校验参数
检查是否需要dump 用户数据(默认为否)
检查是否有Archive标记
创建dump intents(dump 任务,以集合为单位)
a. 所有库的所有集合
b. 指定库的所有集合
c. 某个集合
创建 system indexes 任务: DumpSystemIndexes()
创建oplog 任务: CreateOplogIntents()
执行dump user 和 roles: DumpUsersAndRoles()
记录当前oplog timestamp,如果指定了 oplog选项的话
执行 DumpIntents()
8.1 根据 min(parallelCollection, 集合数) 决定job线程数
8.2 并发job个线程来执行DumpIntent(). 见下面3.2
dump oplog, 从第7步记录的时间点开始 DumpOplogAfterTimestamp() – 见下面4.1
检查oplog没有overflow(如果有overflow就报错推出)
3.2 DumpIntent()

一个DumpIntent方法调用执行一个集合的dump。同一个集合只有一个线程执行

创建一个mgo 客户端session (这里使用mgo客户端驱动,所以必须要有mongod实例在运行才可以,之前直接dump 数据库文件的方式不再支持)
取决于 query 参数的设置,决定文档扫描方式(query方式):
a. 如果指定了query,那么执行一个普通的Find 语句来读取数据
b. 如果制定了TableScan选项,那么使用非snapshot方式: Find()。
c. 默认是使用snapshot方式: Find( ).snapshot() 。
执行 dumpQueryToWriter() – 下面3.3
这里一些关于第二步扫描方式的进一步讨论:

Mongodump默认方式是使用snapshot,其实就是会通过扫描_id 索引,然后再读取实际的文档。这个性能会较之于TableScan选项会低一点,因为TableScan直接就按mongodb的物理存储顺序进行扫描,没有一个读index的过程。 但是TableScan的潜在问题是,如果一个文档在dump的过程中被移动(物理上),有可能会在最终输出中出现两次,因为是按物理顺序读取的。

3.3 dumpQueryToWriter()

执行 query
遍历query的游标,读一个,写一个到输出流
4. oplog_dump.go

4.1 DumpOplogAfterTimestamp()

在local库的oplog.rs上面执行 Find({ ts: {$gt: TIME_STAMP }})
调用 dumpQueryToWriter 把 oplog 的文档写到输出流
注意这里的TIME_STAMP 就是 步骤3.1.7 里记录的时间点,也即是包含了从Mongodump正式开始前到这个oplog查询结束位置所有的oplog记录。

使用GO语言重新编写
一个集合只能一个线程dump,跟mysql一样
默认生成snapshot

论坛徽章:
8
数据库技术版块每日发帖之星
日期:2015-12-22 06:20:00平安夜徽章
日期:2015-12-26 00:06:30数据库技术版块每日发帖之星
日期:2016-01-21 06:20:00IT运维版块每日发帖之星
日期:2016-02-03 06:20:00技术图书徽章
日期:2016-02-03 16:35:252016猴年福章徽章
日期:2016-02-18 15:30:34shanzhi
日期:2016-06-17 17:59:31JAVA
日期:2016-10-25 16:16:28
2 [报告]
发表于 2016-01-18 21:14 |只看该作者
                                
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP