免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 8705 | 回复: 15
打印 上一主题 下一主题

[文本处理] sed处理大文件时效率低的问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-11-06 12:50 |只看该作者 |倒序浏览
本帖最后由 jiangxu67 于 2014-11-06 12:52 编辑

各位好,最近我在写一个把mysql binlog拼成SQL的回滚脚本,我现在是通过用sed把一个大事务的每个DML操作拿出来拼成SQL
但是因为通常一个DML SQL可能影响少说几十万数据,这样记录到binlog内容可能超过千万行,mysqlbinlog解压后的binlog文件可能达到几个G

我先是通过把每个DML操作处理完就从binlog文件中删除首部的这个DML操作的行数
sed -i '1,'$dml_rows'd'  ./binlog.txt
但是发现这样处理大binlog需要很久,仔细想想确实不妥,处理文件需要重新保存这个过程太耗时
后来我改了脚本不去处理binlog源文件,而是把每个DML语句首行位置定位用sed找到每一个DML的位置打印出来处理
sed -n ''$dml_begin_pos','$dml_end_pos'p'  ./binlog.txt
这样比直接删除文件要快,但是对于1G左右几千万行的文本打印出来也要1秒多,请问还有什么更快的方法么?

论坛徽章:
23
15-16赛季CBA联赛之吉林
日期:2017-12-21 16:39:27白羊座
日期:2014-10-27 11:14:37申猴
日期:2014-10-23 08:36:23金牛座
日期:2014-09-30 08:26:49午马
日期:2014-09-29 09:40:16射手座
日期:2014-11-25 08:56:112015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:49:0315-16赛季CBA联赛之山东
日期:2017-12-21 16:39:1915-16赛季CBA联赛之广东
日期:2016-01-19 13:33:372015亚冠之山东鲁能
日期:2015-10-13 09:39:062015亚冠之西悉尼流浪者
日期:2015-09-21 08:27:57
2 [报告]
发表于 2014-11-06 13:04 |只看该作者
回复 1# jiangxu67


数据库有个命令叫:

rollback

论坛徽章:
0
3 [报告]
发表于 2014-11-06 13:19 |只看该作者
回复 2# ly5066113


    mysql 我们现在配置是auto-commit...

另外淘宝大神改写的mysqlbinlog源码,我测试不好用,所以自己写脚本处理

论坛徽章:
0
4 [报告]
发表于 2014-11-06 15:03 |只看该作者
自己顶一下

论坛徽章:
780
金牛座
日期:2014-02-26 17:49:58水瓶座
日期:2014-02-26 18:10:15白羊座
日期:2014-04-15 19:29:52寅虎
日期:2014-04-17 19:43:21酉鸡
日期:2014-04-19 21:24:10子鼠
日期:2014-04-22 13:55:24卯兔
日期:2014-04-22 14:20:58亥猪
日期:2014-04-22 16:13:09狮子座
日期:2014-05-05 22:31:17摩羯座
日期:2014-05-06 10:32:53处女座
日期:2014-05-12 09:23:11子鼠
日期:2014-05-21 18:21:27
5 [报告]
发表于 2014-11-06 18:16 |只看该作者
1G1秒多还要更快,目测难度不小.

论坛徽章:
1
2015亚冠之柏太阳神
日期:2015-09-29 10:00:55
6 [报告]
发表于 2014-11-06 22:10 |只看该作者
sed适合格式化文本,适合小文件,大文件推荐用mawk。

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
7 [报告]
发表于 2014-11-07 09:29 |只看该作者
回复 6# qq5910225

这是依据什么呢?
   

论坛徽章:
93
2015年辞旧岁徽章
日期:2019-10-10 10:51:15CU大牛徽章
日期:2014-02-21 14:21:56CU十二周年纪念徽章
日期:2020-10-15 16:55:55CU大牛徽章
日期:2014-02-21 14:22:07羊年新春福章
日期:2019-10-10 10:51:39CU大牛徽章
日期:2019-10-10 10:55:38季节之章:春
日期:2020-10-15 16:57:40ChinaUnix元老
日期:2019-10-10 10:54:42季节之章:冬
日期:2019-10-10 10:57:17CU大牛徽章
日期:2014-02-21 14:22:52CU大牛徽章
日期:2014-03-13 10:40:30CU大牛徽章
日期:2014-02-21 14:23:15
8 [报告]
发表于 2014-11-07 11:03 |只看该作者
听起来好高级,操作binlog再来做回滚这样的操作方法不会造成数据丢失或不一致什么的,这得挺高端的技术啊,搬凳子学习学习。

论坛徽章:
0
9 [报告]
发表于 2014-11-07 12:26 |只看该作者
回复 8# seesea2517


    会有这个风险,毕竟生产环境数据实时在变化
我这个工具想法是把每个行变化的binlog说明截断出来做处理,可以选择条件字段和更新字段拼接成SQL
前几天有个开发手潮更新数据没加条件,全表20万数据嗷嗷的就毁了
话说MySQL自己的binlog回滚这方面做得让人头疼

论坛徽章:
0
10 [报告]
发表于 2014-11-07 12:38 |只看该作者
回复 5# Herowinter


    是啊,已经把1G文件打碎成100个速度提高的可怜...整体效率还是慢的一B啊
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP