免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
123下一页
最近访问板块 发新帖
查看: 8814 | 回复: 25
打印 上一主题 下一主题

使用python 比较2个100G 左右文件, 要求得出2个文件有多少行是相同的? [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-03-22 17:27 |只看该作者 |倒序浏览
使用python 比较2个100G 左右文件, 要求得出2个文件有多少行是相同的? 文件中的每行就是一些字符串
请教大虾 使用python 怎么做

论坛徽章:
0
2 [报告]
发表于 2013-03-22 17:29 |只看该作者
求指点一个方法

论坛徽章:
1
15-16赛季CBA联赛之新疆
日期:2017-03-09 12:33:45
3 [报告]
发表于 2013-03-22 18:13 |只看该作者
回复 1# bobile


    请问,你这个文件的内容是位置相关的吗?就是如果一个内容A出现在100行,与出现在1000行的意义是不同的。如果是,那最好用diff库。这个可以参考difflib
    如果你的是位置无关的,只是想找到不同的,那这么大,一定要进行排序,再用排序对比的方法。

论坛徽章:
4
金牛座
日期:2013-10-11 16:12:50卯兔
日期:2014-07-31 09:17:19辰龙
日期:2014-08-08 09:28:02狮子座
日期:2014-09-14 20:32:05
4 [报告]
发表于 2013-03-22 18:17 |只看该作者
楼上说了我想说的,比如a文件中的第100行,与b文件中的第1000行相同,算不算相同呢?

论坛徽章:
0
5 [报告]
发表于 2013-03-22 18:30 |只看该作者
回复 4# ssfjhh


    算相同的

论坛徽章:
0
6 [报告]
发表于 2013-03-22 18:33 |只看该作者
jeppeter 发表于 2013-03-22 18:13
回复 1# bobile


我就是需要用排序,但是 我想把文件 拆分为 100M 左右的文件再来 排序

论坛徽章:
0
7 [报告]
发表于 2013-03-22 18:33 |只看该作者
不知道 采用什么排序 方法好, 排序后 还需要对比 也是个麻烦的事情

论坛徽章:
4
金牛座
日期:2013-10-11 16:12:50卯兔
日期:2014-07-31 09:17:19辰龙
日期:2014-08-08 09:28:02狮子座
日期:2014-09-14 20:32:05
8 [报告]
发表于 2013-03-22 18:42 |只看该作者
回复 6# bobile


    比对很简单,但是你拆分成100M的文件以后,如果b文件中100M以后的一行与a文件中100M以前的一行相同,怎么算?

论坛徽章:
0
9 [报告]
发表于 2013-03-22 18:49 |只看该作者
是的,我觉得现在 就是 没有一个方法来处理 这个问题, 不知道 可不可以用hash

论坛徽章:
1
15-16赛季CBA联赛之新疆
日期:2017-03-09 12:33:45
10 [报告]
发表于 2013-03-22 18:51 |只看该作者
回复 8# ssfjhh


    这个排序方法,先是用局部的quicksort,再把排序好的小文件,进行合并排序。这样是可行的办法。我在50M的测试过,大概是几秒种解决问题。当然,我是用的RAMDISK上进行测试的。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP