免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: bobile
打印 上一主题 下一主题

使用python 比较2个100G 左右文件, 要求得出2个文件有多少行是相同的? [复制链接]

论坛徽章:
0
11 [报告]
发表于 2013-03-22 19:01 |只看该作者
我是想:
方法1: A 文件 读入 10W 行, B 文件读入10W 行, 进行对比,然后去除掉 相同的行, 假如去除掉 3W行, 那么分别从 A,B 文件读入3W 行, 在进行比较
方法2: 把 A,B 文件都分成 1000个 100M 的文件, A0...A999, B0...B999, 然后A0 和B0 对比相同的行去掉相同行, 然后A1 和B1 对比相同的行去掉相同行, 最后比较到 A999 B999, 然后再 整理 再次比较

论坛徽章:
4
金牛座
日期:2013-10-11 16:12:50卯兔
日期:2014-07-31 09:17:19辰龙
日期:2014-08-08 09:28:02狮子座
日期:2014-09-14 20:32:05
12 [报告]
发表于 2013-03-22 19:12 |只看该作者
回复 10# jeppeter


    没看懂是怎么实现的。

论坛徽章:
0
13 [报告]
发表于 2013-03-22 19:21 |只看该作者
但是我的 方法1, 和方法2 都有弊端呀,不是 一个完美的算法

论坛徽章:
0
14 [报告]
发表于 2013-03-22 23:18 |只看该作者
hadoop不晓得可以不

论坛徽章:
0
15 [报告]
发表于 2013-03-27 11:23 |只看该作者
将A文件分成多个文件,循环B文件逐行对比,多进程一起跑.

论坛徽章:
0
16 [报告]
发表于 2013-03-27 14:11 |只看该作者
我觉得这个就应该用hash 来做... 把 A 和B 分别通过hash算法 分到100个小文件  A001 ..A100  B001..B100  然后A001  和B001  进行比较...因为通过hash算法来做 所以相同的string 全分在同一个范围内...

这都是外面的面试题....(假如内存为1G   两个文件分别为10G  如何最快取出俩文件相同的部分...)

论坛徽章:
0
17 [报告]
发表于 2013-03-27 14:30 |只看该作者
  1. ..因为通过hash算法来做 所以相同的string 全分在同一个范围内...
复制代码
没看懂

论坛徽章:
29
技术图书徽章
日期:2013-09-02 19:59:502015元宵节徽章
日期:2015-03-06 15:51:332015小元宵徽章
日期:2015-03-06 15:57:20操作系统版块每日发帖之星
日期:2015-08-16 06:20:002015七夕节徽章
日期:2015-08-21 11:06:17操作系统版块每日发帖之星
日期:2015-09-21 06:20:002015亚冠之水原三星
日期:2015-10-30 00:06:07数据库技术版块每日发帖之星
日期:2015-12-24 06:20:0015-16赛季CBA联赛之上海
日期:2016-01-07 10:32:07操作系统版块每日发帖之星
日期:2016-01-08 06:20:00操作系统版块每日发帖之星
日期:2016-05-18 06:20:00IT运维版块每日发帖之星
日期:2016-07-23 06:20:00
18 [报告]
发表于 2013-03-28 07:49 来自手机 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
0
19 [报告]
发表于 2013-03-30 23:29 |只看该作者
回复 1# bobile


    如果大量的字符串是相同的,可以考虑使用字典树来实现

论坛徽章:
0
20 [报告]
发表于 2013-04-01 13:12 |只看该作者
回复 18# Hongqiyaodao


    不可能出现这样的情况.... 同一个string  hash 完成之后的 int 值肯定是相同的...      hash(str)  不可能又等于1 又等于5吧...
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP