免费注册	查看新帖 \|


平台论坛博客文库

› 论坛 › 程序设计 › Python › python 大文件去重问题

最近访问板块

发新帖

查看: 6366 | 回复: 4

上一主题

下一主题

python 大文件去重问题 [复制链接]

论坛徽章:: 0

电梯直达

跳转到指定楼层

1楼 [收藏(0)] [报告]

发表于 2015-11-20 23:45 |只看该作者 |倒序浏览

本帖最后由 yhizyh 于 2015-11-20 23:46 编辑

今天遇到一个问题，处理几个大文件，1个文件为2G ，1个文件大小为  4G，我看了一下里面数据条数是129115369 条，现在这些数据有很多都是重复的，不是逐行重复，不一定那条和那条重复，我要去掉重复数据，可是用了set 、sort都不能正常处理这个文件，肯定不是我程序的问题，同样内容的文件我处理800-900M都可以，就是2个特大的处理不了。所以请教一下对于这种特大文件有什么办法没有。谢谢了

-rw-rw-r-- 1 root root 2.7G 11月 20 21:24 f10.txt
-rw-rw-r-- 1 root root 4.6G 11月 20 22:40 f11.txt
-rw-rw-r-- 1 root root  65M 11月 20 20:33 f6.txt
-rw-rw-r-- 1 root root 218M 11月 20 20:34 f7.txt
-rw-rw-r-- 1 root root 604M 11月 20 20:38 f8.txt
-rw-rw-r-- 1 root root 1.4G 11月 20 20:51 f9.txt
-rw-r----- 1 root root  838 11月 20 22:50 RemoveSimilar.py

目前就是两个最大的文件处理不了。
通过list(set())方法处理的部分代码

def modi_File(filename):
sFile="out/"+filename
oFile="out1/"+filename
fp = file(sFile,"r")
lines = fp.readlines()
fp.close()
index =0
count =len(lines)
while index<count:
lines[index]=lines[index].strip("\n")
index +=1
flines=list(set(lines))
fp_w=file(oFile,"w")
count=0
for line in flines:
fp_w.write(str(line)+"\n")
count +=1
fp_w.write("数据总量：%s"%count)
fp_w.close()

复制代码

文库|博客

论坛徽章:: 26

2015亚冠之胡齐斯坦钢铁
日期:2015-06-25 21:40:20

2015亚冠之柏斯波利斯
日期:2015-08-31 17:03:19

2015亚冠之柏斯波利斯
日期:2015-11-07 13:10:00

程序设计版块每日发帖之星
日期:2015-11-10 06:20:00

每日论坛发贴之星
日期:2015-11-10 06:20:00

程序设计版块每日发帖之星
日期:2015-11-26 06:20:00

程序设计版块每日发帖之星
日期:2015-12-02 06:20:00

黄金圣斗士
日期:2015-12-07 17:57:46

15-16赛季CBA联赛之天津
日期:2015-12-23 18:34:14

程序设计版块每日发帖之星
日期:2016-01-02 06:20:00

程序设计版块每日发帖之星
日期:2016-01-06 06:20:00

每日论坛发贴之星
日期:2016-01-06 06:20:00

2楼 [报告]

发表于 2015-11-21 10:13 |只看该作者

我是小白
还请前辈多多指导。

#!/usr/bin/python2
# coding: utf-8
def modi (filename):
IN = '/tmp/' + filename # "out/" + filename
OUT = '/tmp/' + '_' + filename # "out1/" + filename
fhi = open (IN)
fho = open (OUT, 'w')
uniq = set ()
count = 0
for line in fhi:
if line in uniq: continue
uniq.add (line)
count += 1
fho.write (line)
fho.write ("数据总量：%s" % count)
fhi.close ()
fho.close ()
modi ('xyz')

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

3楼 [报告]

发表于 2015-11-21 15:05 |只看该作者

回复 2# substr函数

太棒了，上次也是麻烦您了。非常感谢。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

4楼 [报告]

发表于 2016-04-05 16:36 |只看该作者

回复 1# yhizyh
这样的问题，不用编程，用UNIX命令

cat filename | sort | uniq

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 4

程序设计版块每日发帖之星
日期:2015-10-14 06:20:00

每日论坛发贴之星
日期:2015-10-14 06:20:00

程序设计版块每日发帖之星
日期:2016-05-02 06:20:00

程序设计版块每日发帖之星
日期:2016-05-08 06:20:00

5楼 [报告]

发表于 2016-04-19 14:15 |只看该作者

问题出在这一行代码上

lines = fp.readlines()

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

发新帖

Chinaunix › 论坛 › 程序设计 › Python › python 大文件去重问题

北京盛拓优讯信息技术有限公司. 版权所有京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号：11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员联系我们：huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP