论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2010-03-02 15:25 |只看该作者 |倒序浏览

1.出现上亿(大小过G)的文本文件本来就是不正常的事情
2.如何在1G内存里完成这个任务

问题是这样的:一个文本文件.记录过亿(超过1亿的行数).如何在1G的内存里完成过滤重复.

大概的思路分N份. 分别对这N份过滤重复. 然后再循环 N^2 次.
  有更好的方法么

P.S.  因为一次读入会超过2G或者4G. 所以不能一次读入. 另外.
  千万级别我试过. 可以用set()的方法在 6s 内完成.

文库|博客

pywugw

家境小康

论坛徽章:: 0

2楼 [报告]

发表于 2010-03-02 15:30 |只看该作者

给出一条记录来看下

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

check1234

丰衣足食

论坛徽章:: 0

3楼 [报告]

发表于 2010-03-02 16:10 |只看该作者

思路这样看看可以不可以:做个指针,以及指针记录临时文件,然后读1M进行过滤;然后再读1M进行过滤.当然这个1M不是一定的,用二分法,找出一次读出的最佳文件大小.
当然,也可以考虑用多线程.

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

pywugw

家境小康

论坛徽章:: 0

4楼 [报告]

发表于 2010-03-02 16:27 |只看该作者

#!/usr/bin/env python
import os
import glob
import shutil
import string
keyList = string.letters+string.digits+'_'
shutil.rmtree('.tmplogs')
os.mkdir('.tmplogs')
tmpFileList = {}
taskList = []
# part1
for f in keyList:
tmpFileList[f] = open('.tmplogs/%s'%f,'a')
fd = open('all')
while True:
lines = fd.readlines(1024)
if not lines: break
for line in lines:
line = line.strip()
k = line[0]
try:
if k in keyList:
tmpFileList[k].write('%s\n'%line)
else:
tmpFileList['_'].write('%s\n'%line)
except:
continue
fd.close()
for f in keyList:
tmpFileList[f].close()
# part2
taskList = glob.glob('.tmplogs/*')
logsFile = open('done.log','a')
for task in taskList:
fd = open(task)
tmpDict = {}
while True:
lines = fd.readlines(1024)
if not lines: break
for line in lines:
line = line.strip()
tmpDict[line] = None
fd.close()
for k in tmpDict:
logsFile.write('%s\n'%k)
logsFile.close()

复制代码

我觉得主要看要过滤的原始数据是如何吧，如果是IP的话，算法上有很大改进的空间。（以上代码，仅供参考）

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

starfuck

稍有积蓄

论坛徽章:: 0

5楼 [报告]

发表于 2010-03-02 20:58 |只看该作者

本帖最后由 starfuck 于 2019-11-26 23:34 编辑

滚

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

smallfish_xy

广告杀手

论坛徽章:: 0

6楼 [报告]

发表于 2010-03-03 11:11 |只看该作者

你可以尝试linux自带的uniq就可以完美解决...

help一下把。。。10G都不是问题，很快。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

moatlzy

稍有积蓄

论坛徽章:: 0

7楼 [报告]

发表于 2010-03-03 23:52 |只看该作者

给个笨方法，呵呵，不过只能剔除重复行
import bsddb
def rmvrpt(srcfile):
bdbf=bsddb.btopen(srcfile+'bdb')
for ln in open(srcfile,'rb'):
bdbf.setdefault(ln,'')
fout=open(srcfile+'.res','wb')
for i in bdbf:
fout.write(i)
bdbf.close()
os.remove(srcfile+'bdb')
return