免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 34118 | 回复: 6
打印 上一主题 下一主题

python习题:去除文件中的重复行 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2009-11-12 14:12 |只看该作者 |倒序浏览

                去除文件中的重复行,前提:文件已经经过排序
               
                #!/usr/bin/env python
#去除重复行
import sys
import os
def printUsage():
    print("Usage: python uniq.py sourcefile ")
def printFileNotExist():
    print(":( Sorry, File " , sys.argv[1], " does not exist!")
def uniqFile(filename):
    fp = open(filename,"r")
    preline = '';
    for line in fp:
        line.strip()
        if line == preline:
            continue
        print(line,end="")
        preline = line   
   
if __name__ == "__main__":
    if len(sys.argv) != 2:
        printUsage()
        exit()
    if not os.path.isfile(sys.argv[1]):
        printFileNotExist()
        exit()
    uniqFile(sys.argv[1])


本文来自ChinaUnix博客,如果查看原文请点:http://blog.chinaunix.net/u/23094/showart_2092498.html

论坛徽章:
0
2 [报告]
发表于 2011-07-17 19:13 |只看该作者
你这个只能去掉相邻的两行重复

论坛徽章:
0
3 [报告]
发表于 2011-08-25 23:11 |只看该作者
他说了有个前提,文件经过排序了
不过想了解下,如果没经过排序呢
最近刚开始学习perl

论坛徽章:
0
4 [报告]
发表于 2011-08-26 14:33 |只看该作者
我这也有个方法,使用set
  1. # 打开文件
  2. f = open('e:\\asd.txt')

  3. # 重复行只保留一条记录 并且打印
  4. print '\n'.join(set([line.strip() for line in f]))
复制代码

论坛徽章:
0
5 [报告]
发表于 2011-10-30 01:03 |只看该作者
LS正解

论坛徽章:
0
6 [报告]
发表于 2013-08-05 19:39 |只看该作者
好NB啊
回复 4# wjsgsb


   

论坛徽章:
0
7 [报告]
发表于 2013-09-11 21:22 |只看该作者
本帖最后由 sageskr 于 2013-09-11 21:24 编辑

小文件无所谓,可以直接读入多行,如果是超大型文件,你无法一次读入呢,所以建议还是要先排序。
考虑的要通用些。所以楼主的解还是对的。
只说思路,
可以把大型文件根据首字母进行拆分,如果文件仍然很大,按照第二个字母进行拆分。拆分到100MB以内,然后一次读入,用set。不晓得这样好不好。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP