免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 10732 | 回复: 7
打印 上一主题 下一主题

如何用python去除文件内的重复行只返回其中的一行 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2012-04-30 10:09 |只看该作者 |倒序浏览
F:\test>type test.txt
abcd
abcd
abcd
abcd


用python 如何去除重复行,只返回其中一行abcd?

谢谢!

论坛徽章:
0
2 [报告]
发表于 2012-04-30 10:45 |只看该作者
本帖最后由 anonymous0502 于 2012-04-30 11:09 编辑
  1. a='''
  2. abcd
  3. abcd
  4. abcd
  5. abcd
  6. '''
  7. print '\n'.join(set(a.split('\n')))
复制代码

论坛徽章:
0
3 [报告]
发表于 2012-04-30 11:09 |只看该作者
anonymous0502 发表于 2012-04-30 10:45



按照你的写法可以,但是写在脚本里不行,帮我看下是哪里的原因?

#!/usr/bin/python
a=open("test.txt").readlines()

for x in a:
        print(''.join(set(x.split('\n'))))

输出
abcd
abcd
abcd
abcd

论坛徽章:
0
4 [报告]
发表于 2012-04-30 11:22 |只看该作者
有好多种做法,看你实际情况需要了:
  1. print '\n'.join(set(open('2.txt').read().split('\n')))
复制代码
  1. print ''.join(set([x for x in open('2.txt').readlines() if x.strip()!='']))
复制代码
可能你需要保留顺序
这有别人写的几种做法:http://www.codecho.com/fastest-way-to-uniqify-a-list-in-python/

论坛徽章:
0
5 [报告]
发表于 2012-04-30 11:34 |只看该作者
回复 4# anonymous0502


非常感谢anonymous0502!


   

论坛徽章:
0
6 [报告]
发表于 2012-05-01 22:09 |只看该作者
tianting002 发表于 2012-04-30 11:09
按照你的写法可以,但是写在脚本里不行,帮我看下是哪里的原因?

#!/usr/bin/python


  readlines已经把文本所有的内容读出来了,不需要再for x in的循环了

论坛徽章:
0
7 [报告]
发表于 2012-05-02 14:25 |只看该作者
readlines()脚本里面还是尽量少用,要不当你的日志很大的时候就杯具了

论坛徽章:
0
8 [报告]
发表于 2012-05-03 06:16 |只看该作者
用uniq命令即可吧?
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP