免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2464 | 回复: 3
打印 上一主题 下一主题

新人求助 python过滤算法 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2016-05-26 23:29 |只看该作者 |倒序浏览
test1.txt文件内容格式如图:



test2.txt文件格式如图:



想用过滤算法实现:test2的第一列中,只要出现与test1不同的号码,就把test2中这个号码以及后面的相关信息全删掉。
比如:
test2.txt中的5093556233在test1中没有找到,
则删除这十个5093556233,以及后面的1 4 1;1 9 1;0 7 5;~;6 36 2这十组数。


初学python,求大神指点

论坛徽章:
4
程序设计版块每日发帖之星
日期:2015-10-14 06:20:00每日论坛发贴之星
日期:2015-10-14 06:20:00程序设计版块每日发帖之星
日期:2016-05-02 06:20:00程序设计版块每日发帖之星
日期:2016-05-08 06:20:00
2 [报告]
发表于 2016-05-27 08:32 |只看该作者
本帖最后由 mswsg 于 2016-05-27 08:41 编辑

因为你的数据量未知,随手写了一个,不知道速度怎样。
思路是这样:首先将a =  set(test1.txt) 文件放入集合,
逐行读取test2.txt文件,判断 line[0] in a,是就输出
  1. # encoding: utf-8

  2. with open('test1.txt', 'r')as f1, open('test2.txt', 'r') as f2:
  3.     a = set(line.strip()[:-1] for line in f1)
  4.     print a
  5.     for line in f2:
  6.         line = line.strip().split()
  7.         if line[0] in a:
  8.             print ' '.join(line)
复制代码

论坛徽章:
0
3 [报告]
发表于 2016-05-27 13:19 |只看该作者
回复 2# mswsg


    test2文件有5万多个数据。。test1有1570.。非常感谢。

论坛徽章:
0
4 [报告]
发表于 2016-05-27 14:11 |只看该作者
回复 2# mswsg


    非常感谢您的指点,已经获得我所需要的数据了,非常感谢!
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP