免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2784 | 回复: 4
打印 上一主题 下一主题

[文本处理] 如何根据b文件里的内容来删选A文件重复的内容 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2015-07-01 17:47 |只看该作者 |倒序浏览
想把A文件和B文件里共有的那些筛选出来弄到C文件去,,A文件里同一个UID对应的行和B文件里这个和A一样的UID对应的行组合一起是我要的数据,由于A B文件的数据数量条目是不同的,我排序好后A文件里的位置和B文件的位置也不一样,我如何通过根据A文件或者根据B文件的UID来筛选出另外一个文件相同的这些数据????

A文件里是这样的                   B文件
uid列  登录时间                    用户名 uid列  
xxxx  xxxxxxxx                 xxxx  xxxxxx

我要把相同的uid 组成:  uid 用户名 登录时间

论坛徽章:
54
2015亚冠之德黑兰石油
日期:2015-07-07 13:00:1615-16赛季CBA联赛之深圳
日期:2016-03-31 09:03:5415-16赛季CBA联赛之辽宁
日期:2016-05-09 20:38:15程序设计版块每日发帖之星
日期:2016-05-12 06:20:0015-16赛季CBA联赛之四川
日期:2016-05-13 15:19:4715-16赛季CBA联赛之福建
日期:2016-05-15 20:24:34每日论坛发贴之星
日期:2016-05-16 06:20:0015-16赛季CBA联赛之吉林
日期:2016-05-26 11:49:4715-16赛季CBA联赛之广东
日期:2016-05-26 13:49:18极客徽章
日期:2016-12-07 14:05:2315-16赛季CBA联赛之广夏
日期:2016-12-20 17:33:532017金鸡报晓
日期:2017-01-10 15:19:56
2 [报告]
发表于 2015-07-01 17:58 |只看该作者
  1. awk '{getline v<"A"; split(v,t);print t[1],$1,t[2]}' B
复制代码

论坛徽章:
0
3 [报告]
发表于 2015-07-02 09:27 |只看该作者
回复 2# haooooaaa
楼主问题中说到要把uid相同的内容进行合并操作,所以要加一个判断语句.

    awk '{getline v<"A"; split(v,t); if(t[1]==$2) print t[1],$1,t[2]}' B

论坛徽章:
0
4 [报告]
发表于 2015-07-05 00:08 来自手机 |只看该作者
用jion然后再grep吧

论坛徽章:
26
2015亚冠之胡齐斯坦钢铁
日期:2015-06-25 21:40:202015亚冠之柏斯波利斯
日期:2015-08-31 17:03:192015亚冠之柏斯波利斯
日期:2015-11-07 13:10:00程序设计版块每日发帖之星
日期:2015-11-10 06:20:00每日论坛发贴之星
日期:2015-11-10 06:20:00程序设计版块每日发帖之星
日期:2015-11-26 06:20:00程序设计版块每日发帖之星
日期:2015-12-02 06:20:00黄金圣斗士
日期:2015-12-07 17:57:4615-16赛季CBA联赛之天津
日期:2015-12-23 18:34:14程序设计版块每日发帖之星
日期:2016-01-02 06:20:00程序设计版块每日发帖之星
日期:2016-01-06 06:20:00每日论坛发贴之星
日期:2016-01-06 06:20:00
5 [报告]
发表于 2015-07-05 09:25 |只看该作者
回复 1# popli3

AB文件里共有的那些筛选出来弄到C
python2 script.py A B > C
  1. #!/usr/bin/python2
  2. # coding: utf-8

  3. import sys
  4. fileA, fileB = sys.argv[1:3]
  5. handleA = open(fileA)
  6. handleB = open(fileB)

  7. dictA = dict(l.split() for l in handleA)
  8. for line in handleB:
  9.     v, k = line.split()
  10.     if k in dictA:
  11.         print "\t".join((v, k, dictA[k]))

  12. handleA.close()
  13. handleB.close()
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP