免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1904 | 回复: 6
打印 上一主题 下一主题

求助,找出不同文件中同样信息 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2009-12-06 18:21 |只看该作者 |倒序浏览
f1.txt
801217 008613885959179 4442 801042 10669160 145101 21000
819247 008613688595742 4442 819021 10658139 100002 21000
801225 008613985267010 4442 801005 10668888 102109 21000
819247 008613688595742 4442 819021 10658139 100002 21000
819247 008615186128981 4442 819013 10663223 164112 21000
801225 008613984088269 4442 801011 10666666 170101 21000
801225 008615885919166 4442 801005 10668888 102109 21000

f2.txt
801217 008613985959179 4442 801042 10669160 145201 21000
819247 008613788595742 4442 819021 10658139 101002 21000
801225 008613985267010 4442 801005 10668888 102109 21000
819247 008613688595742 4442 819021 10658139 100002 21000
819247 008615386128981 4442 819013 10663223 164112 21000
801225 008615885919166 4442 801005 10668888 102109 21000

f1.txt 和 f2.txt中相同的记录是:
801225 008613985267010 4442 801005 10668888 102109 21000
801225 008615885919166 4442 801005 10668888 102109 21000

6个域,每个都一样的时候才能认为相同的记录。
每个文件可能有20万条记录,有什么好方法快速得到结果?

谢谢!

论坛徽章:
0
2 [报告]
发表于 2009-12-06 19:54 |只看该作者
sort f1.txt f2.txt|uniq -d

论坛徽章:
0
3 [报告]
发表于 2009-12-06 20:26 |只看该作者
其实应该先
sort f1.txt | uniq > test1
sort f2.txt | uniq > test2
sort test1 test2 | uniq -d

要不然f1中有重复记录而f2没有,直接用
sort f1.txt f2.txt | uniq 就会显示出来……

论坛徽章:
2
2015年亚洲杯之巴勒斯坦
日期:2015-02-15 12:11:292015年辞旧岁徽章
日期:2015-03-03 16:54:15
4 [报告]
发表于 2009-12-06 21:39 |只看该作者
comm -12 file1 file2

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
5 [报告]
发表于 2009-12-06 21:49 |只看该作者
  1. fgrep -f f1.txt f2.txt
复制代码

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
6 [报告]
发表于 2009-12-06 21:50 |只看该作者
819247 008613688595742 4442 819021 10658139 100002 21000
这样也属于相同的记录吧,楼主?

论坛徽章:
1
荣誉会员
日期:2011-11-23 16:44:17
7 [报告]
发表于 2009-12-06 22:40 |只看该作者
之前,waker有个hash算法的帖子,处理这样的问题,应该效率比较高。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP