免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2200 | 回复: 8
打印 上一主题 下一主题

求一个数据筛选的shell的优化方法 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2010-04-17 10:48 |只看该作者 |倒序浏览
求一个数据筛选shell的优化。大家好。有两个文本文件,A里面有几十万条记录,B里面有两万多条数据,其中A包含了B。我需要在A中把B给删掉,只要A中有,而不包括在B中的部分。目前我想到的是for i in ‘cat B’;do sed '/'$i'/d' A >A.tmp;mv -f A.tmp A;done这个能用,可惜的是效率不高,希望能有大侠给指点一下。另,我是手机发的帖子,打不出包含cat的那个反单引号。

论坛徽章:
0
2 [报告]
发表于 2010-04-17 11:04 |只看该作者
回复 1# x-dongzi


    [code]grep -vf B A[code]
这个可以么

论坛徽章:
8
摩羯座
日期:2014-11-26 18:59:452015亚冠之浦和红钻
日期:2015-06-23 19:10:532015亚冠之西悉尼流浪者
日期:2015-08-21 08:40:5815-16赛季CBA联赛之山东
日期:2016-01-31 18:25:0515-16赛季CBA联赛之四川
日期:2016-02-16 16:08:30程序设计版块每日发帖之星
日期:2016-06-29 06:20:002017金鸡报晓
日期:2017-01-10 15:19:5615-16赛季CBA联赛之佛山
日期:2017-02-27 20:41:19
3 [报告]
发表于 2010-04-17 11:30 |只看该作者
回复 2# ghp268


    加个-F更牢靠

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
4 [报告]
发表于 2010-04-17 12:52 |只看该作者

  1. awk 'NR==FNR{a[$1]++}NR>FNR&&!a[$1]++' B A
复制代码

论坛徽章:
0
5 [报告]
发表于 2010-04-17 14:18 |只看该作者
我靠,原来grep有这个参数呀,太土了,竟然这都不知道。
谢谢大家。
另外这个只看懂了一半。NR==FNR是把文件B赋值给一个数组a吧,那,当NR>FNR时,后面的东西没看懂,做什么操作呀?继续拜谢。
awk 'NR==FNR{a[$1]++}NR>FNR&&!a[$1]++' B A

论坛徽章:
0
6 [报告]
发表于 2010-04-17 14:48 |只看该作者
回复 2# ghp268

不行的。
假设
B
abcd
A
abcd
abcde
abcdef
输出是空,不合要求吧

论坛徽章:
0
7 [报告]
发表于 2010-04-17 15:07 |只看该作者
回复 6# 李寻欢92


    确实是有这种情况哦,
不过我这边不存在这种隐患,所有数据的长度都是一致的。也就是说B中是5位的数据长度的话,A中也都是5位的长,所以不用精确匹配。谢谢楼上的回复。

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
8 [报告]
发表于 2010-04-17 15:24 |只看该作者
回复 6# 李寻欢92

  1. grep -vwFf B A
复制代码

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
9 [报告]
发表于 2010-04-17 15:26 |只看该作者
回复 5# x-dongzi


删除重复行的常用方法之一,参考:
http://bbs.chinaunix.net/viewthread.php?tid=1672726#pid11904888
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP