免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 8856 | 回复: 11
打印 上一主题 下一主题

[文本处理] 请问如何从一个关键字文本集合里用grep批量筛选另一个文本? [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-12-13 11:49 |只看该作者 |倒序浏览
比如:

种子文本》seed.txt:

张三
李四
王五
。。。

待查找的数据文本》file.txt:
张三,男,1980.。。。。
张四,女,1988.。。。
李四,男,。。。。
王六,。。。。
王五,。。。。

字段都很规则
怎么把file.txt文本中符合seed.txt的行提取出来?
例如,结果文本
张三,男,1980.。。
李四,男,。。。
王五,。。。

另外怎么反向把不包含的行放到另一个文本
张四,。。。。。
王六,。。。。

=================================
谢谢各位

论坛徽章:
9
2015亚冠之大阪钢巴
日期:2015-06-04 11:47:30丑牛
日期:2015-01-22 15:49:26巳蛇
日期:2015-01-22 10:11:18巨蟹座
日期:2014-11-20 10:55:03天蝎座
日期:2014-11-16 22:10:26处女座
日期:2014-11-16 11:01:10申猴
日期:2014-09-19 11:12:37双鱼座
日期:2014-07-25 10:09:54程序设计版块每日发帖之星
日期:2015-08-24 06:20:00
2 [报告]
发表于 2014-12-13 11:56 |只看该作者
casio1374633
  1. grep -f seed.txt file.txt
  2. grep -vf seed.txt file.txt
复制代码

论坛徽章:
22
处女座
日期:2014-10-11 13:33:292015亚冠之塔什干火车头
日期:2015-07-20 19:59:042015亚冠之塔什干火车头
日期:2015-07-26 10:59:31程序设计版块每日发帖之星
日期:2015-08-05 06:20:00每日论坛发贴之星
日期:2015-08-05 06:20:00程序设计版块每日发帖之星
日期:2015-08-07 06:20:00每日论坛发贴之星
日期:2015-08-07 06:20:002015亚冠之阿尔纳斯尔
日期:2015-10-01 15:23:28白银圣斗士
日期:2015-12-07 17:17:06操作系统版块每日发帖之星
日期:2015-12-27 06:20:002015亚冠之广州富力
日期:2015-07-08 15:48:31程序设计版块每日发帖之星
日期:2015-06-11 22:20:00
3 [报告]
发表于 2014-12-13 11:59 |只看该作者
  1. grep -f seed.txt file.txt
复制代码
  1. grep -vf seed.txt file.txt >new.txt
复制代码

论坛徽章:
0
4 [报告]
发表于 2014-12-13 12:03 |只看该作者
好吧,谢谢各位大神。。。。

论坛徽章:
6
羊年新春福章
日期:2015-03-03 17:16:28双子座
日期:2015-03-03 17:16:56巳蛇
日期:2015-03-03 17:17:2415-16赛季CBA联赛之福建
日期:2016-03-11 09:05:00黑曼巴
日期:2016-07-07 16:58:1215-16赛季CBA联赛之吉林
日期:2016-11-14 09:23:07
5 [报告]
发表于 2014-12-13 13:09 |只看该作者
回复 2# Buring__


    不错,学习了

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
6 [报告]
发表于 2014-12-13 17:10 |只看该作者
这种情况应该加上F,还有考虑 张三四这种情形。

论坛徽章:
22
处女座
日期:2014-10-11 13:33:292015亚冠之塔什干火车头
日期:2015-07-20 19:59:042015亚冠之塔什干火车头
日期:2015-07-26 10:59:31程序设计版块每日发帖之星
日期:2015-08-05 06:20:00每日论坛发贴之星
日期:2015-08-05 06:20:00程序设计版块每日发帖之星
日期:2015-08-07 06:20:00每日论坛发贴之星
日期:2015-08-07 06:20:002015亚冠之阿尔纳斯尔
日期:2015-10-01 15:23:28白银圣斗士
日期:2015-12-07 17:17:06操作系统版块每日发帖之星
日期:2015-12-27 06:20:002015亚冠之广州富力
日期:2015-07-08 15:48:31程序设计版块每日发帖之星
日期:2015-06-11 22:20:00
7 [报告]
发表于 2014-12-13 17:15 |只看该作者
回复 6# blackold
还是黑哥考虑周全


   

论坛徽章:
9
2015亚冠之大阪钢巴
日期:2015-06-04 11:47:30丑牛
日期:2015-01-22 15:49:26巳蛇
日期:2015-01-22 10:11:18巨蟹座
日期:2014-11-20 10:55:03天蝎座
日期:2014-11-16 22:10:26处女座
日期:2014-11-16 11:01:10申猴
日期:2014-09-19 11:12:37双鱼座
日期:2014-07-25 10:09:54程序设计版块每日发帖之星
日期:2015-08-24 06:20:00
8 [报告]
发表于 2014-12-13 17:27 |只看该作者
黑哥说的对, 学习了

论坛徽章:
1
狮子座
日期:2015-01-07 16:40:55
9 [报告]
发表于 2015-01-14 11:11 |只看该作者
fgrep -f seed.txt file.txt回复 6# blackold


   

论坛徽章:
0
10 [报告]
发表于 2015-05-16 18:36 |只看该作者
本帖最后由 casio1374633 于 2015-05-16 18:37 编辑

再问问:

seed.txt:
bow

foo.txt:
bow
bowel
bowling

$grep -Ff seed.txt foo.txt
bow
bowel
bowling

请问这个是为什么??该如何解决??

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP