免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 4862 | 回复: 5
打印 上一主题 下一主题

[文本处理] 【问题】关于单词对比操作 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-08-18 17:10 |只看该作者 |倒序浏览
前提:
一个待处理单词文件f1
一个词库文件f2

问题:
如何将f1中词汇的最后一个‘s’删除(如果存在)然后和f2进行匹配,并且输出不匹配的单词

所有的步骤必须在一个shell-script中完成。

我只会使用  grep -x -v -i -f $1 $2 进行简单的匹配

论坛徽章:
6
摩羯座
日期:2013-08-24 10:43:10狮子座
日期:2013-08-25 10:27:06天秤座
日期:2013-09-11 20:28:44午马
日期:2014-09-28 16:06:0015-16赛季CBA联赛之八一
日期:2016-12-19 13:55:0515-16赛季CBA联赛之天津
日期:2016-12-20 14:01:23
2 [报告]
发表于 2013-08-18 18:58 |只看该作者
  1. $ while read i; do
  2. a=`sed 's/s$//' <<< $i`; grep -i \^$a\$ dict  >/dev/null || echo $i; done < file
复制代码

论坛徽章:
15
2015年辞旧岁徽章
日期:2015-03-03 16:54:15双鱼座
日期:2015-01-15 17:29:44午马
日期:2015-01-06 17:06:51子鼠
日期:2014-11-24 10:11:13寅虎
日期:2014-08-18 07:10:55酉鸡
日期:2014-04-02 12:24:51双子座
日期:2014-04-02 12:19:44天秤座
日期:2014-03-17 11:43:36亥猪
日期:2014-03-13 08:13:51未羊
日期:2014-03-11 12:42:03白羊座
日期:2013-11-20 10:15:18CU大牛徽章
日期:2013-04-17 11:48:45
3 [报告]
发表于 2013-08-19 09:38 |只看该作者
  1. diff <(sed 's/s$//' f1) f2
复制代码

论坛徽章:
93
2015年辞旧岁徽章
日期:2019-10-10 10:51:15CU大牛徽章
日期:2014-02-21 14:21:56CU十二周年纪念徽章
日期:2020-10-15 16:55:55CU大牛徽章
日期:2014-02-21 14:22:07羊年新春福章
日期:2019-10-10 10:51:39CU大牛徽章
日期:2019-10-10 10:55:38季节之章:春
日期:2020-10-15 16:57:40ChinaUnix元老
日期:2019-10-10 10:54:42季节之章:冬
日期:2019-10-10 10:57:17CU大牛徽章
日期:2014-02-21 14:22:52CU大牛徽章
日期:2014-03-13 10:40:30CU大牛徽章
日期:2014-02-21 14:23:15
4 [报告]
发表于 2013-08-19 10:25 |只看该作者
  1. grep -x -v -i -f <(sed 's/s$//' f1) f2
复制代码

论坛徽章:
1
摩羯座
日期:2013-09-28 17:07:31
5 [报告]
发表于 2013-08-19 22:10 |只看该作者
这个 while循环应该是按行读入的吧!如果一行有多个单词了?我觉得 for word in ·cat file·这个更合理!回复 2# cao627


   

论坛徽章:
1
摩羯座
日期:2013-09-28 17:07:31
6 [报告]
发表于 2013-08-19 22:11 |只看该作者
#!/bin/bash
for word in  `cat file`
do
        echo "$word" > b.txt
        D=`sed 's/s$//' b.txt `
        echo "`grep  $D file2`" >> a.txt
done
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP