免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1448 | 回复: 2
打印 上一主题 下一主题

[文本处理] 两个文件相似匹配 [复制链接]

论坛徽章:
1
15-16赛季CBA联赛之山东
日期:2016-03-02 14:33:02
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2016-03-22 16:16 |只看该作者 |倒序浏览
A文件:
你好吗
我不好
他们
B文件:
你好
你很好
你不好
你不知道
我好
我好吗
我不知道
我不是太好
我好像不知道
A,B两个文件相似匹配,有两个以上匹配到的相互关联,输出到C文件
C文件:
你好吗        你好
你好吗        你很好
你好吗        你不好
我不好        我好
我不好        我好吗
我不好        我不知道
我不好        我不是太好
我不好        我好像不知道
A,B两个文件相似匹配,有两个以上匹配到的相互关联,输出到C文件

论坛徽章:
6
摩羯座
日期:2013-08-24 10:43:10狮子座
日期:2013-08-25 10:27:06天秤座
日期:2013-09-11 20:28:44午马
日期:2014-09-28 16:06:0015-16赛季CBA联赛之八一
日期:2016-12-19 13:55:0515-16赛季CBA联赛之天津
日期:2016-12-20 14:01:23
2 [报告]
发表于 2016-03-22 17:09 |只看该作者
  1. awk 'function m(x,y,k){for(i=1;i<=length(y);i++)if(index(x,substr(y,i,1)))k++;return k}NR==FNR{a[$0];next}{for(x in a){n=m(x,$0,k=0);if(n>=2){print x" "$0}}}' A B
复制代码
@寂寞卜孤单

论坛徽章:
84
每日论坛发贴之星
日期:2015-12-29 06:20:00每日论坛发贴之星
日期:2016-01-16 06:20:00每周论坛发贴之星
日期:2016-01-17 22:22:00程序设计版块每日发帖之星
日期:2016-01-20 06:20:00每日论坛发贴之星
日期:2016-01-20 06:20:00程序设计版块每日发帖之星
日期:2016-01-21 06:20:00每日论坛发贴之星
日期:2016-01-21 06:20:00程序设计版块每日发帖之星
日期:2016-01-23 06:20:00程序设计版块每日发帖之星
日期:2016-01-31 06:20:00数据库技术版块每日发帖之星
日期:2016-01-16 06:20:00程序设计版块每日发帖之星
日期:2016-01-16 06:20:00程序设计版块每日发帖之星
日期:2016-01-14 06:20:00
3 [报告]
发表于 2016-03-22 17:29 |只看该作者
  1. while read l; do
  2.     pattern=$(echo ${l}|sed -e 's/./|&/g' -e 's/^.//');
  3.     while read m;
  4.         do  c=$(echo $m | egrep -o "$pattern"|wc -l);
  5.         [ $c -ge 2 ] && echo $l $m;
  6.     done <B.txt;
  7. done <A.txt
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP