免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 5239 | 回复: 3
打印 上一主题 下一主题

求助大牛 关于字符串的模糊匹配 [复制链接]

论坛徽章:
2
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:58:11
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2012-07-05 23:26 |只看该作者 |倒序浏览
现有如下数据file11,file2。file1为长字符串例如:
ASDJLJLJALKJDJIASJIDOMNNNKZXNCJKAJD
file2文件里为短序列,例如:
ASDJLJ #1
ASSJLJ #2
SSSLLJ #3
ASDJJL #4
现在欲将file2里的每行去file1中找能够匹配的,希望能够有模糊匹配的mismatch数,比如说第一行是可以完全匹配的,问题不大,第二行就有一个mismatch,第三行就有3个mismatch。
希望能够得到这种有可控mismatch的匹配结果。
小弟转行新手,求大牛指导算法~~~
万分感谢~~~

论坛徽章:
2
CU大牛徽章
日期:2013-04-17 11:46:28CU大牛徽章
日期:2013-04-17 11:46:39
2 [报告]
发表于 2012-07-06 00:07 |只看该作者
  1. #!/usr/bin/env perl

  2. @strs = (
  3.     'ASDJLJ #1',
  4.     'ASSJLJ #2',
  5.     'SSSLLJ #3',
  6.     'ASDJJL #4',
  7. );

  8. $text = <DATA>;
  9. for (@strs) {
  10.     ($x) = /(\S+)/;
  11.     $y = $x;
  12.     $y =~ s/(.)/(?:$1|.)/g;
  13.     ($z) = $text =~ /($y)/;
  14.     $m = $x ^ $z;
  15.     @n = $m =~ /([^\0])/g;
  16.     print "$x\t$z\t", scalar(@n), "\n";
  17. }

  18. __DATA__
  19. ASDJLJLJALKJDJIASJIDOMNNNKZXNCJKAJD
复制代码

论坛徽章:
2
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:58:11
3 [报告]
发表于 2012-07-06 14:54 |只看该作者
虽然看不太懂  先收藏学习了  太厉害了!!

论坛徽章:
2
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:58:11
4 [报告]
发表于 2012-07-06 14:55 |只看该作者
虽然看不太懂  先收藏学习了  太厉害了!!
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP