免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12
最近访问板块 发新帖
楼主: cobrawgl
打印 上一主题 下一主题

用 perl 实现的一个 拼写检查器,与 python 代码作对比。 [复制链接]

论坛徽章:
0
11 [报告]
发表于 2008-06-03 15:16 |只看该作者
return ((map {(substr $word, 0, $_) . (substr $word, $_+1)} 0 .. (length($word)-1)),
            (map {(substr $word, 0, $_) . (substr $word, $_+1, 1) . (substr $word, $_, 1) . (substr $word, $_+2)} 0 .. (length($word)-2)),
            (map {my $c = $_; map {(substr $word, 0, $_) . $c . (substr $word, $_+1)} 0 .. (length($word)-1)} 'a'..'z'),
            (map {my $c = $_; map {(substr $word, 0, $_) . $c . (substr $word, $_)} 0 .. length($word)} 'a'..'z')); }
==================================
本来还想瞻仰一下楼主的代码,
可无奈这个return不好理解啊!!!
希望楼主能按编程规范来啊,
不然我们新手不好理解啊!

论坛徽章:
0
12 [报告]
发表于 2008-06-03 18:42 |只看该作者
带测试数据的完整代码可以到我的 CU博客 看 http://blog.chinaunix.net/u/78/

不过,big.txt 得自己到原网站下载了

论坛徽章:
7
戌狗
日期:2013-12-15 20:43:38技术图书徽章
日期:2014-03-05 01:33:12技术图书徽章
日期:2014-03-15 20:31:17未羊
日期:2014-03-25 23:48:20丑牛
日期:2014-04-07 22:37:44巳蛇
日期:2014-04-11 21:58:0915-16赛季CBA联赛之青岛
日期:2016-03-17 20:36:13
13 [报告]
发表于 2014-03-27 02:12 |只看该作者
本帖最后由 rubyish 于 2014-03-26 22:14 编辑

Perltidy 下 4 楼代码:
  1. #!/usr/bin/perl

  2. use IO::File;
  3. my $fh = IO::File->new('big.txt') or die;
  4. my $words = join '', <$fh>;
  5. sub words { return ( lc shift ) =~ /([a-z]+)/g; }

  6. sub train {
  7.     my %model;
  8.     $model{$_} = ( $model{$_} || 1 ) + 1 for @_;
  9.     return %model;
  10. }
  11. my %nwords = train( words($words) );

  12. sub edits1 {
  13.     my $word = shift;
  14.     return (
  15.         (
  16.             map { ( substr $word, 0, $_ ) . ( substr $word, $_ + 1 ) }
  17.               0 .. ( length($word) - 1 )
  18.         ),
  19.         (
  20.             map {
  21.                 ( substr $word, 0, $_ )
  22.                   . ( substr $word, $_ + 1, 1 )
  23.                   . ( substr $word, $_, 1 )
  24.                   . ( substr $word, $_ + 2 )
  25.             } 0 .. ( length($word) - 2 )
  26.         ),
  27.         (
  28.             map {
  29.                 my $c = $_;
  30.                 map { ( substr $word, 0, $_ ) . $c . ( substr $word, $_ + 1 ) }
  31.                   0 .. ( length($word) - 1 )
  32.             } 'a' .. 'z'
  33.         ),
  34.         (
  35.             map {
  36.                 my $c = $_;
  37.                 map { ( substr $word, 0, $_ ) . $c . ( substr $word, $_ ) }
  38.                   0 .. length($word)
  39.             } 'a' .. 'z'
  40.         )
  41.     );
  42. }

  43. sub known_edits2 {
  44.     return map {
  45.         grep { exists $nwords{$_} } edits1($_)
  46.     } edits1(shift);
  47. }

  48. sub known {
  49.     return grep { exists $nwords{$_} } @_;
  50. }

  51. sub correct {
  52.     my @candidates =
  53.         known(@_)           ? known(@_)
  54.       : known( edits1(@_) ) ? known( edits1(@_) )
  55.       : known_edits2(@_)    ? known_edits2(@_)
  56.       :                       @_;
  57.     return ( sort { $nwords{$b} <=> $nwords{$a} } @candidates )[0];
  58. }
复制代码

论坛徽章:
7
戌狗
日期:2013-12-15 20:43:38技术图书徽章
日期:2014-03-05 01:33:12技术图书徽章
日期:2014-03-15 20:31:17未羊
日期:2014-03-25 23:48:20丑牛
日期:2014-04-07 22:37:44巳蛇
日期:2014-04-11 21:58:0915-16赛季CBA联赛之青岛
日期:2016-03-17 20:36:13
14 [报告]
发表于 2014-03-27 02:24 |只看该作者
python 那个版本真的很快~
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP