123 4 5 6 / 6 页下一页

实现汉英双语翻译每句自动对齐 [复制链接]

大山里出来的孩子

富足长乐

论坛徽章:: 0

46楼 [报告]

发表于 2014-08-07 16:28 |只看该作者

我在dictionary 里添加了本文章的重要单词，现在只是想测试这篇文章，我结果出来还是一段英文、一段中文，怎么办啊？回复 41# pitonas

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

大山里出来的孩子

富足长乐

论坛徽章:: 0

45楼 [报告]

发表于 2014-08-07 16:25 |只看该作者

但是结果并非我所要的啊，我实在win7下运行的 回复 41# pitonas

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

pitonas

家境小康

论坛徽章:: 5

44楼 [报告]

发表于 2014-08-07 15:36 |只看该作者

小伙伴们 ~ {:2_172:}

1: 建立一个通用 %dic
try to download a E-C dictionary, and edit
并编辑出自己适用版本

回复 40# 大山里出来的孩子

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

大山里出来的孩子

富足长乐

论坛徽章:: 0

43楼 [报告]

发表于 2014-08-07 12:11 |只看该作者

你用的是二维数组吗？那如果我输入一篇文章，里面很多句子该怎么处理呢？ 回复 33# pitonas

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

大山里出来的孩子

富足长乐

论坛徽章:: 0

42楼 [报告]

发表于 2014-08-07 11:21 |只看该作者

大神，帮我改改下面的代码吧，加个注释，其中输入的两篇文章已经按句子切分好了 回复 33# pitonas

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

大山里出来的孩子

富足长乐

论坛徽章:: 0

41楼 [报告]

发表于 2014-08-07 11:17 |只看该作者

本帖最后由大山里出来的孩子于 2014-08-13 08:47 编辑

下面大神的那个代码你看懂了吗？像我这个应该怎样去修改？其中输入的两篇中英文已经经过分句处理了

my %dic = qw[

Egypt 埃及
state 国家
media 电台
reporting 报道
deaths 丧生
Egyptians 埃及人
Libyan 利比亚
capital 首都
Tripoli 的里波里
rocket 火箭
hit 击中
home 住所
near 附近
airport 机场
fighting 激战
rival 对立
militias 民兵
entering 进入
third 第三
week 星期
];

open($INCH,"< $fn1_IN ") || die " failed to open the input file1";
open($INEN,"< $fn2_IN ") || die " failed to open the input file2";
open($OUT, "> $fn_OUT")  || die " failed to open the output file";

while($lines=<$INCH>){
   $/ = '。';
   @CH=$lines;
   #print @CH;
   }

while($lines=<$INEN>){
$/ = '.';
@EN=$lines;
#print @EN;
}

close($INCH);
close($INEN);

my $i = 0;

for my $e (@EN) {

my $begin = $i;

my @sentence = map { [/\w+/g] } split /,/, $e;  #将读入的每句话按照，进行切分然后赋给数组

for my $ws (@sentence) {

      my $index = $#{$ws} >= 3 ? [ 0, $#{$ws} / 2, -1 ] : [ 0, -1 ];

      my @word  = @$ws[@$index];

      my $ok = 0;

      say "CHECK: [ ", join( '|', @word ) . ' ]';
   NEXT: for my $w (@word) {

         ++$ok and next unless exists $dic{$w};

         my $c = $dic{$w};

         if ( $CH[$i] =~ /$c/ ) {

            say "$w\t$c = ok";

            $ok++;

         }

      }

      unless ( $ok > @word * 2 / 3 ) {

         say "FAIL !!\tcheck next sentence";

         ++$i and goto NEXT;

      }

      sleep 1;

}

print '=' x 24;print "\n";

print "match\t\@CH[ $begin .. $i ]";print "\n";

print '-' x 24;print "\n";

print $e;print "\n";

print @CH[ $begin .. $i++ ];print "\n";

print '-' x 24;print "\n";

}

回复 4# huang6894