12 / 2 页

论坛徽章:: 0

11楼 [报告]

发表于 2014-01-03 17:08 |只看该作者

本帖最后由 blackantt 于 2014-01-03 17:59 编辑

回复 9# pitonas

oh，问题又来了。

pitonas，
第2版程序，当newword有1000个,phonetic.txt有固定的3万行左右，文本资料有300个共30M时。程序run起来非常慢。可能要几天几夜吧。我的电脑配置挺好的.

我想可能是在300文本中查找，与在phonetic里匹配音标在一个程序的原因吧。你能不能再看看，先用第1版程序产生ok.txt到硬盘,然后再与phonetic.txt文件匹配出音标。总之perl下这东西有没有可能提速。 (测试文件在 http://mail.qq.com/cgi-bin/ftnEx ... d&code=f5227e21 )

thanks

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

pitonas

家境小康

论坛徽章:: 5

12楼 [报告]

发表于 2014-01-05 17:54 |只看该作者

在明日{:2_172:}

回复 11# blackantt

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

blackantt

家境小康

论坛徽章:: 0

13楼 [报告]

发表于 2014-01-06 16:36 |只看该作者

本帖最后由 blackantt 于 2014-01-06 17:52 编辑

回复 12# pitonas

谢谢。

我在想能不能 egrep -B2 -A2 -f newword.txt *.txt > ok1.txt , 然后再用perl去做 ok1.txt 与 phonetic.txt 的vlookup 形成 ok.txt
在windows的sfu下面试了半天，steve的grep等都是有bug不能用的。最后只有gnu的grep没问题。

这种应用是否一定要提前把txt文件放到数据库里，再从索引库里抽？那就太麻烦了。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

pitonas

家境小康

论坛徽章:: 5

14楼 [报告]

发表于 2014-01-09 00:17 |只看该作者

也许明天, try grep

now 试试这个脚本? 小伙伴们, 如果你不满意，请告诉我

#!/usr/bin/perl
# README! newword.txt 每行字後面没有空格
####################################
my $Dir = '/ok/xyz';
my $save = '/ok/abc/myok.txt';
my $newword = '/ok/abc/newword.txt';
my $phone = '/ok/abc/phonetic.txt';
#####################################
open my $dic, $newword or die "$newword:\t$!";
open my $pho, $phone or die "$phone:\t$!";
my %dic = map { chomp; $_, [] } <$dic>;
my @word = keys %dic;
my %phone = map @$_, grep $dic{ $_->[0] }, map [split], <$pho>;
sub findtxt {
my $dir = shift;
map { -d $_ ? findtxt($_) : /\.txt$/ ? $_ : () } glob "$dir/*";
}
for my $file ( findtxt $Dir) {
open my $f, $file or die "$file:\t$!";
print $file, "\n";
my $data = do { local $/; <$f> };
$data =~ s/\s+/ /g;
my @data = split /(?<=,|\.|\?)/, $data;
for my $w (@word) {
for my $i ( 0 .. $#data ) {
if ( $data[$i] =~ /\b$w/i ) {
my ( $u, $d ) = ( $i - 1, $i + 1 );
$u = $i if $u < 0;
$d = $i if $d > $#data;
my $s = join '', @data[ $u .. $d ];
$s =~ s/\b$w/[ $w ]/ig;
push @{ $dic{$w} }, "$w $phone{$w}\n$s\n# $file";
}
}
}
}
open my $S, '>', $save or die "$save:\t$!";
for my $k ( sort keys %dic ) {
next unless @{ $dic{$k} };
print $S join( "\n\n", @{ $dic{$k} } ), "\n\n";
}

复制代码

回复 13# blackantt

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

pitonas

家境小康

论坛徽章:: 5

15楼 [报告]

发表于 2014-01-09 08:39 |只看该作者

{:2_172:} 小伙伴们, 这个高端大气上档次。
如果你不满意，请告诉我
use grep

#!/usr/bin/perl
# [ grep ] VERSION
############## EDIT ###############
my $Dir = '/ok/xyz';
my $save = '/ok/abc/ok.txt';
my $newword = '/ok/abc/newword.txt';
my $phone = '/ok/abc/phonetic.txt';
#####################################
open my $dic, $newword or die "$newword:\t$!";
open my $pho, $phone or die "$phone:\t$!";
my %dic = map { chomp; $_, [] } <$dic>;
my @word = keys %dic;
my %phone = map @$_, grep $dic{ $_->[0] }, map [split], <$pho>;
my @pbar = qw[ \ _ / | ];
my $sep = qr/(?<=\?|\.|!)/;
for my $w (@word) {
print "\n$w\t\t";
my $t = 0;
#################### grep ########################
my @grep = split /--\r?\n/, `grep -r -B1 -A1 -P '\\b(?i)$w' $Dir`;
for my $g (@grep) {
my ($file) = $g =~ /^(.*?txt)[\:\-]/;
print "\b\b\b", $pbar[ $t++ % 4 ], " ";
$g =~ s/$file.//g;
$g =~ s/\s+/ /g;
my @data = split $sep, $g;
for my $i ( 0 .. $#data ) {
next unless $data[$i] =~ /\b$w/i;
my ( $left, $right ) = ( $i - 1, $i + 1 );
$left++ if $left < 0;
$right-- if $right > $#data;
my $s = join ' ', @data[ $left .. $right ];
$s =~ s/\b$w/[ $w ]/ig;
push @{ $dic{$w} }, "$w $phone{$w}\n$s\n# $file";
}
}
print "\b\b\bOK";
}
open my $S, '>', $save or die "$save:\t$!";
for my $k ( sort keys %dic ) {
next unless @{ $dic{$k} };
print $S join( "\n\n", @{ $dic{$k} } ), "\n\n";
}

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

blackantt

家境小康

论坛徽章:: 0

16楼 [报告]

发表于 2014-01-09 21:06 |只看该作者

回复 14# pitonas

pitonas,thanks

It's very good . 第3个程序非常快，非常完美. 第4个我还没试，因为我前天下了个gnu的grep,单用 grep -B2 -A2 -f newword.txt *.txt 运行很长时间，还是没结果。我想grep快不过你的第3个程序吧。

谢谢你，热心的pitonas

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

12 / 2 页

返回列表

Chinaunix › 论坛 › 程序设计 › Perl › 求在当前目录多个文本文件中取出包含单词列表文件中各单 ...

求在当前目录多个文本文件中取出包含单词列表文件中各单词的前后行 [复制链接]

浏览过的版块