论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2013-12-19 15:27 |只看该作者 |倒序浏览

本帖最后由 blackantt 于 2013-12-19 19:26 编辑

求在当前目录(为了可扩，能散放在子目录下最好)  的多个文本文件中  取出包含  单词列表文件newword.txt 中各单词的前后2句(或者n句)作为1行,然后写入ok.txt,格式为: 关键词 |  取到的内容 | 源文件名  .(内容里的关键词用[ 关键词 ] 标识)

当前文件目录有若干文本文件,每个里都是英语文章。(大小写交杂的，有可能是多行多段的文章，有可能是一句一行的例句)
a.txt

I am Tom.I am eating an apple.It's delicus.there is a car boot sale.
you can buy the apple as you wanted.really! I will go there.

bb.txt

do you want to eat apple?
I don't know.
you need ask yourself
once I met a bear.because I was lost in forest. At last,I was safe.

z1111.txt

我有个生词列表文件 newword.txt,每个单词1行，如
apple
about
......
once

最终 ok.txt 类下

apple | I am Tom.I am eating an [ apple ].It's delicus.there is a car boot sale.  |  a.txt
apple | It's delicus.there is a car boot sale. you can buy the [ apple ] as you wanted.really! I will go there.  | a.txt
...............................
once |.....................[ once ]...............................................................|  bb.txt

目的是背完生词后，从语料库里取些生词的相关语句作阅读理解，加强记忆。

thanks

以下是示例文件

newword.zip (1.14 KB, 下载次数: 7)

文库|博客

pitonas

家境小康

论坛徽章:: 5

2楼 [报告]

发表于 2013-12-19 15:48 |只看该作者

取出包含单词列表文件newword.txt 中各单词的前后2行作为1行,
{:2_172:} 小伙伴们, 给个例子。

回复 1# blackantt

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

blackantt

家境小康

论坛徽章:: 0

3楼 [报告]

发表于 2013-12-19 16:37 |只看该作者

回复 2# pitonas

示例已放在附件里，thanks. 可能需要考虑哪些标点是分句的，哪些不是分句的。其实也无所谓。粗点就粗点，能用就行。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

pitonas

家境小康

论坛徽章:: 5

4楼 [报告]

发表于 2013-12-19 16:45 |只看该作者

本帖最后由 pitonas 于 2013-12-19 09:49 编辑

{:2_172:} 小伙伴们,

前后2行 = 3 行 ? 4 行 ? 5 行 ?

回复 3# blackantt

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

blackantt

家境小康

论坛徽章:: 0

5楼 [报告]

发表于 2013-12-19 19:30 |只看该作者

回复 4# pitonas

多谢提醒，最好应该是前后2句吧（以英语的.!?做结的都算1句吧）。主要是如果只取生词所在句，有时不好理解决。所以取它的前后2句，有个上下语境，更好理解一些。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

pitonas

家境小康

论坛徽章:: 5

6楼 [报告]

发表于 2013-12-20 10:46 |只看该作者

{:2_169:}小伙伴们, 这个粗点, 如果你不满意，请告诉我

#!/usr/bin/perl
# READ ME!
my $Dir = '/xyz';
# newword.txt and OK.txt in diffrent dir
my $newword = '/abc/newword.txt';
my $save = '/abc/OK.txt';
open my $dic, $newword or die $!;
my %dic = map { s/\s*$//; $_, [] } <$dic>;
my $word = join '|', keys %dic;
my @word = keys %dic;
sub findtxt {
my $dir = shift;
map { -d $_ ? findtxt($_) : /\.txt$/ ? $_ : () } glob "$dir/*";
}
for my $file ( findtxt $Dir) {
open my $f, $file or die $!;
my $data = do { local $/; <$f> };
$data =~ s/\s{2,}|\r?\n//g;
my ($fn) = $file =~ /(\w+\.txt)$/;
for my $w (@word) {
while ( $data =~
/\s*((?:[^\.]+\.){0,1}[^\.]*?$w[^\.]*?\.(?:[^\.]+\.){0,1})/ig )
{
my $string = $1;
$string =~ s/$w/[ $w ]/g;
push @{ $dic{$w} }, "$w\t| $string | $fn";
}
}
}
open my $S, '>', $save or die $!;
while ( my ( $k, $v ) = each %dic ) {
next unless @$v;
print $S join( "\n\n", @$v ), "\n\n";
}

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

w123456_cu

白手起家

论坛徽章:: 0

7楼 [报告]

发表于 2013-12-20 15:06 |只看该作者

学习了，可以收录到cookbook

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

blackantt

家境小康

论坛徽章:: 0

8楼 [报告]

发表于 2013-12-21 17:06 |只看该作者

本帖最后由 blackantt 于 2013-12-21 17:12 编辑

回复 6# pitonas

thanks for pitonas

这个已经很好用了，如果有时间的话，请再看一下。

1.原程序有点小问题，见附件 bug.jif

2.如果可以的话，再帮我把音标插到关键字与例句之间，形成一个对大家都有用的英语工具。

即最后结果象 ybxg.jpg

apple /5Apl/ | ....... This is an [ apple ]........| nce3.txt

音标文件 phonetic.txt （每行为 "单词 /音标/"的形式），及测试文件在附件里，

ok.zip (1.09 MB, 下载次数: 9)

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

pitonas

家境小康

论坛徽章:: 5

9楼 [报告]

发表于 2013-12-22 17:17 |只看该作者

本帖最后由 pitonas 于 2013-12-22 10:32 编辑

{:2_171:}小伙伴们, 0grade6.txt... 编码 UTF-16LE, 所以无法找到苹果
try
1: save all your files 编码 UTF-8
2: 试试你的所有文件转换为UTF-8

README !!
http://mocha-c-163-com.iteye.com/blog/583064
Change File Encoding to utf-8 via vim in a script
http://stackoverflow.com/questio ... via-vim-in-a-script

试试这个脚本? 小伙伴们, 如果你不满意，请告诉我

#!/usr/bin/perl
my $Dir = '/xyz';
# README! newword.txt 每行字後面没有空格
my $newword = '/abc/newword.txt';
my $phone = '/abc/phonetic.txt';
my $save = '/abc/ok.txt';
my $t = qr/[^\.\?\!]/;
my $e = qr/[\.\?\!]/;
open my $dic, $newword or die "$newword:\t$!";
open my $pho, $phone or die "$phone:\t$!";
my %dic = map { chomp; $_, [] } <$dic>;
my @word = keys %dic;
my %phone = map @$_, grep $dic{ $_->[0] }, map [split], <$pho>;
sub findtxt {
my $dir = shift;
map { -d $_ ? findtxt($_) : /\.txt$/ ? $_ : () } glob "$dir/*";
}
for my $file ( findtxt $Dir) {
print "$file\n";
open my $f, $file or die "$file:\t$!";
my $data = do { local $/; <$f> };
$data =~ s/[\r\n]|\s{2,}/ /g;
for my $w (@word) {
next unless $data =~ /\b$w/i;
while ( $data =~
/\s*\|?\s*((?:$t*?$e){0,1}$t*?\b($w\w*)$t*?$e(?:$t*?$e){0,1})/ig )
{
my $string = $1;
my $w2 = $2;
$string =~ s/\b$w2/[ $w2 ]/ig;
push @{ $dic{$w} }, "$w $phone{$w}\n$string\n# $file";
}
}
}
open my $S, '>', $save or die "$save:\t$!";
for my $k ( sort keys %dic ) {
next unless @{ $dic{$k} };
print $S join( "\n\n", @{ $dic{$k} } ), "\n\n";
}

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

blackantt

家境小康

论坛徽章:: 0

10楼 [报告]

发表于 2013-12-22 23:17 |只看该作者

回复 9# pitonas

thanks to pitonas

非常满意，呵呵。谢谢。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

12 / 2 页下一页

返回列表

Chinaunix › 论坛 › 程序设计 › Perl › 求在当前目录多个文本文件中取出包含单词列表文件中各单 ...

求在当前目录多个文本文件中取出包含单词列表文件中各单词的前后行 [复制链接]

浏览过的版块