论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2016-07-01 19:30 |只看该作者 |倒序浏览

本帖最后由 smile1129 于 2016-07-19 19:45 编辑

新学perl，请大家指点！

要求是：
某文件夹下有众多大文本文件，我要查找含特定字符串1、字符串2等的行，将上述行导出到新建文本，1个字符串的搜索结果建1个文本(文件名就是该字符串)，有多少个字符串就建多少个文本，字符串包含在2.txt文档中，一行1个。

比如：E:\TEXT 下有a.txt b.txt c.txt 等，
我要查找的字符串在2.txt中，字符串如下：
beijing
shanghai
wuhan
等；
我希望在E:\TEXT 目录下文本中分别查找含有上述字符串的行，输出结果为beijing.txt shanghai.txt wuhan.txt

以下是查找1个字符串导出到文本的方法，仅供参考！请大家帮忙修改使之达到上面的要求，谢谢大家！

#!/usr/bin/perl -w
open OUT1,'+>E:/3.txt';
printf"write the path you want to search files:";
$searchdir=<STDIN>;
chomp $searchdir;
printf "Input search string:";
$searchstr=<STDIN>;
chomp $searchstr;
opendir(DIRHANDLE,$searchdir) || die "Cann't open $searchdir !";
while($file=readdir DIRHANDLE) {
if (-d "$searchdir/$file") {
printf "$searchdir/$file is a directory! ";
} else {
open(FileHandle, "$searchdir/$file") || die "cann't open $searchdir/$file ! ";
$lines=1;
while (defined($line=<FileHandle>)) {
$back=index($line,$searchstr);
if ( $back != -1 ) {
print OUT1 "$line";
}
$lines=$lines+1;
}
}
close(FileHandle);
}
close(OUT1);
closedir(DIRHANDLE);

复制代码

新建, 字符串

文库|博客

sunzhiguolu

巨富豪门

论坛徽章:: 307

2楼 [报告]

发表于 2016-07-02 02:27 |只看该作者

本帖最后由 sunzhiguolu 于 2016-07-02 02:29 编辑

回复 1# smile1129
试下,

#!/usr/bin/perl
use strict;
use warnings;
chdir ('urPath');
open (my $fhR, '<', '2.txt');
my %hData = map {chomp; $_, []} <$fhR>;
close ($fhR);
foreach my $fn (glob ('*.txt')){
next if ($fn eq '2.txt');
open ($fhR, '<', $fn);
while (defined (local $_ = <$fhR>)){
foreach my $k (keys %hData){
push(@{$hData{$k}}, $_) if (/$k/);
}
}
close ($fhR);
}
foreach (keys %hData){
open (my $fhW, '>', "$_.txt");
print $fhW @{$hData{$_}};
close ($fhW);
}

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

stanley_tam

小富即安

论坛徽章:: 6

3楼 [报告]

发表于 2016-07-02 08:46 |只看该作者

改一波，建议用use strict; 啦

#!/usr/bin/perl -w
# open OUT1,'+>E:/3.txt';
printf"write the path you want to search files:";
$searchdir=<STDIN>;
chomp $searchdir;
printf "Input search string, one per line, end with a single '.' :\n";
$searchstr = +{};
while ($line = <STDIN>) {
$line =~ s{^\s+ | \s+$}{}gmix;
next if not $line;
last if $line eq '.';
$searchstr->{$line} = 1
}
# $searchstr=<STDIN>;
# chomp $searchstr;
opendir(DIRHANDLE,$searchdir) || die "Cann't open $searchdir !";
while($file=readdir DIRHANDLE) {
if (-d "$searchdir/$file") {
printf "$searchdir/$file is a directory! \n";
} else {
open(FileHandle, "$searchdir/$file") || die "cann't open $searchdir/$file ! ";
# $lines=1;
while (defined($line=<FileHandle>)) {
$line =~ s{^\s+ | \s+$}{}gmix;
next if not $line;
if (exists $searchstr->{$line}) {
$file = "$line.txt";
if (-f $file) {
print "Found [$line], file [$file] alreay created, no need to create again.\n";
}
else {
open OUT1, ">$file";
close(OUT1);
print "Found [$line], file [$file] created.\n";
}
}
# $back=index($line,$searchstr);
# if ( $back != -1 ) {
# # print OUT1 "$line";
# }
# $lines=$lines+1;
}
close(FileHandle);
}
# close(FileHandle);
}
# close(OUT1);
closedir(DIRHANDLE);

复制代码

output sample:

write the path you want to search files:TEXT
Input search string, one per line, end with a single '.' :
beijing
wuhan
.
TEXT/. is a directory!
TEXT/.. is a directory!
Found [wuhan], file [wuhan.txt] created.
Found [beijing], file [beijing.txt] created.
Found [wuhan], file [wuhan.txt] alreay created, no need to create again.

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

smile1129

白手起家

论坛徽章:: 0

4楼 [报告]

发表于 2016-07-02 09:26 |只看该作者

sunzhiguolu 发表于 2016-07-02 02:27
回复 1# smile1129
试下,

很厉害！谢谢！

想再请教下，如何才能 不区分大小写呢？以及把所有结果输出到1个文件3.txt中(即不分为多个文件输出了) ？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

sunzhiguolu

巨富豪门

论坛徽章:: 307

5楼 [报告]

发表于 2016-07-02 10:26 |只看该作者

本帖最后由 sunzhiguolu 于 2016-07-02 10:44 编辑

1.> 不区分大小写

push(@{$hData{$k}}, $_) if (/$k/i);

2.> 以及把所有结果输出到1个文件3.txt中(即不分为多个文件输出了)

my $str;
$str .= join ("", @{$hData{$_}) for keys %hData;
#print $str to your FileHandle.

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

smile1129

白手起家

论坛徽章:: 0

6楼 [报告]

发表于 2016-07-02 16:58 |只看该作者

stanley_tam 发表于 2016-07-02 08:46
改一波，建议用use strict; 啦output sample:

谢谢，不过有个问题：

比如E:\TEXT 下有a.txt 中以下内容
beijing:010
......

查找beijing找不到，只能找到完全为beijing的行，这个有问题。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

smile1129

白手起家

论坛徽章:: 0

7楼 [报告]

发表于 2016-07-02 17:30 |只看该作者

sunzhiguolu 发表于 2016-07-02 10:26
1.> 不区分大小写

非常感谢您的指点，很受用！

有个疑问，我在1楼贴的查找1个字符串的代码（别的地方找的），在查找200MB文件时，我的电脑用时大概6s, 而使用你的代码大概10s。

所以想请问下，如果要追求速度的话（因为有的文本更大），您推荐怎么修改？ O(∩_∩)O谢谢

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

sunzhiguolu

巨富豪门

论坛徽章:: 307

8楼 [报告]

发表于 2016-07-02 17:41 |只看该作者

回复 7# smile1129
你的需求到底是啥?

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

smile1129

白手起家

论坛徽章:: 0

9楼 [报告]

发表于 2016-07-02 18:01 |只看该作者

sunzhiguolu 发表于 2016-07-02 17:41
回复 7# smile1129
你的需求到底是啥?

不好意思。
考虑到大文本处理速度很重要，想修改为：将结果导出到1个指定文件即可，另外多个字符串是否采用正则的形式会快一些，比如beijing|shanghai|wuhan，不区分大小写。

还有就是我上面说的单个字符串搜索的时候，针对大文本，我上面的代码似乎速度稍微快点点，但是我上面贴的不支持正则，你的可以写成beijing|shanghai|wuhan。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

sunzhiguolu

巨富豪门

论坛徽章:: 307

10楼 [报告]

发表于 2016-07-02 18:32 |只看该作者

本帖最后由 sunzhiguolu 于 2016-07-02 18:34 编辑

回复 9# smile1129
再试下, 在保证正确的前提下, 将代码的测试结果贴出来看下. (文件大小, 执行时间等)

#!/usr/bin/perl
use strict;
use warnings;
chdir ('urPath');
open (my $fhR, '<', '2.txt');
my $regex = join ("|", map {s/\r?\n//r} <$fhR>);
close ($fhR);
my @aData;
foreach my $fn (glob ('*.txt')){
next if ($fn eq '2.txt');
open ($fhR, '<', $fn);
while (defined (local $_ = <$fhR>)){
push (@aData, $_) if (/$regex/);
}
close ($fhR);
}
#print @aData to your FileHandle.

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

12 / 2 页下一页

返回列表

Chinaunix › 论坛 › 程序设计 › Perl › [已解决]批量查找字符串并导出结果到新的文本

[已解决]批量查找字符串并导出结果到新的文本 [复制链接]

浏览过的版块