论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2010-05-31 15:29 |只看该作者 |倒序浏览

请问，在两个文件中，一个文件时目录，另外一个文件时目录加内容，怎样利用第一个文件的目录把第二个文件中的目录和内容提取出来。
例如，目录文件时
a
c
d
第二个文件时
>a
4545
45667
8990
>b
dfdfdf
79oio
>c
4567
0977
1435
>d
495897
23445
要得到的结果是
>a
4545
45667
8990
>c
4567
0977
1435
>d
495897
23445
每个目录前都有一个>号

文库|博客

qnxchina

小富即安

论坛徽章:: 0

2楼 [报告]

发表于 2010-05-31 16:31 |只看该作者

一个简单的办法,如果第一个文件数据量不大,那么把每一行去掉回车换行作为key放进hash
第二个文件每一行去掉回车换行后,作为key去索引hash内容,如果不为空则说明存在于第一个文件中

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

shuigui56

白手起家

论坛徽章:: 0

3楼 [报告]

发表于 2010-05-31 17:48 |只看该作者

我想要的是得到筛选的文件，就是包含有目录文件中条目对应的信息

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

iamlimeng

富足长乐

论坛徽章:: 0

4楼 [报告]

发表于 2010-05-31 17:56 |只看该作者

二楼说的得，把文件二通过范围匹配后，以目录名为KEY存入HASH，然后访问文件1中的目录。

你可以看一下前面的贴，是同样的问题：
http://bbs3.chinaunix.net/thread-1711808-1-1.html

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

shuigui56

白手起家

论坛徽章:: 0

5楼 [报告]

发表于 2010-05-31 19:32 |只看该作者

谢谢！

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

liuguiyou1981

白手起家

论坛徽章:: 0

6楼 [报告]

发表于 2010-06-01 11:24 |只看该作者

回复 1# shuigui56

二楼说的得，把文件二通过范围匹配后，以目录名为KEY存入HASH，然后访问文件1中的目录。

你可以看一下前面的贴，是同样的问题：
http://bbs3.chinaunix.net/thread-1711808-1-1.html

按照上面的提示，我写了一个命令，供楼主参考：（wenjian.pl）
#!/usr/bin/perl
use strict;

open(ONE,"$ARGV[0]") or die $!;
open(TWO,"$ARGV[1]") or die $!;

my (%hash, $key);

while(<ONE>) {

      if (/^>/) {
      $key=$_;

}
      $hash{$key}.=$_;


}

while (<TWO>) {

print $hash{">".$_} if exists ($hash{">".$_});
}

one为1.txt
>a
4545
45667
8990
>b
dfdfdf
79oio
>c
4567
0977
1435
>d
495897
23445

two为2.txt
a
b
c
运行：
[liuguiyou@localhost perl_example]$ ./wenjian.pl  2.txt  1.txt
[liuguiyou@localhost perl_example]$ ./wenjian.pl  2.txt  1.txt
>a
4545
45667
8990
>b
dfdfdf
79oio
>c
4567
0977
1435

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

李寻欢92

白手起家

论坛徽章:: 0

7楼 [报告]

发表于 2010-06-01 22:55 |只看该作者

回复 1# shuigui56

!/usr/bin/perl -w
#目录文件1，文件2包含目录和该目录下的文件名，提取目录名在1的那些行
use strict;
use 5.010;
open FILE_1,"<data_012" or die "Cannot open dir data_012";
open FILE_2,"<data_011" or die "Cannot open dir data_011";
my %hash;
$/=">";
<FILE_2>;
while (<FILE_2>) {
chomp;
my ($key,$value) = $_=~ /([^\n]+)\n([\d \D]+)/;
$hash{$key} = $value;
}
$/="\n";
chomp (my @key = <FILE_1>);
foreach my $key_1 (@key) {
printf ">$key_1\n$hash{$key_1}";
}

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

黑色阳光_cu

白手起家

论坛徽章:: 0

8楼 [报告]

发表于 2010-06-01 23:40 |只看该作者

本帖最后由黑色阳光_cu 于 2010-06-01 23:49 编辑

#!/bin/env perl
use strict;
use warnings;
open(DIR, "<", "dirs.txt") or die $!;
open(CONTENT, "<", "contents.txt") or die $!;
my $content = join("", <CONTENT>);
foreach my $dir (map {chomp; $_} <DIR>)
{
print ">$dir\n$1" if ($content =~ /(?<=^>\Q$dir\E\n)(.*?)(?=^>|$(?!\n))/sm);
}

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

yybmsrs

小富即安

论坛徽章:: 78

9楼 [报告]

发表于 2010-06-02 18:37 |只看该作者

回复 8# 黑色阳光_cu

($content =~ /(?<=^>\Q$dir\E\n)(.*?)(?=^>|$(?!\n))/sm)学习了

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

mingxw

白手起家

论坛徽章:: 0

10楼 [报告]

发表于 2010-06-04 15:54 |只看该作者

相对来说,内容文件会比目录文件大很多,楼上各位把内容文件所有内容都存贮起来是否浪费?
存储目录,遍历内容时再判断对应目录是否在目录文件中:

#!/usr/bin/perl -w

use strict;

open FILE_DIR,"dir.txt" or die "Cannot open dir.txt file";

open FILE_CONTENT,"content.txt" or die "Cannot open content.txt file";

my %hash;

while(<FILE_DIR>)
{
chomp;
next unless($_);
$hash{$_}=1;
}
my $findFlag=0;
while (<FILE_CONTENT>) {
chomp;
$findFlag = $hash{$1} if(/^>(\w+)/);
print $_,"\n" if($findFlag);
}

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

返回列表

Chinaunix › 论坛 › 程序设计 › Perl › 文件提取多行

文件提取多行 [复制链接]

浏览过的版块