’求助！！！求助！！！文件匹配输出特定的内容‘ [复制链接]

论坛徽章:: 307

22楼 [报告]

发表于 2016-06-17 18:47 |只看该作者

回复 21# little_joe
请看下 19 楼, 我的问题.

论坛徽章:: 0

23楼 [报告]

发表于 2016-06-17 21:15 |只看该作者

第二行的内容不是Query行的衔接，它们是没有关系的，第二行其实是Query行和Sbjct行的关系描述，+表示两个氨基酸是同义氨基酸，这是生物学相关的问题，所以读取文件B时不用考虑第二行，只需要考虑以Query和Sbjct开头的行就行。

文件B中如您所标黄色的序号不会出现大的在前，小的在后的情况，因为氨基酸序列是连续的有顺序的。

因为每个Query行开头都会有一个数字序号，如果文件A中的数字小于文件BQuery第一个数字，那么便可以直接忽略，即如果文件A数字不在该区间内即可忽略，

如果文件A为35则直接忽略以2开头的Query行，只读取含有35的Query行回复 19# sunzhiguolu

论坛徽章:: 307

24楼 [报告]

发表于 2016-06-17 22:05 |只看该作者

回复 23# little_joe
好的, 如有不明白我再问.

论坛徽章:: 0

25楼 [报告]

发表于 2016-06-17 22:18 |只看该作者

恩恩，您辛苦啦！谢谢！回复 24# sunzhiguolu

论坛徽章:: 307

26楼 [报告]

发表于 2016-06-18 13:49 |只看该作者

本帖最后由 sunzhiguolu 于 2016-06-18 14:01 编辑

回复 25# little_joe
试下,

#!/usr/bin/perl
use strict;
use warnings;
sub collect_data{
my (%ha, %hFilt, $id);
open (my $fhA, '<', shift);
while (defined (local $_ = <$fhA>)){
if (/\A(\D\S+)/){
%hFilt = () if (!exists $ha{$1});
$id = $1;
next;
}
s/\s+\z//;
push (@{$ha{$id}}, $_) if (!$hFilt{$_}++);
}
close ($fhA);
\%ha;
}
sub compare{
my ($id, $rh, @aData) = (@_);
my %hStat;
foreach my $v (@{$rh->{$id}}){
foreach my $V (grep {$v >= $_->[0] && $v <= $_->[2] and $v >= $_->[3] && $v <= $_->[-1]} @aData){
my ($q1, $q2, $q3, $s1, $s2, $s3) = @$V;
my @aChars = split //, ($s2 =~ s/-//gr);
$hStat{$aChars[$v - $s1]}++;
}
}
if (%hStat){
print "$id\n";
print "$_:$hStat{$_}\n" for keys %hStat;
}
}
my $rha = collect_data (shift);
open (my $fh, '<', shift);
my ($Flag, $Offset, $ID, @aData) = 0;
while (defined (local $_ = <$fh>)){
next if (/\A\s*\z/ or !/\A(?:Query|Sbjct)/);
if (/\AQuery=\h+(\S+)/){
compare ($ID, $rha, splice (@aData)) if (@aData);
exists ($rha->{$1}) ? do {($ID, $Flag, $Offset) = ($1, 1, -1)} : ($Flag = 0);
next;
}
next if (!$Flag);
if (/\A(Query|Sbjct)\h+(\d+)\h+(\H+)\h+(\d+)/){
$Offset++ if ($1 eq "Query");
push (@{$aData[$Offset]}, $2, $3, $4);
}
}
close ($fh);
compare ($ID, $rha, splice (@aData)) if ($Flag);

复制代码

perl abc.pl a b
----------------------------------------------------------------------------------------------
NP_414894.2-1
M:4
NP_415921.2-1
M:4
YP_025310.1-1
A:2
YP_026163.2-1
M:4
YP_002791252.1-1
C:1
NP_417338.3-1
M:4
NP_417516.3-1
M:4
NP_418692.2-1
M:4
NP_418697.1-1
L:1
H:1

stanley_tam

小富即安

论坛徽章:: 6

27楼 [报告]

发表于 2016-06-18 16:34 |只看该作者

本帖最后由 stanley_tam 于 2016-06-18 16:36 编辑

感觉我的结果不一样

#！perl
use strict;
use warnings;
package Sequence;
sub new {
my ($class, $id) = @_;
my $self = +{};
$self->{'id'} = $id;
$self->{'members'} = [];
bless $self, $class;
return $self;
}
sub add_member {
my ($self, $member) = @_;
push @{ $self->{'members'} }, $member;
}
sub get_members {
my ($self) = @_;
return @{ $self->{'members'} };
}
sub get_id {
my ($self) = @_;
return $self->{'id'};
}
1;
package SequenceCollection;
sub new {
my ($class) = @_;
my $self = +{};
$self->{'sequences'} = [];
$self->{'_id_seq'} = +{};
$self->{'last_seen_id'} = q{};
$self->{'is_duplicate_id'} = 0;
bless $self, $class;
return $self;
}
sub process_line {
my ($self, $line) = @_;
$line =~ s{\s}{}gmix;
return if not $line;
if ($line =~ m{^ \d+ $}mix) {
return if $self->{'is_duplicate_id'};
my $last_seen_id = $self->{'last_seen_id'};
my $sequence = $self->{'_id_seq'}->{$last_seen_id};
$sequence->add_member($line);
}
else {
$self->{'last_seen_id'} = $line;
if (exists $self->{'_id_seq'}->{$line}) {
$self->{'is_duplicate_id'} = 1;
}
else {
# new record
$self->{'is_duplicate_id'} = 0;
my $sequence = Sequence->new($line);
$self->{'_id_seq'}->{$line} = $sequence;
push @{$self->{'sequences'}}, $sequence;
}
}
}
sub get_sequences {
my ($self) = @_;
return @{ $self->{'sequences'} };
}
1;
package Query;
sub new {
my ($class, $id) = @_;
my $self = +{};
$self->{'id'} = $id;
$self->{'query_list'} = [];
$self->{'subject_list'} = [];
$self->{'last_seen_start_number'} = undef;
bless $self, $class;
return $self;
}
sub populate_list {
my ($self, $string_type, $string, $start_number) = @_;
my @letters = split //, $string;
if ($string_type eq 'Query') {
my $query_list = $self->{'query_list'};
$self->{'last_seen_start_number'} = $start_number;
for my $letter (@letters){
$query_list->[$start_number] = $letter;
++$start_number;
}
$self->{'query_list'} = $query_list;
}
elsif ($string_type eq 'Sbjct') {
my $subject_list = $self->{'subject_list'};
$start_number = $self->{'last_seen_start_number'};
for my $letter (@letters){
$subject_list->[$start_number] = $letter;
++$start_number;
}
$self->{'subject_list'} = $subject_list;
}
else {
die "This shouldn't happen...$/";
}
}
sub get_subject_character {
my ($self, $number) = @_;
my $subject_list = $self->{'subject_list'};
my $character = $subject_list->[$number] // q{};
return $character
}
1;
package QueryCollection;
sub new {
my ($class, $id) = @_;
my $self = +{};
$self->{'queries'} = [];
$self->{'id_query'} = +{};
$self->{'last_seen_id'} = undef;
bless $self, $class;
return $self;
}
sub process_line {
my ($self, $line) = @_;
$line =~ s{^\s+ | \s+$}{}gmix;
return if not $line;
if ($line =~ m{Query=}) {
my ($id) = $line =~ m{^Query= \s* (.*)$}mx;
$self->{'last_seen_id'} = $id;
my $query = Query->new($id);
push @{ $self->{'queries'} }, $query;
$self->{'id_query'}->{$id} = $query;
}
elsif ($line =~ m{Query \s+ \d+ \s+}mix){
my $last_seen_id = $self->{'last_seen_id'};
my $query = $self->{'id_query'}->{$last_seen_id};
my ($start_number, $string) = $line =~ m{^Query \s+ (\d+) \s+ (\S+) \s+}mx;
my $string_type = 'Query';
$query->populate_list($string_type, $string, $start_number);
}
elsif ($line =~ m{Sbjct \s+ \d+ \s+}mix){
my $last_seen_id = $self->{'last_seen_id'};
my $query = $self->{'id_query'}->{$last_seen_id};
my ($start_number, $string) = $line =~ m{^Sbjct \s+ (\d+) \s+ (\S+) \s+}mx;
my $string_type = 'Sbjct';
$query->populate_list($string_type, $string, $start_number);
}
}
sub get_query_by_id {
my ($self, $id) = @_;
my $query = $self->{'id_query'}->{$id} || q{};
return $query;
}
sub get_subject_character {
my ($self, $id, $number) = @_;
my $character = q{};
my $query = $self->get_query_by_id($id);
if ($query) {
$character = $query->get_subject_character($number);
}
return $character;
}
1;
package main;
sub main {
my $sequence_collection = SequenceCollection->new();
open my $a_fh, '<', 'A.word';
while (defined(my $line = readline $a_fh)) {
$sequence_collection->process_line($line);
}
close $a_fh;
my $query_collection = QueryCollection->new();
open my $b_fh, '<', 'B.word';
while (defined(my $line = readline $b_fh)) {
$query_collection->process_line($line);
}
close $b_fh;
for my $sequence ( $sequence_collection->get_sequences() ){
my @members = $sequence->get_members();
my $id = $sequence->get_id();
my %count = ();
for my $number ( @members ){
my $character = $query_collection->get_subject_character($id, $number);
++$count{$character};
}
print "$/id => [$id]$/";
print "members => [@members]$/";
for my $character (keys %count){
my $number = $count{$character};
print "character => [$character]$/";
print "number => [$number]$/";
}
}
}
main();
__END__

复制代码

输出：

id => [NP_414894.2-1]
members => [77]
character => [-]
number => [1]
id => [NP_415088.1-1]
members => [134]
character => [W]
number => [1]
id => [NP_415560.1-1]
members => [137]
character => [S]
number => [1]
id => [NP_415921.2-1]
members => [77]
character => [-]
number => [1]
id => [YP_025310.1-1]
members => [73 78]
character => [T]
number => [1]
character => [V]
number => [1]
id => [YP_026163.2-1]
members => [77]
character => [-]
number => [1]
id => [YP_588459.1-1]
members => [62 63]
character => [N]
number => [1]
character => [K]
number => [1]
id => [YP_002791252.1-1]
members => [26]
character => [S]
number => [1]
id => [NP_417338.3-1]
members => [77]
character => [-]
number => [1]
id => [NP_417516.3-1]
members => [77]
character => [-]
number => [1]
id => [NP_418692.2-1]
members => [77]
character => [-]
number => [1]
id => [NP_418697.1-1]
members => [81 85]
character => [W]
number => [1]
character => [E]
number => [1]

复制代码

论坛徽章:: 307

28楼 [报告]

发表于 2016-06-18 17:20 |只看该作者

stanley_tam 发表于 2016-06-18 16:34
感觉我的结果不一样输出：

差异之处, 比如:
A 文件:
NP_415088.1-1
134

对应 B 文件 Query= NP_415088.1-1
...
Query  134  W  134
         W
Sbjct  61 W  61
...
Query  134  W  134
         W
Sbjct  61 W  61
...
Query  134  W  134
         W
Sbjct  61 W  61

A 与 B 中的对应数值 134 在 B 中的 Query 134 W 134 中满足匹配要求, 但是其下的 Sbjct 61 W 61 行的却不能满足 A 中数值 134 的匹配范围.
在这里我采用的是双过滤即 A 中的 134 必须在 B 中 Query, Sbjct 行中都满足要求才认为满足要求,  这一点可能需要楼主说明一下. (这个地方我的确拿不准)

论坛徽章:: 0

29楼 [报告]

发表于 2016-06-18 18:20 |只看该作者

本帖最后由 little_joe 于 2016-06-18 18:40 编辑

谢谢各位的关注和帮助，是我之前没说明白的原因，文件A的数值134其实是不用满足Sbjct的条件的，这里134的作用是找到对应Query行的对应字母，然后通过该字母（Query行）找到Sbjct行中Query行字母对应的字母（也就是其下方对应的字母），输出的是Sbjct行的字母，并且对这个输出的字母进行计数，文件中当Query行中出现“-”时不会影响序号区间例如：Query：1 ASDFGHJKL 9和Query：1  ASD-FGHJKL 9它们两个都是包含9个元素，“-”不会影响字母的序号，而当Query行是字母对应的Sbjct行是“-”时则不用输出例如：Query：1 ASDFGHJKL 9
                                                      Sbjct：1 ASD-FGHJK 8假设文件A数值为4，则找到了Query行的F此时Sbjct行对应“-”则可以不用输出（或者为了简单期间输出计数也可）这个应该是文件的输出结果（例子中较少，所以手动验证了一下）
NP_415088.1-1       W:4
NP_415560.1-1 S:1
YP_025310.1-1 S:1 V:1
NP_418697.1-1 W:7 V:7
YP_588459.1-1 N:1 K:1
YP_002791252.1-1 S:1
回复 28# sunzhiguolu