12 / 2 页下一页

论坛徽章:: 8

电梯直达

1楼 [收藏(0)] [报告]

发表于 2014-08-12 16:55 |只看该作者 |倒序浏览

30可用积分

本帖最后由 huang6894 于 2014-08-13 09:10 编辑

额，是我上一个帖子的简化版~

现在得到一些这样的文本：

16642 chr1 2336225 18 HOM del
16642 chr1 2336226 17 HOM del
16642 chr1 2336227 17 HOM del
16642 chr1 2336228 18 HOM del
16642 chr1 2336236 17 HOM del
16642 chr1 2336237 17 HOM del
16642 chr1 2336309 24 HOM del
16642 chr1 2336320 24 HOM del
16642 chr1 2336321 24 HOM del
16642 chr1 2336322 24 HET del
16642 chr1 2336323 24 HET del
16642 chr1 2336324 24 HET del
16642 chr1 2336325 24 HOM del

复制代码

我想对上面文本进行处理，如果第2、5、6列相同时，判断第3列是否连续，如果连续的数字达到3行以上，合并之~最后得到：

16642 chr1 2336225-2336228 HOM del
16642 chr1 2336322-2336324 HET del

复制代码

我记得之前有人回答过相关的问题，可是找不到原贴了，只好厚颜请求大神帮帮忙了，谢谢谢谢

----------------------------update--------------------------------------

问题解决，非常感谢两位大师@stanley_tam @yestreenstars
因为只能给一个最佳答案，选了一个时间相对短一点的。。。
stanley_tam大神的答案见：9楼

最佳答案

yestreenstars

查看完整内容

文库|博客

yestreenstars

富甲一方

论坛徽章:: 32

2楼 [报告]

发表于 2014-08-12 16:55 |只看该作者

#!/usr/bin/perl
use warnings;
use strict;
my $first_line = <DATA>;
my $str = join(" ", (split /\s+/, $first_line)[0, 1, 4, 5]);
my($min, $max);
$min = $max = (split /\s+/, $first_line)[2];
while(<DATA>){
my @fields = split;
if(join(" ", (split)[0, 1, 4, 5]) eq $str){
if($fields[2] - $max == 1){
$max = $fields[2];
next;
}else{
print join("\t", (split /\s+/, $str)[0, 1], "$min-$max", (split /\s+/, $str)[2, 3]), $/ if $max - $min >= 2;
}
}else{
print join("\t", (split /\s+/, $str)[0, 1], "$min-$max", (split /\s+/, $str)[2, 3]), $/ if $max - $min >= 2;
}
$str = join(" ", (split)[0, 1, 4, 5]);
$min = $max = $fields[2];
}
print join("\t", (split /\s+/, $str)[0, 1], "$min-$max", (split /\s+/, $str)[2, 3]), $/ if $max - $min >= 2;
__DATA__
16642 chr1 2336225 18 HOM del
16642 chr1 2336226 17 HOM del
16642 chr1 2336227 17 HOM del
16642 chr1 2336228 18 HOM del
16642 chr1 2336236 17 HOM del
16642 chr1 2336237 17 HOM del
16642 chr1 2336309 24 HOM del
16642 chr1 2336320 24 HOM del
16642 chr1 2336321 24 HOM del
16642 chr1 2336322 24 HET del
16642 chr1 2336323 24 HET del
16642 chr1 2336324 24 HET del
16642 chr1 2336325 24 HOM del

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

q1208c

富甲一方

论坛徽章:: 33

3楼 [报告]

发表于 2014-08-12 17:28 |只看该作者

以前是写过一个. 但解决不了楼主的问题.

个人以为, 楼主自己要的未必只是合并这么简单. 可否先对源文件进行排序, 然后再处理. 这样, 由于只是处理连续读进来的数据, 所以, 不会消耗太多的内存. 也更简单.

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

huang6894

大富大贵

论坛徽章:: 8

4楼 [报告]

发表于 2014-08-12 17:29 |只看该作者

回复 2# q1208c

是的，我也是这么做的，可是突然不怎么记得如何合并了，他们确实排序了

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

q1208c

富甲一方

论坛徽章:: 33

5楼 [报告]

发表于 2014-08-12 17:37 |只看该作者

回复 3# huang6894

排序了还不简单, 把你要的几个变量合并成一个. 存为 $aa

如果 $aa 为空, 说明是第一行, 读下一行, 然后比较 $3, 如果 $3 跟前一个 $3 是连续的, 那就再读一行. 满足条件就输出. 不然就重置.

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

huang6894

大富大贵

论坛徽章:: 8

6楼 [报告]

发表于 2014-08-12 17:55 |只看该作者

回复 4# q1208c

满足条件就输出. 不然就重置.就是这个不懂

而且实际数据时我是需要满足200行。。。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

yinyuemi

大富大贵

论坛徽章:: 2

7楼 [报告]

发表于 2014-08-12 18:23 |只看该作者

回复 1# huang6894

看你自己发表的帖子就能找到原帖

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

huang6894

大富大贵

论坛徽章:: 8

8楼 [报告]

发表于 2014-08-12 21:06 |只看该作者

回复 6# yinyuemi

谢谢SS兄。。。我应该没问过，不然我应该记得~谢谢~

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

stanley_tam

小富即安

论坛徽章:: 6

9楼 [报告]

发表于 2014-08-12 21:30 |只看该作者

本帖最后由 stanley_tam 于 2014-08-12 21:36 编辑

貌似设置几个变量记录上一行的信息和start number就可以了，这样行不行{:3_193:}

#!perl
use Modern::Perl;
use FileHandle;
my $your_data_file = 'a.txt';
my $fh = FileHandle->new($your_data_file, 'r');
my $start_num = q{};
my $last_line = [ q{}, q{}, 0, q{}, q{}, q{} ];
my $count = 0;
while (my $line = $fh->getline) {
# remove trailing newline
chomp $line;
# get columns of current line
my $current_line = [(split /\s+/, $line)];
# compare currentline with last line
if ($current_line->[2] == $last_line->[2] + 1) { # number increase by one
if ($last_line->[1] eq $current_line->[1] and
$last_line->[4] eq $current_line->[4] and
$last_line->[5] eq $current_line->[5]) { # column 2, 5, 6 are equal
# valid consecutive row, note it
++$count;
}
else {
# column 2, 5, 6 not equal
# the first line doesn't count, $count equal 2 suffice
if ($count >= 2) {
my @copy = @{ $last_line };
$copy[2] = "$start_num-$copy[2]";
say join "\t", @copy;
}
# reset
$start_num = $current_line->[2];
$count = 0;
}
}
else {
# number not consecutive
if ($count >= 2) {
my @copy = @{ $last_line };
$copy[2] = "$start_num-$copy[2]";
say join "\t", @copy;
}
# reset
$start_num = $current_line->[2];
$count = 0;
}
$last_line = $current_line;
}
$fh->close;
__END__

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

chenhao392

稍有积蓄

论坛徽章:: 1

10楼 [报告]

发表于 2014-08-12 22:45 |只看该作者

貌似可以用BEDtools, mergeBED和multiIntersectBed..自己google之。
遇到生信的问题先想别人已经写过的binary，多上Seqanswers和Biostar查查看。就像写代码的查查CPAN，去stackoverflow一样..
而不是直接写Perl。
BEDtools是C写的，代码效率也不错。

https://www.biostars.org/p/49581/

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

12 / 2 页下一页

返回列表

Chinaunix › 论坛 › 程序设计 › Perl › 【问题】连续区间合并

【问题】连续区间合并 [复制链接]

最佳答案