免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 6249 | 回复: 5
打印 上一主题 下一主题

请教:如何将多行序列合并为一行 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-05-05 14:25 |只看该作者 |倒序浏览
我的文本内容如下:
>SRR298655.sra.181 1111-1200
NTCCTCCGCGCAGTTGACAAGCCAAGCCGCCAGCTA
>SRR298655.sra.181 1435-1590
CAGCAGGTCCCGAAGCTTCTCTTTCTTGCCTTTGCN
>SRR298655.sra.181 1455-1598
NAGCCCCTGCTCCAGTTGTTGTGGGACCTTCAGGAA
>SRR298655.sra.182 1111-1200
NTCCTCCGCGCAGTTGACAAGCCAAGCCGCCAGCTA
>SRR298655.sra.182 1435-1590
CAGCAGGTCCCGAAGCTTCTCTTTCTTGCCTTTGCN
>SRR298655.sra.183 1455-1598
NAGCCCCTGCTCCAGTTGTTGTGGGACCTTCAGGAA
>SRR298655.sra.184 1111-1200
NTCCTCCGCGCAGTTGACAAGCCAAGCCGCCAGCTA
>SRR298655.sra.184 1435-1590
CAGCAGGTCCCGAAGCTTCTCTTTCTTGCCTTTGCN
>SRR298655.sra.184 1455-1598
NAGCCCCTGCTCCAGTTGTTGTGGGACCTTCAGGAA
>SRR298655.sra.184 1611-1700
NTCCTCCGCGCAGTTGACAAGCCAAGCCGCCAGCTA
>SRR298655.sra.184 1735-1890
CAGCAGGTCCCGAAGCTTCTCTTTCTTGCCTTTGCN
>SRR298655.sra.185 1055-1098
NAGCCCCTGCTCCAGTTGTTGTGGGACCTTCAGGAA
>SRR298655.sra.185 1111-1200
NTCCTCCGCGCAGTTGACAAGCCAAGCCGCCAGCTA
>SRR298655.sra.186 1435-1590
CAGCAGGTCCCGAAGCTTCTCTTTCTTGCCTTTGCN
>SRR298655.sra.186 1455-1598
NAGCCCCTGCTCCAGTTGTTGTGGGACCTTCAGGAA
>SRR298655.sra.186 1467-1786
NCGCATGCTCTCCCTGCAGCCTTTCTTGCACACTGG
我想要这样的结果
>SRR298655.sra.181 1111-1598
NTCCTCCGCGCAGTTGACAAGCCAAGCCGCCAGCTA
CAGCAGGTCCCGAAGCTTCTCTTTCTTGCCTTTGCN
NAGCCCCTGCTCCAGTTGTTGTGGGACCTTCAGGAA
>SRR298655.sra.182 1111-1590
NTCCTCCGCGCAGTTGACAAGCCAAGCCGCCAGCTA
CAGCAGGTCCCGAAGCTTCTCTTTCTTGCCTTTGCN
>SRR298655.sra.183 1455-1598
NAGCCCCTGCTCCAGTTGTTGTGGGACCTTCAGGAA
>SRR298655.sra.184 1111-1890
NTCCTCCGCGCAGTTGACAAGCCAAGCCGCCAGCTA
CAGCAGGTCCCGAAGCTTCTCTTTCTTGCCTTTGCN
NAGCCCCTGCTCCAGTTGTTGTGGGACCTTCAGGAA
NTCCTCCGCGCAGTTGACAAGCCAAGCCGCCAGCTA
CAGCAGGTCCCGAAGCTTCTCTTTCTTGCCTTTGCN
>SRR298655.sra.185 1055-1590
NAGCCCCTGCTCCAGTTGTTGTGGGACCTTCAGGAA
NTCCTCCGCGCAGTTGACAAGCCAAGCCGCCAGCTA
CAGCAGGTCCCGAAGCTTCTCTTTCTTGCCTTTGCN
>SRR298655.sra.186 1455-1786
NAGCCCCTGCTCCAGTTGTTGTGGGACCTTCAGGAA
NCGCATGCTCTCCCTGCAGCCTTTCTTGCACACTGG
就是假如SRR的那个字符串是一样的话,只保留第一次出现>SRR的就行,后面的都删除,把ATCGN等字符组成的序列合并,对于SRR298655.sra.181 1111-1598 1111是第一次出现的
SRR298655.sra.181 1111-1200
中-之前的字符串,而1578是>SRR298655.sra.181 1455-1598
该SRR字符串最后一次出现的-之后的字符串。
如果加上1111-1598 比较麻烦的话,结果不要这个字符串也行。只要有>SRR就可以了。
望各位高手指点,因为各个SRR的字符串出现的行数不统一,我不知道怎么实现!

论坛徽章:
1
处女座
日期:2014-03-28 10:11:00
2 [报告]
发表于 2013-05-05 15:36 |只看该作者
本帖最后由 rongchaogao 于 2013-05-05 16:08 编辑
  1. >SRR298655.sra.181 1111-1598
  2. NTCCTCCGCGCAGTTGACAAGCCAAGCCGCCAGCTA
  3. CAGCAGGTCCCGAAGCTTCTCTTTCTTGCCTTTGCN
  4. NAGCCCCTGCTCCAGTTGTTGTGGGACCTTCAGGAA
  5. >SRR298655.sra.182 1111-1590
  6. NTCCTCCGCGCAGTTGACAAGCCAAGCCGCCAGCTA
  7. CAGCAGGTCCCGAAGCTTCTCTTTCTTGCCTTTGCN
  8. >SRR298655.sra.183 1455-1598
  9. NAGCCCCTGCTCCAGTTGTTGTGGGACCTTCAGGAA
  10. >SRR298655.sra.184 1111-1890
  11. NTCCTCCGCGCAGTTGACAAGCCAAGCCGCCAGCTA
  12. CAGCAGGTCCCGAAGCTTCTCTTTCTTGCCTTTGCN
  13. NAGCCCCTGCTCCAGTTGTTGTGGGACCTTCAGGAA
  14. NTCCTCCGCGCAGTTGACAAGCCAAGCCGCCAGCTA
  15. CAGCAGGTCCCGAAGCTTCTCTTTCTTGCCTTTGCN
  16. >SRR298655.sra.185 1055-1200
  17. NAGCCCCTGCTCCAGTTGTTGTGGGACCTTCAGGAA
  18. NTCCTCCGCGCAGTTGACAAGCCAAGCCGCCAGCTA
  19. >SRR298655.sra.186 1435-1786
  20. CAGCAGGTCCCGAAGCTTCTCTTTCTTGCCTTTGCN
  21. NAGCCCCTGCTCCAGTTGTTGTGGGACCTTCAGGAA
  22. NCGCATGCTCTCCCTGCAGCCTTTCTTGCACACTGG
复制代码
上面是结果
下面是程序

  1. use strict;
  2. use warnings;

  3. my ($key,$key1,$value,@information,%hash,@num);
  4. open(IN,"a.txt")||die("can not open");
  5. while(<IN>)
  6. {
  7.         chomp;
  8.         @information=split/\s+/,$_;
  9.         $hash{$information[0]}{$information[1]}=<IN>;
  10. }
  11. open(OUT,">b.txt")||die("can not open");
  12. foreach $key (sort keys %hash)
  13. {
  14.         undef @num;
  15.         foreach $key1 (sort keys %{$hash{$key}})
  16.         {
  17.                 #print OUT " $key1";
  18.                 @information=split/-/,$key1;
  19.                 push (@num,$information[0]);
  20.                 push (@num,$information[1]);
  21.         }
  22.         @num=sort @num;
  23.         print OUT "$key $num[0]-$num[$#num]\n";
  24.         foreach $key1 (sort keys %{$hash{$key}})
  25.         {
  26.                 $value=$hash{$key}{$key1};
  27.                 print OUT "$value";
  28.         }
  29. }
复制代码

论坛徽章:
0
3 [报告]
发表于 2013-05-05 15:59 |只看该作者
本帖最后由 afukada 于 2013-05-05 16:00 编辑

給你一點hint

我相信你自己還要再加以修改{:3_193:}
  1. while(<DATA>)
  2. {
  3.         chomp;
  4.        
  5.         if(/^>/)
  6.         {
  7.                 ($ID,$region)=split(/\s/);
  8.                 ($start,$end)=split(/-/,$region);
  9.                
  10.                 if($ID2st_ed{$ID} eq undef)
  11.                 {
  12.                         $ID2st_ed{$ID}=[$start,$end]
  13.                 }
  14.                 else
  15.                 {
  16.                         $ID2st_ed{$ID}[1]=$end;
  17.                 }
  18.         }
  19.         else
  20.         {
  21.                 push(@{$ID2seq{$ID}},$_);
  22.         }
  23. }

  24. foreach(sort{$a cmp $b}keys(%ID2st_ed))
  25. {
  26.         print $_," ",join("-",@{$ID2st_ed{$_}}),"\n",join("\n",@{$ID2seq{$_}}),"\n";
  27. }

  28. __DATA__
  29. >SRR298655.sra.181 1111-1200
  30. NTCCTCCGCGCAGTTGACAAGCCAAGCCGCCAGCTA
  31. >SRR298655.sra.181 1435-1590
  32. CAGCAGGTCCCGAAGCTTCTCTTTCTTGCCTTTGCN
  33. >SRR298655.sra.181 1455-1598
  34. NAGCCCCTGCTCCAGTTGTTGTGGGACCTTCAGGAA
  35. >SRR298655.sra.182 1111-1200
  36. NTCCTCCGCGCAGTTGACAAGCCAAGCCGCCAGCTA
  37. >SRR298655.sra.182 1435-1590
  38. CAGCAGGTCCCGAAGCTTCTCTTTCTTGCCTTTGCN
  39. >SRR298655.sra.183 1455-1598
  40. NAGCCCCTGCTCCAGTTGTTGTGGGACCTTCAGGAA
  41. >SRR298655.sra.184 1111-1200
  42. NTCCTCCGCGCAGTTGACAAGCCAAGCCGCCAGCTA
  43. >SRR298655.sra.184 1435-1590
  44. CAGCAGGTCCCGAAGCTTCTCTTTCTTGCCTTTGCN
  45. >SRR298655.sra.184 1455-1598
  46. NAGCCCCTGCTCCAGTTGTTGTGGGACCTTCAGGAA
  47. >SRR298655.sra.184 1611-1700
  48. NTCCTCCGCGCAGTTGACAAGCCAAGCCGCCAGCTA
  49. >SRR298655.sra.184 1735-1890
  50. CAGCAGGTCCCGAAGCTTCTCTTTCTTGCCTTTGCN
  51. >SRR298655.sra.185 1055-1098
  52. NAGCCCCTGCTCCAGTTGTTGTGGGACCTTCAGGAA
  53. >SRR298655.sra.185 1111-1200
  54. NTCCTCCGCGCAGTTGACAAGCCAAGCCGCCAGCTA
  55. >SRR298655.sra.186 1435-1590
  56. CAGCAGGTCCCGAAGCTTCTCTTTCTTGCCTTTGCN
  57. >SRR298655.sra.186 1455-1598
  58. NAGCCCCTGCTCCAGTTGTTGTGGGACCTTCAGGAA
  59. >SRR298655.sra.186 1467-1786
  60. NCGCATGCTCTCCCTGCAGCCTTTCTTGCACACTGG
复制代码

论坛徽章:
3
CU十二周年纪念徽章
日期:2013-10-24 15:41:34子鼠
日期:2013-12-14 14:57:19射手座
日期:2014-04-25 21:23:23
4 [报告]
发表于 2013-05-05 21:24 |只看该作者
  1. my (%h1,%h2,$s);
  2. while(<DATA>){
  3.     chomp;
  4.     /(>\S+)\s+(\d+)-(\d+)(?{$s = $1})/?push @{$h1{$s}},$2,$3:push @{$h2{$s}},$_;
  5. }
  6. map {print join "\n","$_\t$h1{$_}[0]-$h1{$_}[-1]",@{$h2{$_}},"\n"}sort keys %h1
  7. __DATA__
  8. .....
复制代码

论坛徽章:
0
5 [报告]
发表于 2013-05-05 23:11 |只看该作者
  1. #!/usr/bin/perl

  2. my %hash;
  3. while (<STDIN>){
  4.     my ($spr, $team) = split;
  5.     $hash{$spr}{$team} = <STDIN>;
  6. }

  7. my @number = ();
  8. foreach $spr (sort keys %hash) {
  9.     foreach $team (sort keys %{ $hash{$spr} }) {
  10.         push (@number, $team);
  11.         sort @number;
  12.     }
  13.     print "$spr $number[-1]\n";
  14.     foreach $team (sort keys %{ $hash{$spr} }) {
  15.         $eng = $hash{$spr}{$team};
  16.         print "$eng";
  17.     }
  18. }
复制代码

论坛徽章:
7
戌狗
日期:2013-12-15 20:43:38技术图书徽章
日期:2014-03-05 01:33:12技术图书徽章
日期:2014-03-15 20:31:17未羊
日期:2014-03-25 23:48:20丑牛
日期:2014-04-07 22:37:44巳蛇
日期:2014-04-11 21:58:0915-16赛季CBA联赛之青岛
日期:2016-03-17 20:36:13
6 [报告]
发表于 2013-05-06 08:54 |只看该作者
  1. #!/usr/bin/perl
  2. use 5.016;
  3. my $R = qr/^(.*\.)(\d+)(.*?)(\d+)$/;
  4. my @data = [ [ <DATA> =~ $R ] ];
  5. while (<DATA>) {
  6.     push $data[-1], $_ and next unless /^>/;
  7.     my @a = /$R/;
  8.     $a[0] eq $data[-1][0][0] && $a[1] eq $data[-1][0][1]
  9.       ? $data[-1][0][3] = $a[3]
  10.       : push @data, [ [@a] ];
  11. }
  12. print @{ shift $_ }, $/, @$_ for @data;

  13. __DATA__
  14. >SRR298655.sra.181 1111-1200
  15. NTCCTCCGCGCAGTTGACAAGCCAAGCCGCCAGCTA
  16. >SRR298655.sra.181 1435-1590
  17. CAGCAGGTCCCGAAGCTTCTCTTTCTTGCCTTTGCN
  18. >SRR298655.sra.181 1455-1598
  19. NAGCCCCTGCTCCAGTTGTTGTGGGACCTTCAGGAA
  20. >SRR298655.sra.182 1111-1200
  21. NTCCTCCGCGCAGTTGACAAGCCAAGCCGCCAGCTA
  22. >SRR298655.sra.182 1435-1590
  23. CAGCAGGTCCCGAAGCTTCTCTTTCTTGCCTTTGCN
  24. >SRR298655.sra.183 1455-1598
  25. NAGCCCCTGCTCCAGTTGTTGTGGGACCTTCAGGAA
  26. >SRR298655.sra.184 1111-1200
  27. NTCCTCCGCGCAGTTGACAAGCCAAGCCGCCAGCTA
  28. >SRR298655.sra.184 1435-1590
  29. CAGCAGGTCCCGAAGCTTCTCTTTCTTGCCTTTGCN
  30. >SRR298655.sra.184 1455-1598
  31. NAGCCCCTGCTCCAGTTGTTGTGGGACCTTCAGGAA
  32. >SRR298655.sra.184 1611-1700
  33. NTCCTCCGCGCAGTTGACAAGCCAAGCCGCCAGCTA
  34. >SRR298655.sra.184 1735-1890
  35. CAGCAGGTCCCGAAGCTTCTCTTTCTTGCCTTTGCN
  36. >SRR298655.sra.185 1055-1098
  37. NAGCCCCTGCTCCAGTTGTTGTGGGACCTTCAGGAA
  38. >SRR298655.sra.185 1111-1200
  39. NTCCTCCGCGCAGTTGACAAGCCAAGCCGCCAGCTA
  40. >SRR298655.sra.186 1435-1590
  41. CAGCAGGTCCCGAAGCTTCTCTTTCTTGCCTTTGCN
  42. >SRR298655.sra.186 1455-1598
  43. NAGCCCCTGCTCCAGTTGTTGTGGGACCTTCAGGAA
  44. >SRR298655.sra.186 1467-1786
  45. NCGCATGCTCTCCCTGCAGCCTTTCTTGCACACTGG
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP