perl怎么按照字符数分割文件呢？ [复制链接]

论坛徽章:: 8

3楼 [报告]

发表于 2014-02-28 15:11 |只看该作者

回复 2# qidunhu

卤煮生物信息。。。对不起了，我也觉得恶心

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 33

4楼 [报告]

发表于 2014-02-28 15:47 |只看该作者

楼主能不能手工把你需要的结果完整一点写出来? 没看明白你到底要什么结果 ...

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 8

5楼 [报告]

发表于 2014-02-28 15:53 |只看该作者

回复 4# q1208c

对不起，对不起~
比如：

>gi|514231188|ref|NC_021558.1| Paenibacillus phage PG1 genomic sequence
ACAATGAAGTTTTCGGGATTCCCCTGGTCAGGTCTTAGCACCGTTGATGGAGATCGTTAACACGACCGAT
CAAGGGATCGTGAAGGCAATCAAGAATTCCAATATCATTCGATGGCTCTTGAAATTCAACCAGACGCTAA
GGCCAGAGGATATTAAGAAGAACACCAAAGAATTCGTTGATAGTTTCCTTAATACGGAGACCTCAGAAAC
CATCGGCGCTGCTGCAACAGATGCCAAAATGGATGCTCAACAGGTAGAACCGAAGGATTATGTTCCCAAT
GAGAAGCAAATGGATGCCACAACGAAGCGAATATATTCCTTCTTCAATACCAACGAGAAGATAATACAGG
GCAGTTATACAGAGGATGAATGGATATCTTATTACGAATCTGCAGTTGAACCGGATATTGTTCAATTGAG
CGGTGAATACACCAGGAAGATATTTTCGCGCAGAGAACGAGGGTTTGGAAACAAAATCATTTTCGAATCA
TCCAACCTGACATTTGCAAGCATGCAGACGAAGCTGAAGCTGGTCGAGTTGGTTGATAGAGGAATTTTCA

复制代码

生成：
file1、

>gi|514231188|ref|NC_021558.1| Paenibacillus phage PG1 genomic sequence
ACAATGAAGTTTTCGGGATTCCCCTGGTCAGGTCTTAGCACCGTTGATGGAGATCGTTAACACGACCGAT

复制代码

file2、

>gi|514231188|ref|NC_021558.2| Paenibacillus phage PG1 genomic sequence
CAAGGGATCGTGAAGGCAATCAAGAATTCCAATATCATTCGATGGCTCTTGAAATTCAACCAGACGCTAA

复制代码

file3、

>gi|514231188|ref|NC_021558.3| Paenibacillus phage PG1 genomic sequence
GGCCAGAGGATATTAAGAAGAACACCAAAGAATTCGTTGATAGTTTCCTTAATACGGAGACCTCAGAAAC

复制代码

类似这样的。。。

然后第五个文件：如：

>gi|514231188|ref|NC_021558.5| Paenibacillus phage PG1 genomic sequence
GAGAAGCAAATGGATGCCACAACGAAGCGAATATATTCCTTCTTCAATACCAACGAGAAGATAATACAGG

复制代码

想得到前30个字符串：
GAGAAGCAAATGGATGCCACAACGAAGCGA
1、计算(G数目+C数目）/30
2、反向输出这30个字符：
。。。。
存到一个文件里面

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 33

6楼 [报告]

发表于 2014-02-28 16:46 |只看该作者

#!/usr/bin/perl
use warnings;
use strict;
my $file_orig = "file.orig.txt";
open(FILE_ORIG, "<".$file_orig) or die("$!");
my $head_line = <FILE_ORIG>;
my $n = 0;
while (my $line = <FILE_ORIG>) {
$n ++;
my $new_head = $head_line;
my $part = substr($line, 0,30);
$new_head =~ s/\|NC_021558\.1\|/\|NC_021558\.$n\|/;
my $out_file = "file.$n.txt";
open(FILE_OUT, ">".$out_file) or die("$!");
print FILE_OUT $new_head;
print FILE_OUT $line;
close(FILE_OUT);
my $count = ($part =~ tr/GC//);
my $reverse_part = scalar reverse $part;
print $part, "|", $reverse_part, "|", $count, "|", $count / 30, "\n";
}
close(FILE_ORIG);

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 8

7楼 [报告]

发表于 2014-02-28 16:53 |只看该作者

回复 6# q1208c

谢谢大神谢谢。。。不过大神，不好意思啊，其实我是想平均第二行后所有字符到8个文件里面，并不是一行一个，比如总共400个字符的话，就50个字符外加第一行一个文件。。。不好意思了

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 33

8楼 [报告]

发表于 2014-02-28 16:56 |只看该作者

回复 7# huang6894

你可没说呀, 我以为你一个文件一行呢 ...

那就得先计算出这个文件有多少行, 然后再平均就行了. 加个 count就行了.

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 8

9楼 [报告]

发表于 2014-02-28 17:03 |只看该作者

回复 8# q1208c

不行的不行的。。。因为是按字符数分割文件。。。不是按行

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？