论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2010-03-18 21:22 |只看该作者 |倒序浏览

本帖最后由流星北于 2010-03-19 12:10 编辑

用perl解决。
有一个文本数据集，在excel中通过排序后发现，行首的关键字，有的行有重复，希望求有重复关键字行的均值，在文件中没有重复关键字的行按原样输出，有重复关键字的行，只输出均值一行。
CA6 1    2    3    4    5
CA7 2    5    3    2    1
CA8       2    8    6    3    2
CA8    3    4    4    1    5
CA9 5    8    7    6    1
希望能得到：
CA6 1    2    3    4    5
CA7 2    5    3    2    1
CA8       2.5 6    5    2    3.5
CA9 5    8    7    6    1

每一行除了行首的关键字，有78个值。关键字大部分是唯一的，一个关键字对应一行数据，重复关键字的，行数量不一定。
请各位高手指点，在此谢过大家！

文库|博客

兰花仙子

版主

论坛徽章:: 0

2楼 [报告]

发表于 2010-03-18 21:43 |只看该作者

恩。。but,,,,, what's your code so far?

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

黑色阳光_cu

白手起家

论坛徽章:: 0

3楼 [报告]

发表于 2010-03-18 22:51 |只看该作者

本帖最后由黑色阳光_cu 于 2010-03-18 22:58 编辑

#!/bin/env perl
use strict;
use warnings;
my @lines;
my @stack;
my $keyword;
my $sp = " " x 8;
foreach $_ (sort { &filter($a, $b) } <DATA>)
{
my @fields = split(/\s+/, $_);
$keyword = $fields[0] if (not defined $keyword);
if ($keyword ne $fields[0])
{
push(@lines, &average());
@stack = (\@fields);
$keyword = $fields[0];
}
else
{
push(@stack, \@fields);
}
}
push(@lines, &average());
die join("\n", @lines), "\n";
sub filter
{
return (split(/\s+/, $_[0]))[0] cmp (split(/\s+/, $_[1]))[0];
}
sub average()
{
my $result;
for (my $n = 1; $n <= $#stack; $n++)
{
for (my $nn = 1; $nn <= $#{$stack[$n]}; $nn++)
{
$stack[0]->[$nn] += $stack[$n]->[$nn];
}
}
for (my $nn = 1; $nn <= $#{$stack[0]}; $nn++)
{
$stack[0]->[$nn] /= $#stack + 1;
}
$result = join($sp, @{$stack[0]});
@stack = ();
return $result;
}
__DATA__
CA6 1 2 3 4 5
CA7 2 5 3 2 1
CA8 2 8 6 3 2
CA8 3 4 4 1 5
CA9 5 8 7 6 1

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

wfnh

小富即安

论坛徽章:: 0

4楼 [报告]

发表于 2010-03-18 23:47 |只看该作者

呵呵··看见带妹了··

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

toniz

富足长乐

论坛徽章:: 0

5楼 [报告]

发表于 2010-03-19 09:44 |只看该作者

本帖最后由 toniz 于 2010-03-19 09:57 编辑

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

黑色阳光_cu

白手起家

论坛徽章:: 0

6楼 [报告]

发表于 2010-03-19 09:58 |只看该作者

本帖最后由黑色阳光_cu 于 2010-03-19 09:59 编辑

toniz 发表于 2010-03-19 09:44

use strict;
use Data::Dumper;
my %data;
while(<DATA>){
s/\s+$//g;
s/ +/\t/g;
my @dtmp = split /\t/,$_;
my $key = shift @dtmp;
if (exists $data{$key}){
$data{$key}=[map{($dtmp[$_]+${$data{$key}}[$_])/2}0..(@dtmp-1)];
}else{
$data{$key}=\@dtmp;
}
}
foreach my $key(sort keys %data){
print $key," "x8,join " "x8,@{$data{$key}},"\n";
}
__DATA__
CA6 1 2 3 4 5
CA7 2 5 3 2 1
CA8 2 8 6 3 2
CA8 3 4 4 1 5
CA9 5 8 7 6 1

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

流星北

白手起家

论坛徽章:: 0

7楼 [报告]

发表于 2010-03-19 10:09 |只看该作者

黑色阳光_cu 发表于 2010-03-18 22:51

谢谢大哥的回复，程序在示例数据上面运行得很好。但是文本数据太大，我希望通过文件操作来处理，我自己加入了文件打开，文件读取，文件写入命令，出来的结果文件不对。附件里面是我的部分数据。请看看这个怎么解决。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

黑色阳光_cu

白手起家

论坛徽章:: 0

8楼 [报告]

发表于 2010-03-19 10:11 |只看该作者

把 foreach $_ (sort { &filter($a, $b) } <DATA>)
改为 while ($_ = <FILE>)

前提是文件是排序过的

试试

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

toniz

富足长乐

论坛徽章:: 0

9楼 [报告]

发表于 2010-03-19 10:16 |只看该作者

本帖最后由 toniz 于 2010-03-19 11:15 编辑

那个有BUG 我编辑了呵呵

use strict;
use Data::Dumper;
my %data;
while(<DATA>){
s/\s+$//g;
s/ +/\t/g;
my @dtmp = split /\t/,$_;
my $key = shift @dtmp;
if (exists $data{$key}){
$data{$key}->{'data'}=[map {$dtmp[$_]+${$data{$key}->{'data'}}[$_]}0..(@dtmp-1)];
$data{$key}->{'count'}+=1;
}else{
$data{$key}->{'data'}=\@dtmp;
$data{$key}->{'count'} =1;
}
}
foreach my $key(sort keys %data){
my @tmp = map {$_/$data{$key}->{'count'}}@{$data{$key}->{'data'}};
print $key," "x8,join " "x8,@tmp ,"\n";
}
__DATA__
CA6 1 2 3 4 5
CA7 2 5 3 2 1
CA8 2 8 6 3 2
CA8 3 4 4 1 5
CA9 5 8 7 6 1

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

黑色阳光_cu

白手起家

论坛徽章:: 0

10楼 [报告]

发表于 2010-03-19 10:19 |只看该作者

你的代码比我少多了

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

12 / 2 页下一页

返回列表

Chinaunix › 论坛 › 程序设计 › Perl › 求助：perl求关键字相同行的均值[已解决]

求助：perl求关键字相同行的均值[已解决] [复制链接]

浏览过的版块