123 / 3 页下一页

新手求一个算法 [复制链接]

xiumu2280

家境小康

论坛徽章:: 8

11楼 [报告]

发表于 2015-02-05 09:09 |只看该作者

把文件内容按大小排个序
再把文件分割，分别运行这个程序
最后把结果和在一起，再运行一次
回复 10# yccpp

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

laohai8080

白手起家

论坛徽章:: 0

12楼 [报告]

发表于 2015-02-05 10:10 |只看该作者

#!/usr/bin/perl

use strict;
use warnings;

#if success output to outputNumber.txt;
if (@ARGV < 1)
{
print "usage:mergeData.pl inputfile\n";
exit(1);
}

my %datasHash;

open my $fileHandle, "<", $ARGV[0] or die "open $ARGV[0] failed$!";
while(my $lineData = <$fileHandle>)
{
chomp $lineData;
if($lineData =~ /^\s+$/)
{
next;
}
$lineData =~ s/^\s+//;
$lineData =~ s/\s+$//;
my @wordArray = split /\s+/, $lineData;
my @exitsKey;
my @notExitsKey;
foreach(@wordArray)
{
if( exists $datasHash{$_})
{
push @exitsKey,$_;
}
else
{
push @notExitsKey,$_;
}
}

if (@exitsKey == 0)
{
foreach(@wordArray)
{
$datasHash{$_} = \@wordArray;
}
}
else {
my @mergeArray = @notExitsKey;

for(my $index = 0; $index < @exitsKey; $index++)
{
my $ref1 = $datasHash{$exitsKey[$index]};

@mergeArray = (@$ref1, @mergeArray);

@$ref1 = ();
}

foreach(@mergeArray)
{
$datasHash{$_} = \@mergeArray;
}
}
}

my %refHash;
open my $outHandle, ">", "outputNumber.txt" or die "failed open outputNumber.txt $!";
foreach (keys %datasHash)
{
my $ref1 = $datasHash{$_};
if ( ! exists $refHash{$ref1})
{
my @result = join " ",@$ref1;
#print @result, "\n";
print $outHandle @result,"\n";
$refHash{$ref1} = 1;
}
}

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

laohai8080

白手起家

论坛徽章:: 0

13楼 [报告]

发表于 2015-02-05 10:12 |只看该作者

初学Perl代码不够简练,多多指教!

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

xiumu2280

家境小康

论坛徽章:: 8

14楼 [报告]

发表于 2015-02-05 12:03 |只看该作者

这个应该会快一些

my %hash_all;
while (<DATA>) {
chomp;
my @data = split /\s+/,my $line =$_;
push @{$hash_all{$data[0]}},$data[1];
push @{$hash_all{$data[1]}},$data[0];
}
my %out_data;
while (my ($key,$value) = each %hash_all) {
my @all = @{$value};
BEGIN:
my %hash;
@hash{@all} = @all;
my $num_r = keys %hash;
for my $cell (keys %hash) {
if ($hash_all{$cell}) {
push @all,@{$hash_all{$cell}};
}
}
@hash{@all} = @all;
my $num_l = keys %hash;
if ($num_l ne $num_r) {
goto BEGIN;
}
my $new_line = join "\t",sort keys %hash;
print "$new_line\n" if !$out_data{$new_line}++;
}
__DATA__
22875 30588
22875 34747
22912 34851
22963 35901
22969 30588
30588 40791
30609 39143
30609 40808

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

yccpp

白手起家

论坛徽章:: 2

15楼 [报告]

发表于 2015-02-05 16:50 |只看该作者

谢谢laohai8080 和xiumu2280 的热心帮助。 xiumu2280的新代码快了不止一些，附件中的数据几秒就处理完了，非常感谢。我有两个问题想请教您，第一个问题是能否让处理的结果按每行数据的多少从大到小排序，比如输出的结果如下
22875 30588 34747 22969 40791
30609 39143 40808
22912 34851
22963 35901
第二个问题是自己对您的代码理解不深，从输出结果看，不是从第一行的数据开始排列的，好像比较随机，能不能请xiumu2280帮忙解读一下。谢谢。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

chenyuluoyan沉鱼落

白手起家

论坛徽章:: 0

16楼 [报告]

发表于 2015-02-05 16:50 |只看该作者

回复 8# xiumu2280

@hash{@{$new}} = @{$new};
if ($hash{$ori->[0]} || $hash{$ori->[1]}) {
push @{$new},@{$ori};

复制代码

这段代码可以解释一下吗 @hash{@$new}}表示什么呢

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

xiumu2280

家境小康

论坛徽章:: 8

17楼 [报告]

发表于 2015-02-06 09:02 |只看该作者

这是哈希切片用来给数组去重回复 16# chenyuluoyan沉鱼落

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

xiumu2280

家境小康

论坛徽章:: 8

18楼 [报告]

发表于 2015-02-06 09:07 |只看该作者

因为这次是存的哈希，而遍历哈希的时候，是不像数组一样有顺序的。
如果你想这样从大到小的排列
可以对得到的数据进行二次处理，把这次得到的数据按大小排序就好了。
回复 15# yccpp

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

yccpp

白手起家

论坛徽章:: 2

19楼 [报告]

发表于 2015-02-06 20:52 |只看该作者

谢谢xiumu2280，涨姿势了。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

fly_in_thesky

白手起家

论坛徽章:: 1

20楼 [报告]

发表于 2015-02-08 15:36 |只看该作者

回复 18# xiumu2280

那有没有办法让数据输出就是按照读入的顺序呢？我的意思是比如输出时的键值按照按照他给的数据键对应后面依次为第一次出现该键的值，第二次出现该键的值。因为如果后面的数据不是数字，而是一些无规律的字母，比如地名，是没有办法再处理的。特别是当数据非常大的时候。求指教！

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

123 / 3 页下一页

返回列表

Chinaunix › 论坛 › 程序设计 › Perl › 新手求一个算法