免费注册	查看新帖 \|


平台论坛博客文库

› 论坛 › 程序设计 › Perl › 请教perl循环问题

12 / 2 页下一页

最近访问板块

发新帖

查看: 3697 | 回复: 16

上一主题

下一主题

请教perl循环问题 [复制链接]

论坛徽章:: 0

电梯直达

跳转到指定楼层

1楼 [收藏(0)] [报告]

发表于 2010-11-03 14:41 |只看该作者 |倒序浏览

两个文件
第一个文件两列，每行的两列数字构成一个区间，
11 20
30 50
等等
另外一个是一列数字，
类似，
12
15
30
45
50

等等

问题是想统计一下第2个文件中落在第一个文件中的数字的个数，例如，12落在了11 20之间，那么$hash{11 20}++一次，最后输出第一文件每行出现的次数。
关键的问题是每个文件都好几万行，循环起来比较慢，我想请教大家有什么好的建议，谢谢

文库|博客

论坛徽章:: 46

15-16赛季CBA联赛之四川
日期:2018-03-27 11:59:13

2015年亚洲杯之沙特阿拉伯
日期:2015-04-11 17:31:45

天蝎座
日期:2015-03-25 16:56:49

双鱼座
日期:2015-03-25 16:56:30

摩羯座
日期:2015-03-25 16:56:09

巳蛇
日期:2015-03-25 16:55:30

卯兔
日期:2015-03-25 16:54:29

子鼠
日期:2015-03-25 16:53:59

申猴
日期:2015-03-25 16:53:29

寅虎
日期:2015-03-25 16:52:29

羊年新春福章
日期:2015-03-25 16:51:21

2015亚冠之布里斯班狮吼
日期:2015-07-13 10:44:56

2楼 [报告]

发表于 2010-11-03 14:43 |只看该作者

本帖最后由 zhlong8 于 2010-11-03 14:49 编辑

第一个文件的数字区间有交集没有? 总的范围有多大? 全都是整数吗? 闭区间还是左开右闭什么的?

所有区间范围小的话可以用list的index做键

比如建立个list

list:
[0][1][2]...[n]

第二个文件按你的规则把相当位的值加一，最后再读第一个文件，分析每个区间的数字个数

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

3楼 [报告]

发表于 2010-11-03 14:51 |只看该作者

回复 2# zhlong8

没有交集，总的范围不固定，最多上千，都是整数，都是闭区间

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 46

15-16赛季CBA联赛之四川
日期:2018-03-27 11:59:13

2015年亚洲杯之沙特阿拉伯
日期:2015-04-11 17:31:45

天蝎座
日期:2015-03-25 16:56:49

双鱼座
日期:2015-03-25 16:56:30

摩羯座
日期:2015-03-25 16:56:09

巳蛇
日期:2015-03-25 16:55:30

卯兔
日期:2015-03-25 16:54:29

子鼠
日期:2015-03-25 16:53:59

申猴
日期:2015-03-25 16:53:29

寅虎
日期:2015-03-25 16:52:29

羊年新春福章
日期:2015-03-25 16:51:21

2015亚冠之布里斯班狮吼
日期:2015-07-13 10:44:56

4楼 [报告]

发表于 2010-11-03 14:57 |只看该作者

本帖最后由 zhlong8 于 2010-11-03 15:09 编辑

没测试数据，你看下思路

use strict;
use warnings;
my @info;
my %result; #保存结果的hash
sub sum_from;
open my $f, '<', 'file2' or die $!;
while (<$f>) { #假定file2里面的数据都是自然数
chomp;
$info[$_]++; #因为最多上千，所以不会产生超大的array
}
close $f;
open $f, '<', 'file1' or die $!;
while (<$f>) {
chomp;
my($from, $to) = split /\s+/;
$result{"$from $to"} = sum_from $from, $to;
}
sub sum_from {
my($from, $to) = @_;
my $sum = 0;
$sum += $info[$_]//0 for $from .. $to; # // 消除uninitialized value 警告
return $sum;
}

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

5楼 [报告]

发表于 2010-11-03 15:00 |只看该作者

回复 4# zhlong8

3x，我试试阿

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

6楼 [报告]

发表于 2010-11-03 15:33 |只看该作者

#!/usr/bin/perl
use strict;
use warnings;
my @info;
open my $f, '<', 'file2.txt' or die $!;
while (<$f>) { #假定file2里面的数据都是自然数
chomp;
$info[$_]++;
}
close $f;
open $f, '<', 'file1.txt' or die $!;
while (<$f>) {
chomp;
my($from, $to) = split /\s+/;
my $count;
for ($from..$to) {
$count++ if ($info[$_]);
}
print "$from $to $count\n";
}
close $f;
<STDIN>;

复制代码

4楼的代码运行起来应该非常快，学习了。

为了更少占用内存，可以统计一个区间后马上输出，不存入%result，因为文件1还是比较大的。

说明：
假设file2里面的数据都是自然数；
若文件1的各区间有交集，4楼的程序也适用。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

7楼 [报告]

发表于 2010-11-03 15:33 |只看该作者

回复 2# zhlong8

谢谢 zhlong8，确实好使！！！
我还有一个问题想请教，就是：如果第2个文件如果也是两列，其它的不变，也就是说第2个文件的这两个数都在第一个数的某个区间内，该怎么写？？？谢谢

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 7

巳蛇
日期:2014-04-10 08:54:57

白羊座
日期:2014-04-22 20:06:26

2015年亚洲杯之沙特阿拉伯
日期:2015-02-10 14:18:53

2015年辞旧岁徽章
日期:2015-03-03 16:54:15

2015亚冠之吉达阿赫利
日期:2015-06-02 11:34:11

2015亚冠之武里南联
日期:2015-06-24 12:13:08

2015亚冠之阿尔纳斯尔
日期:2015-08-03 09:08:25

8楼 [报告]

发表于 2010-11-03 15:47 |只看该作者

回复 7# liuguiyou1981
如果是排好序的，这个还是比较容易实现的。如果不是排好序的，或许先排序是个好主意。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 46

15-16赛季CBA联赛之四川
日期:2018-03-27 11:59:13

2015年亚洲杯之沙特阿拉伯
日期:2015-04-11 17:31:45

天蝎座
日期:2015-03-25 16:56:49

双鱼座
日期:2015-03-25 16:56:30

摩羯座
日期:2015-03-25 16:56:09

巳蛇
日期:2015-03-25 16:55:30

卯兔
日期:2015-03-25 16:54:29

子鼠
日期:2015-03-25 16:53:59

申猴
日期:2015-03-25 16:53:29

寅虎
日期:2015-03-25 16:52:29

羊年新春福章
日期:2015-03-25 16:51:21

2015亚冠之布里斯班狮吼
日期:2015-07-13 10:44:56

9楼 [报告]

发表于 2010-11-03 15:51 |只看该作者

本帖最后由 zhlong8 于 2010-11-03 15:52 编辑

回复 7# liuguiyou1981

类似不过要多点处理。再写下：）

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

10楼 [报告]

发表于 2010-11-03 15:51 |只看该作者

回复 8# Monox

恩那就当排好序了，呵呵这样容易实现些，对了，还有刚才程序中的子程序我没看明白，你能解释下么？谢谢

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

12 / 2 页下一页

发新帖

Chinaunix › 论坛 › 程序设计 › Perl › 请教perl循环问题

北京盛拓优讯信息技术有限公司. 版权所有京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号：11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员联系我们：huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP