免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 16297 | 回复: 52
打印 上一主题 下一主题

如何进行重叠合并 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-07-10 17:20 |只看该作者 |倒序浏览
各位大侠,假如有组数据data.txt,内容如下:

Name         distance
name1        dis1:1-5
name1        dis1:2-6
name1        dis1:7-9
name1        dis1:10-12
name1        dis1:11-14
name2        dis2:5-8
name2        dis2:6-12
name2        dis2:7-14
name2        dis2:14-15
name2        dis2:17-19
name2        dis2:20-22
name2        dis2:21-25
……

根据第二列来进行合并,如果有重叠的话,就进行合并,如上面的数据合并之后,如下:

Name                distance
name1        dis1:1-6
name1        dis1:7-9
name1        dis1:10-14
name2        dis2:5-15
name2        dis2:17-19
name2        dis2:20-25

请问各位这种情况怎么处理呢

论坛徽章:
33
荣誉会员
日期:2011-11-23 16:44:17天秤座
日期:2014-08-26 16:18:20天秤座
日期:2014-08-29 10:12:18丑牛
日期:2014-08-29 16:06:45丑牛
日期:2014-09-03 10:28:58射手座
日期:2014-09-03 16:01:17寅虎
日期:2014-09-11 14:24:21天蝎座
日期:2014-09-17 08:33:55IT运维版块每日发帖之星
日期:2016-04-17 06:23:27操作系统版块每日发帖之星
日期:2016-04-18 06:20:00IT运维版块每日发帖之星
日期:2016-04-24 06:20:0015-16赛季CBA联赛之天津
日期:2016-05-06 12:46:59
2 [报告]
发表于 2014-07-10 19:54 |只看该作者
回复 1# newfinder

从这里
http://www.perlmonks.org/?node=List-to-Range%20Generation

抄来一个函数, 下面的代码, 我改了一个小地方, 以支持重复的数字.
  1. #!/usr/bin/perl

  2. use warnings;
  3. use strict;

  4. my %hash;
  5. while (my $line = <DATA>) {
  6.     chomp $line;
  7.     my ($head, $data) = split(/:/, $line);
  8.     if (defined $data) {
  9.         $data =~ s/-/\.\./g;
  10.         if (defined $hash{$head}) {
  11.             $hash{$head} .= ','.$data;
  12.         } else {
  13.             $hash{$head} = $data;
  14.         }
  15.     } else {
  16.         print $line, "\n";
  17.     }
  18. }
  19. foreach my $key (keys (%hash)) {
  20.    
  21.     foreach my $range (split(/,/, num2range(eval $hash{$key}))){
  22.         print $key, ":", $range, "\n";
  23.     }
  24. }

  25. sub num2range
  26. {
  27.     local $_ = join "," => sort {$a <=> $b} @_;
  28.     s/(?<!\d)(\d+)(?:,((??{$++1})|(??{$+})))+(?!\d)/$1-$+/g;
  29.     return $_;
  30. }

  31. __DATA__
  32. Name         distance
  33. name1        dis1:1-5
  34. name1        dis1:2-6
  35. name1        dis1:7-9
  36. name1        dis1:10-12
  37. name1        dis1:11-14
  38. name2        dis2:5-8
  39. name2        dis2:6-12
  40. name2        dis2:7-14
  41. name2        dis2:14-15
  42. name2        dis2:17-19
  43. name2        dis2:20-22
  44. name2        dis2:21-25


复制代码
  1. $ perl 1.pl
  2. Name         distance
  3. name1        dis1:1-14
  4. name2        dis2:5-15
  5. name2        dis2:17-25
复制代码

论坛徽章:
2
天蝎座
日期:2013-09-17 18:34:58射手座
日期:2013-09-25 10:46:41
3 [报告]
发表于 2014-07-10 21:57 |只看该作者
本帖最后由 os4fun 于 2014-07-10 22:09 编辑

来个丑陋的,局限于数据本身的规律。唯一好处是超大数据时候比楼上省资源
code包含的代码里连续的两个$$会被吃掉一个?  我用4个$$,送2个给他吃:wink:
  1. $cat b
  2. #!/usr/bin/perl
  3. use warnings;
  4. use strict;
  5. sub merge_range {
  6.         my ($val_min, $val_max, $v_min, $v_max) = @_;
  7.         $$val_max >= $$v_min && { $$v_min = $$val_min, return 0} || 1;
  8. }

  9. BEGIN { *ARGV = *DATA unless @ARGV }
  10. print scalar <>;

  11. my ($key, $val_min, $val_max) = split /[:-]/, <>;
  12. while(<>) {
  13.         my ($k, $v_min, $v_max) = split /[:-]/;
  14.         print "$key:$val_min-$val_max" if $k ne $key or merge_range(\$val_min, \$val_max,\$v_min, \$v_max);
  15.         ($key, $val_min, $val_max) = ($k, $v_min, $v_max);
  16. }
  17. print "$key:$val_min-$val_max";

  18. __DATA__
  19. Name         distance
  20. name1        dis1:1-5
  21. name1        dis1:2-6
  22. name1        dis1:7-9
  23. name1        dis1:10-12
  24. name1        dis1:11-14
  25. name2        dis2:5-8
  26. name2        dis2:6-12
  27. name2        dis2:7-14
  28. name2        dis2:14-15
  29. name2        dis2:17-19
  30. name2        dis2:20-22
  31. name2        dis2:21-25
  32. $./b
  33. Name         distance
  34. name1        dis1:1-6
  35. name1        dis1:7-9
  36. name1        dis1:10-14
  37. name2        dis2:5-15
  38. name2        dis2:17-19
  39. name2        dis2:20-25
  40. $
复制代码

论坛徽章:
0
4 [报告]
发表于 2014-07-10 23:53 |只看该作者
回复 2# q1208c
首先给大侠赞一个,但结果貌似有点有问题,输出来的时候,结果应该是这样的:

Name                distance
name1        dis1:1-6
name1        dis1:7-9
name1        dis1:10-14
name2        dis2:5-15
name2        dis2:17-19
name2        dis2:20-25

但出来的是

Name         distance
name1        dis1:1-14
name2        dis2:5-15
name2        dis2:17-25

不知道哪个地方有点出入

   

论坛徽章:
0
5 [报告]
发表于 2014-07-10 23:53 |只看该作者
回复 3# os4fun
这个可以,32个赞哟!!!
多谢!!!

   

论坛徽章:
33
荣誉会员
日期:2011-11-23 16:44:17天秤座
日期:2014-08-26 16:18:20天秤座
日期:2014-08-29 10:12:18丑牛
日期:2014-08-29 16:06:45丑牛
日期:2014-09-03 10:28:58射手座
日期:2014-09-03 16:01:17寅虎
日期:2014-09-11 14:24:21天蝎座
日期:2014-09-17 08:33:55IT运维版块每日发帖之星
日期:2016-04-17 06:23:27操作系统版块每日发帖之星
日期:2016-04-18 06:20:00IT运维版块每日发帖之星
日期:2016-04-24 06:20:0015-16赛季CBA联赛之天津
日期:2016-05-06 12:46:59
6 [报告]
发表于 2014-07-11 08:10 |只看该作者
回复 4# newfinder

6后面就是7, 所以, 1-7应该是连在一起的. 因为我用的是列表.

你的合并方式, 只合并了重叠部分, 并没有合并连续部分.

如果你的需求就是不合并连续部分, 我的代码有问题的.
   

论坛徽章:
1
金牛座
日期:2013-09-06 08:50:31
7 [报告]
发表于 2014-07-11 09:22 |只看该作者
回复 3# os4fun
看不太懂啊。
BEGIN { *ARGV = *DATA unless @ARGV }
这句大概可以猜出*ARGV = *DATA的意思。但是BEGIN{     }是什么意思呢?


   

论坛徽章:
33
荣誉会员
日期:2011-11-23 16:44:17天秤座
日期:2014-08-26 16:18:20天秤座
日期:2014-08-29 10:12:18丑牛
日期:2014-08-29 16:06:45丑牛
日期:2014-09-03 10:28:58射手座
日期:2014-09-03 16:01:17寅虎
日期:2014-09-11 14:24:21天蝎座
日期:2014-09-17 08:33:55IT运维版块每日发帖之星
日期:2016-04-17 06:23:27操作系统版块每日发帖之星
日期:2016-04-18 06:20:00IT运维版块每日发帖之星
日期:2016-04-24 06:20:0015-16赛季CBA联赛之天津
日期:2016-05-06 12:46:59
8 [报告]
发表于 2014-07-11 10:14 |只看该作者
回复 3# os4fun

有个小问题, 如果进来的顺序是乱序的, 好象处理不了.
   

论坛徽章:
0
9 [报告]
发表于 2014-07-11 13:04 |只看该作者
回复 6# q1208c
哦,这样子啊……
我想要的是那种不连续的,只合并重叠的部分,不知道怎么改一下

   

论坛徽章:
33
荣誉会员
日期:2011-11-23 16:44:17天秤座
日期:2014-08-26 16:18:20天秤座
日期:2014-08-29 10:12:18丑牛
日期:2014-08-29 16:06:45丑牛
日期:2014-09-03 10:28:58射手座
日期:2014-09-03 16:01:17寅虎
日期:2014-09-11 14:24:21天蝎座
日期:2014-09-17 08:33:55IT运维版块每日发帖之星
日期:2016-04-17 06:23:27操作系统版块每日发帖之星
日期:2016-04-18 06:20:00IT运维版块每日发帖之星
日期:2016-04-24 06:20:0015-16赛季CBA联赛之天津
日期:2016-05-06 12:46:59
10 [报告]
发表于 2014-07-11 13:08 |只看该作者
回复 9# newfinder

只合并重叠的话, 可以参考3楼的代码, 只要在处理之前增加一个排序就可以了. 不过, 排序的算法可能要重写一下.


   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP