论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2009-09-25 13:54 |只看该作者 |倒序浏览

815 19919
1161 3453
4524 8107
14504 16533
22426 23943
23751 27377
29930 30222

我有如上的数据，第一列可以看成是起始位置，第二列为结束位置，现在想把重复的进行合并，合并后的数据如下
815 19919
22426 27377
29930 30222
请问perl语句应该如何写呢？
新手，多多指教哦！

文库|博客

dugu072

稍有积蓄

论坛徽章:: 0

2楼 [报告]

发表于 2009-09-25 14:01 |只看该作者

主要的问题，如果数据是部分覆盖，怎么处理？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

yn521yn

稍有积蓄

论坛徽章:: 0

3楼 [报告]

发表于 2009-09-25 14:04 |只看该作者

回复 #2 dugu072 的帖子

22426 23943
23751 27377
如这种的，则22426做头，27377作尾，因为23943覆盖了23751

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

dugu072

稍有积蓄

论坛徽章:: 0

4楼 [报告]

发表于 2009-09-25 14:55 |只看该作者

把问题想简单了，竟然发现这个匹配还需要个麻烦点的算法，下面这个是示例，肯定还需要改，尤其是数据如果不是你这种从小到大的递增的话，还需要反复几次的筛选匹配。不过对你给的数据，倒是能够正常工作，自己看着完善吧～

use strict;
open( *FH, 'data.txt');
my ($from, $to);
while (<FH>) {
chomp;
if (/(\d+)\s+(\d+)/) {
   if($to < $1) {
      $from = $1;
      $to = $2;
      print "$. $from-$to\n";
   }elsif($to >= $1 && $from > $1) {
      $from = $1;
      $to = $to;
      print "$. $from-$to\n";
   }elsif($to >= $1 && $from < $1) {
      $from = $from;
      $to = $to; # 示例而已，如果此种情况，没必要处理
   }
}
}

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

yn521yn

稍有积蓄

论坛徽章:: 0

5楼 [报告]

发表于 2009-09-25 16:07 |只看该作者

回复 #4 dugu072 的帖子

谢谢了，我先试试看，研究一下，我的数据已经按递增排好了，所以不用太麻烦的。
我刚刚学perl，非常感谢你的热心指导！！

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

blackold

大富大贵

论坛徽章:: 5

6楼 [报告]

发表于 2009-09-25 21:27 |只看该作者

1161 3453
4524 8107 哪里去了？
LZ想要的结果是什么？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

blackold

大富大贵

论坛徽章:: 5

7楼 [报告]

发表于 2009-09-25 22:45 |只看该作者

这样?

#!/bin/perl
use warnings;
use strict;
open (IN,"urfile") or die "Can't open file: $!";
my($from,$to);
while (<IN>) {
if(/(\d+)\s+(\d+)/) {
if ($1 > $to) {
print "$from $to \n" if $to;
($from,$to) = ($1,$2);
} elsif ($2 > $to) {
$to = $2;
}
}
}
print "$from $to \n";

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

qshllxfx

稍有积蓄

论坛徽章:: 1

8楼 [报告]

发表于 2009-09-26 00:21 |只看该作者

#!/usr/bin/perl

use warnings;
use strict;

my %records;
my $filename = $ARGV[0];
open FILE, $filename or die "Can't open words $!, $filename\n";
while(<FILE>)
{
chomp;
my ($start, $end) = split;
$records{int $start} = int $end;
}
close FILE;

my @starts = sort {$a <=> $b} keys %records;
my $index = 0;

while($index < $#starts)

{
if ($starts[$index + 1] < $records{$starts[$index]})
{
      $records{$starts[$index]} = $records{$starts[$index + 1]} if $records{$starts[$index]} < $records{$starts[$index + 1]};
      splice @starts, $index + 1, 1;
      $index--;
}
$index++;
}

foreach (@starts)
{
print "$_--$records{$_} ";
}

可能写的比较笨，但是功能实现了，简单测试通过。

假设是左闭右开区间，如果是两边都闭的话，如下加个等号就可以了。
if ($starts[$index + 1] <= $records{$starts[$index]})

[ 本帖最后由 qshllxfx 于 2009-9-26 00:48 编辑 ]

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

qshllxfx

稍有积蓄

论坛徽章:: 1

9楼 [报告]

发表于 2009-09-26 00:50 |只看该作者

郁闷的是都转成整形了，sort的时候还要指定做数值比较

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

yn521yn

稍有积蓄

论坛徽章:: 0

10楼 [报告]

发表于 2009-09-26 15:28 |只看该作者

我看了一下几位大虾的程序，解决了我的问题，从中也学到了不少新的东东，非常感谢！
不过，dugu072的程序结果和我想要的还有一点差距，可能是我说的不太详细吧；blackold的方法很简单，借鉴了；qshllxfx的方法和我的想法很像，就是我不会写，呵呵，不过结果也是对的。
再次感谢你们，不仅帮助了我，还学习了新知识！

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

12 / 2 页下一页

返回列表

Chinaunix › 论坛 › 程序设计 › Perl › perl 处理文本

perl 处理文本 [复制链接]

回复 #2 dugu072 的帖子

回复 #4 dugu072 的帖子

浏览过的版块