12 / 2 页下一页

论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2011-05-05 07:11 |只看该作者 |倒序浏览

本帖最后由 perlnewbie 于 2011-05-05 08:48 编辑

aaaa 中中中中中中国中
bbbb
aaaa

复制代码

如果前面的英文字母列相同,则将后面有中文的那一行输出.如上面三行中有2行aaaa相同 ,则打印出 aaaa 中中中中中中国中

搜到这贴子http://bbs.chinaunix.net/viewthread.php?tid=1866992 ziyunfei大牛的答案:
perl -ane 'if(!$a{@F[5..8]}){$a{@F[5..8]}=print}' file

我照葫芦画虎的抄了一下,好像也马马虎虎满足需求.哈哈,

perl -ane 'if(!$a{@F[0]}){$a{@F[0]}=print}' 1.txt

复制代码

但有一个不足的地方就是,如果aaaa 中中中中中中国中排在 aaaa行的后面,就无法打印出跟中文的那行了.唉,不懂.啊.能指教下吗?

2.如果我只需要打印aaaa 中中中中中中国中这样的行又怎么做呢?
如,

aaaa 中中中中中中国中
bbbb
aaaa
bbbb 金金金金金金

复制代码

我希望得到

aaaa 中中中中中中国中
bbbb 金金金金金金

复制代码

文库|博客

2gua

版主

论坛徽章:: 0

2楼 [报告]

发表于 2011-05-05 08:35 |只看该作者

ziyunfei？不是俺。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

perlnewbie

稍有积蓄

论坛徽章:: 0

3楼 [报告]

发表于 2011-05-05 08:45 |只看该作者

回复 2# 2gua

晕. 你知道也可指点下啊, 看来不能在cu这么发问,

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

iamlimeng

富足长乐

论坛徽章:: 0

4楼 [报告]

发表于 2011-05-05 09:38 |只看该作者

如果数据量不大，可以这样做：

#!/usr/bin/perl
use strict;
use warnings;
open(FH,"data.txt");
my @lines = <FH>;
chomp @lines;
close FH;
my %check;
foreach (@lines)
{
my (@data) = split /\s+/;
$check{$data[0]} = 1 if ($#data < 1);
}
foreach (@lines)
{
my (@data) = split /\s+/;
print "$_\n" if ($check{$data[0]} && $#data >= 1);
}

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

yinyuemi

大富大贵

论坛徽章:: 2

5楼 [报告]

发表于 2011-05-05 09:49 |只看该作者

回复 1# perlnewbie

perl -ane 'if(${F[1]}){print}'

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

perlnewbie

稍有积蓄

论坛徽章:: 0

6楼 [报告]

发表于 2011-05-05 10:03 |只看该作者

本帖最后由 perlnewbie 于 2011-05-05 10:06 编辑

非常谢谢.

$check{$data[0]} = 1 if ($#data < 1);
这句不太懂呀,能解释下吗?

感觉我完全不适合编程.....

数组和哈希让我有种云里雾里的感觉.....

可是偶尔又会遇到很无奈的文本处理......只得学呀...

另外怎么䃼分在回答者?,发贴忘了悬赏了,在这个论坛解决了我的许多文本处理问题,怎么说也得意思意思一下啊

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

bernana

稍有积蓄

论坛徽章:: 0

7楼 [报告]

发表于 2011-05-05 10:18 |只看该作者

回复 3# perlnewbie

这个加个判断就可以了吧

perl -ane 'if(!$a{@F[0]} and $F[1] ne ""){$a{@F[0]}=print}' 1.txt

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

perlnewbie

稍有积蓄

论坛徽章:: 0

8楼 [报告]

发表于 2011-05-05 10:26 |只看该作者

本帖最后由 perlnewbie 于 2011-05-05 10:31 编辑

还无法用perl表达自己的逻辑唉...
四楼的很好啊

七楼和五楼给的会把后面跟了中文但没有重复的行也打印出来.如:

aaaa 中中中中中中国中
bbbb
aaaa
bbbb 金金金金金金
dddd 你
cccc

复制代码

会输出
aaaa 中中中中中中国中
bbbb 金金金金金金
dddd 你

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

iamlimeng

富足长乐

论坛徽章:: 0

9楼 [报告]

发表于 2011-05-05 10:55 |只看该作者

这个问题，我感觉用一句的Perl代码是非常困难的，那会异常复杂，不如老实写几行来得方便。

这种问题，也算是哈希的典型应用，建议楼主多看一下小骆驼。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

jason680

富可敌国

论坛徽章:: 145

10楼 [报告]

发表于 2011-05-05 12:15 |只看该作者

本帖最后由 jason680 于 2011-05-05 12:27 编辑

还无法用perl表达自己的逻辑唉...
四楼的很好啊

七楼和五楼给的会把后面跟了中文但没有重复的行 ...
perlnewbie 发表于 2011-05-05 10:26

$ cat test.txt
aaaa 中中中中中中国中
bbbb
aaaa
bbbb 金金金金金金
dddd 你
cccc

$ cat test.txt | perl -lane '{$k=$F[0];$c{$k}++;if(! exists $t{$k}){$t{$k}=$_};if(length($t{$k}) <= length($_)){$t{$k}=$_}}END{foreach(keys %c){if($c{$_}>=2){print $t{$_}}}}'
aaaa 中中中中中中国中
bbbb 金金金金金金

$ cat double.pl

use strict;
use warnings;
use utf8;
my $sKey;
my %hCount;
my %hText;
while(<>){
$sKey = (split)[0];
$hCount{$sKey}++;
if(! exists $hText{$sKey}){
$hText{$sKey} = $_;
}
if( length($_) >= length($hText{$sKey})){
$hText{$sKey} = $_;
}
}
foreach(keys %hCount){
print $hText{$_} if($hCount{$_} >=2);
}

复制代码

$ perl double.pl test.txt
aaaa 中中中中中中国中
bbbb 金金金金金金

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

12 / 2 页下一页

返回列表

Chinaunix › 论坛 › 程序设计 › Perl › 求文本处理,各位大虾来看看

求文本处理,各位大虾来看看 [复制链接]

浏览过的版块