免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 4382 | 回复: 6
打印 上一主题 下一主题

求助:文本重复行统计 [复制链接]

论坛徽章:
1
2015年辞旧岁徽章
日期:2015-03-03 16:54:15
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-04-08 00:01 |只看该作者 |倒序浏览
   现有 a.txt文档,想把任意5个数字相同的行数进行统计,并且把统计结果写入b.txt文档中。谢谢大家!

a.txt (需要处理的文档)
05 06 07 08 09 25
05 06 07 08 09 26
05 06 07 08 09 27
05 06 07 08 09 28
05 06 07 08 09 29
05 06 07 08 09 30
05 06 07 08 09 31
05 06 07 08 09 32
05 06 07 08 09 33
05 06 07 08 10 11
05 06 07 08 10 12
05 06 07 08 10 13
05 06 07 08 10 14
05 06 07 08 10 15
05 06 07 08 10 16
05 06 07 08 10 17
05 06 07 08 09 25
05 06 07 08 09 26
01 02 03 04 05 06
01 02 03 04 05 07
01 02 03 04 05 08
01 02 03 04 05 09
01 02 03 04 05 10
01 02 03 04 05 11
01 02 03 04 05 12
01 02 03 04 05 13
01 02 03 04 05 14
01 02 03 04 05 15
01 02 03 04 05 16
01 02 03 04 05 17
01 02 03 04 05 18
01 02 03 04 05 19
01 02 03 04 05 20
01 02 03 04 05 21
01 02 03 04 05 22
01 02 03 04 05 23

b.txt (想要的结果)
01 02 03 04 05      18
05 06 07 08 09      11
05 06 07 08 10       7
06 07 08 09 25       2
06 07 08 09 26       2

论坛徽章:
7
戌狗
日期:2013-12-15 20:43:38技术图书徽章
日期:2014-03-05 01:33:12技术图书徽章
日期:2014-03-15 20:31:17未羊
日期:2014-03-25 23:48:20丑牛
日期:2014-04-07 22:37:44巳蛇
日期:2014-04-11 21:58:0915-16赛季CBA联赛之青岛
日期:2016-03-17 20:36:13
2 [报告]
发表于 2014-04-08 02:16 |只看该作者
本帖最后由 rubyish 于 2014-04-08 19:28 编辑

我de结果:
  1. 01 02 03 04 05  18
  2. 05 06 07 08 09  11
  3. 05 06 07 08 10  7
  4. 05 06 07 09 25  2
  5. 05 06 07 08 26  2
  6. 05 07 08 09 25  2
  7. 06 07 08 09 26  2
  8. 05 07 08 09 26  2
  9. 06 07 08 09 25  2
  10. 05 06 08 09 25  2
  11. 05 06 07 09 26  2
  12. 05 06 08 09 26  2
  13. 05 06 07 08 25  2
复制代码
if correct ?
想把统计结果写入b.txt文档中
perl abc.pl a.txt > b.txt
  1. #!/usr/bin/perl

  2. my %h;
  3. my @i = (
  4.     [ 0, 1, 2, 3, 4 ],
  5.     [ 0, 1, 2, 3, 5 ],
  6.     [ 0, 1, 2, 4, 5 ],
  7.     [ 0, 1, 3, 4, 5 ],
  8.     [ 0, 2, 3, 4, 5 ],
  9.     [ 1, 2, 3, 4, 5 ]
  10. );

  11. while (<>) {
  12.     my @a = split;
  13.     $h{"@a[@$_]"}++ for @i;
  14. }

  15. for my $k ( sort { $h{$b} <=> $h{$a} } keys %h ) {
  16.     $h{$k} > 1 ? print "$k\t$h{$k}$/" : last;
  17. }
复制代码
better:
  1. #!/usr/bin/perl

  2. my %h;

  3. while (<>) {
  4.     my @a = split;
  5.     $h{"@a[ 0, 1, 2, 3, 4 ]"}++;
  6.     $h{"@a[ 0, 1, 2, 3, 5 ]"}++;
  7.     $h{"@a[ 0, 1, 2, 4, 5 ]"}++;
  8.     $h{"@a[ 0, 1, 3, 4, 5 ]"}++;
  9.     $h{"@a[ 0, 2, 3, 4, 5 ]"}++;
  10.     $h{"@a[ 1, 2, 3, 4, 5 ]"}++;
  11. }

  12. for my $k ( sort { $h{$b} <=> $h{$a} } keys %h ) {
  13.     $h{$k} > 1 ? print "$k\t$h{$k}$/" : last;
  14. }
复制代码

论坛徽章:
23
15-16赛季CBA联赛之吉林
日期:2017-12-21 16:39:27白羊座
日期:2014-10-27 11:14:37申猴
日期:2014-10-23 08:36:23金牛座
日期:2014-09-30 08:26:49午马
日期:2014-09-29 09:40:16射手座
日期:2014-11-25 08:56:112015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:49:0315-16赛季CBA联赛之山东
日期:2017-12-21 16:39:1915-16赛季CBA联赛之广东
日期:2016-01-19 13:33:372015亚冠之山东鲁能
日期:2015-10-13 09:39:062015亚冠之西悉尼流浪者
日期:2015-09-21 08:27:57
3 [报告]
发表于 2014-04-08 10:20 |只看该作者
回复 1# hkldd
  1. perl -lne 's/ \d+$//;$h{$_}++;END{for(sort keys %h){print "$_\t$h{$_}"}}' a.txt > b.txt
复制代码

论坛徽章:
8
双子座
日期:2013-08-31 07:37:12金牛座
日期:2013-09-09 18:49:12处女座
日期:2013-09-23 11:43:14处女座
日期:2013-10-09 19:48:21狮子座
日期:2014-03-24 18:22:12丑牛
日期:2014-04-22 22:07:51申猴
日期:2014-06-12 21:54:13双鱼座
日期:2014-06-13 21:52:31
4 [报告]
发表于 2014-04-10 20:40 |只看该作者

  1. 我自己写的,感觉2楼的要好一些:luya:
  2. $ cat p.pl
  3. #!/usr/bin/env perl

  4. for (<DATA>) {
  5.         ($n1,$n2,$n3,$n4,$n5,$n6) = split;
  6.         $h{$n1,$n2,$n3,$n4,$n5}++;
  7.         $h{$n2,$n3,$n4,$n5,$n6}++;
  8.         $h{$n3,$n4,$n5,$n6,$n1}++;
  9.         $h{$n4,$n5,$n6,$n1,$n2}++;
  10.         $h{$n5,$n6,$n1,$n2,$n3}++;
  11.         $h{$n6,$n1,$n2,$n3,$n4}++;
  12.        
  13. }

  14. END{
  15.         for $k(keys %h) {
  16.                 grep ($_ > 1,$h{$k}) ? print "$k\t$h{$k}\n" : next;
  17.         }
  18. }

  19. __DATA__
  20. 05 06 07 08 09 25
  21. 05 06 07 08 09 26
  22. 05 06 07 08 09 27
  23. 05 06 07 08 09 28
  24. 05 06 07 08 09 29
  25. 05 06 07 08 09 30
  26. 05 06 07 08 09 31
  27. 05 06 07 08 09 32
  28. 05 06 07 08 09 33
  29. 05 06 07 08 10 11
  30. 05 06 07 08 10 12
  31. 05 06 07 08 10 13
  32. 05 06 07 08 10 14
  33. 05 06 07 08 10 15
  34. 05 06 07 08 10 16
  35. 05 06 07 08 10 17
  36. 05 06 07 08 09 25
  37. 05 06 07 08 09 26
  38. 01 02 03 04 05 06
  39. 01 02 03 04 05 07
  40. 01 02 03 04 05 08
  41. 01 02 03 04 05 09
  42. 01 02 03 04 05 10
  43. 01 02 03 04 05 11
  44. 01 02 03 04 05 12
  45. 01 02 03 04 05 13
  46. 01 02 03 04 05 14
  47. 01 02 03 04 05 15
  48. 01 02 03 04 05 16
  49. 01 02 03 04 05 17
  50. 01 02 03 04 05 18
  51. 01 02 03 04 05 19
  52. 01 02 03 04 05 20
  53. 01 02 03 04 05 21
  54. 01 02 03 04 05 22
  55. 01 02 03 04 05 23
  56. $ ./p.pl
  57. 0506070809        11
  58. 0102030405        18
  59. 0925050607        2
  60. 0708092505        2
  61. 0809260506        2
  62. 0607080926        2
  63. 2605060708        2
  64. 0926050607        2
  65. 0809250506        2
  66. 0708092605        2
  67. 0506070810        7
  68. 2505060708        2
  69. 0607080925        2
  70. $
复制代码
回复 1# hkldd


   

论坛徽章:
7
戌狗
日期:2013-12-15 20:43:38技术图书徽章
日期:2014-03-05 01:33:12技术图书徽章
日期:2014-03-15 20:31:17未羊
日期:2014-03-25 23:48:20丑牛
日期:2014-04-07 22:37:44巳蛇
日期:2014-04-11 21:58:0915-16赛季CBA联赛之青岛
日期:2016-03-17 20:36:13
5 [报告]
发表于 2014-04-11 05:11 |只看该作者
回复 4# kernel69


赞一个     

大牛这个更快了.. 学习了!

论坛徽章:
8
双子座
日期:2013-08-31 07:37:12金牛座
日期:2013-09-09 18:49:12处女座
日期:2013-09-23 11:43:14处女座
日期:2013-10-09 19:48:21狮子座
日期:2014-03-24 18:22:12丑牛
日期:2014-04-22 22:07:51申猴
日期:2014-06-12 21:54:13双鱼座
日期:2014-06-13 21:52:31
6 [报告]
发表于 2014-04-11 09:11 |只看该作者
如果文件比较大的话,我这就不行了,

回复 5# rubyish


   

论坛徽章:
95
程序设计版块每日发帖之星
日期:2015-09-05 06:20:00程序设计版块每日发帖之星
日期:2015-09-17 06:20:00程序设计版块每日发帖之星
日期:2015-09-18 06:20:002015亚冠之阿尔艾因
日期:2015-09-18 10:35:08月度论坛发贴之星
日期:2015-09-30 22:25:002015亚冠之阿尔沙巴布
日期:2015-10-03 08:57:39程序设计版块每日发帖之星
日期:2015-10-05 06:20:00每日论坛发贴之星
日期:2015-10-05 06:20:002015年亚冠纪念徽章
日期:2015-10-06 10:06:482015亚冠之塔什干棉农
日期:2015-10-19 19:43:35程序设计版块每日发帖之星
日期:2015-10-21 06:20:00每日论坛发贴之星
日期:2015-09-14 06:20:00
7 [报告]
发表于 2014-04-11 14:29 |只看该作者
本帖最后由 MMMIX 于 2014-04-11 14:42 编辑
hkldd 发表于 2014-04-08 00:01
现有 a.txt文档,想把任意5个数字相同的行数进行统计,并且把统计结果写入b.txt文档中。谢谢大家!


你这任意五个数字需要连续出现么?如果需要连续出现,那问题还比较简单,一行也就两个结果,前五个数字和后五个数字。

  1. #!/usr/bin/perl

  2. use strict;
  3. use warnings;

  4. use feature qw(switch say);

  5. use Data::Dumper;

  6. my %record;

  7. while (<>) {
  8.         chomp;
  9.         my @nums = split / /, $_;
  10.         $record{join ' ', @nums[0..4]}++;
  11.         $record{join ' ', @nums[1..5]}++;
  12. }

  13. while (my ($key, $val) = each %record) {
  14.         say "$key\t$val" if $val > 1;
  15. }
复制代码
要是说可以忽略顺序,会麻烦些,每行有六个结果。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP