免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2360 | 回复: 8
打印 上一主题 下一主题

删除复杂重复项 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2012-10-11 17:00 |只看该作者 |倒序浏览
在数据处理的过程中会遇到如下的问题
1234 abc
4567 dfg
abc 1234
dfg 4567
6789 sac
sac 6789
....

中间TAB隔开。

现在要去除重复的行,得到如下结果
1234 abc
4567 dfg
6789 sac
...
如果是同一列中出现了重复我会弄,现在是不同列的重复,不知道怎么去重了。

论坛徽章:
0
2 [报告]
发表于 2012-10-11 17:24 |只看该作者
  1. #!usr/bin/perl

  2. my $file = $ARGV[0];
  3. my %tmp;
  4. open TEST,$file or die "can not open";
  5. while(<TEST>){
  6.         my $word = (split(/\s+/))[0];#0代表第一列,1代表第二列。
  7.         next if(! $word);
  8.         if(!exists $tmp{$word}){
  9.                 print ;
  10.                 $tmp{$word}=1;
  11.         }
  12. }
  13. close TEST;
复制代码
这样只能删除第一列相同的数据,不能达到我的目的。

论坛徽章:
2
射手座
日期:2014-10-10 15:59:4715-16赛季CBA联赛之上海
日期:2016-03-03 10:27:14
3 [报告]
发表于 2012-10-11 17:30 |只看该作者
回复 2# xingzhou823
  1. perl -e 'open(fh,"file"); while(<fh>){@a=split;print if(!$hash{$a[0,1]}++ and !$hash{$a[1,0]}++)};close(fh)'
复制代码

论坛徽章:
0
4 [报告]
发表于 2012-10-11 17:53 |只看该作者
回复 3# yinyuemi

你好,这个命令行代码好复杂,另外我是在window上面运行的,把单引号改成双引号,然后跑程序,显示错误呢。
我也不会修改。




   

论坛徽章:
2
射手座
日期:2014-10-10 15:59:4715-16赛季CBA联赛之上海
日期:2016-03-03 10:27:14
5 [报告]
发表于 2012-10-11 18:19 |只看该作者

回复 4# xingzhou823
  1. #!/usr/bin/env perl
  2. open(fh,"file") or die "$!";
  3. my %hash;
  4. while(<fh>){
  5.     my @a=split;
  6.     print if(!$hash{$a[0,1]}++ and !$hash{$a[1,0]}++);
  7. };
  8. close(fh);'
复制代码

论坛徽章:
0
6 [报告]
发表于 2012-10-11 20:44 |只看该作者
本帖最后由 kk861123 于 2012-10-11 20:44 编辑
yinyuemi 发表于 2012-10-11 18:19
回复 4# xingzhou823


我想将@a 排序后可适应更多列的情况:
  1. #!/usr/bin/perl
  2. use strict;
  3. use warnings;

  4. my %h;
  5. while (<DATA>) {
  6.     my @a = sort split;
  7.     print if !$h{"@a"}++;
  8. }

  9. __DATA__
  10. 1234 abc
  11. 4567 dfg
  12. abc 1234
  13. dfg 4567
  14. 6789 sac
  15. sac 6789
复制代码

论坛徽章:
2
射手座
日期:2014-10-10 15:59:4715-16赛季CBA联赛之上海
日期:2016-03-03 10:27:14
7 [报告]
发表于 2012-10-11 23:49 |只看该作者
回复 6# kk861123

@kk861123
    学习了~

论坛徽章:
0
8 [报告]
发表于 2012-10-15 14:40 |只看该作者
回复 5# yinyuemi
嗯,多谢了

   

论坛徽章:
7
戌狗
日期:2013-12-15 20:43:38技术图书徽章
日期:2014-03-05 01:33:12技术图书徽章
日期:2014-03-15 20:31:17未羊
日期:2014-03-25 23:48:20丑牛
日期:2014-04-07 22:37:44巳蛇
日期:2014-04-11 21:58:0915-16赛季CBA联赛之青岛
日期:2016-03-17 20:36:13
9 [报告]
发表于 2012-10-16 08:38 |只看该作者
kk861123 发表于 2012-10-11 16:44
我想将@a 排序后可适应更多列的情况:

学习了~
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP