免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 3923 | 回复: 12
打印 上一主题 下一主题

[文本处理] 问个多列去重问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2016-05-05 21:07 |只看该作者 |倒序浏览
我有如下文本:
117.144.232.7 117.144.232.9 117.144.232.5 117.144.232.3
117.144.232.9 117.144.232.5 117.144.232.7 117.144.232.3
117.144.232.3 117.144.232.9 117.144.232.7 117.144.232.5
117.144.232.9 117.144.232.7 117.144.232.5 117.144.232.3
117.144.232.9 117.144.232.7 117.144.232.5 117.144.232.3
117.144.232.9 117.144.232.7 117.144.232.5 117.144.232.3
117.144.232.15 117.144.232.10 117.144.232.13
117.144.232.10 117.144.232.13 117.144.232.15
列数不固定,行里的顺序不一样,
我想去重,不考虑行的顺序,1-6行就视为是重复的, 最后2行也是重复的。这个要怎么处理呢?先谢谢各位了。

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
2 [报告]
发表于 2016-05-05 21:18 |只看该作者
本帖最后由 sunzhiguolu 于 2016-05-05 21:35 编辑
  1. perl -aple '$_=join("\t",sort @F)' f|sort -u
复制代码
117.144.232.10  117.144.232.13  117.144.232.15
117.144.232.3   117.144.232.5   117.144.232.7   117.144.232.9

论坛徽章:
4
程序设计版块每日发帖之星
日期:2015-10-14 06:20:00每日论坛发贴之星
日期:2015-10-14 06:20:00程序设计版块每日发帖之星
日期:2016-05-02 06:20:00程序设计版块每日发帖之星
日期:2016-05-08 06:20:00
3 [报告]
发表于 2016-05-05 21:22 |只看该作者
本帖最后由 mswsg 于 2016-05-05 21:35 编辑

有意思。。。我能不能简单的理解为:去重,相同的IP只保留一个?
  1. __author__ = 'shengwei ma'
  2. __author_email__ = 'shengweima@icloud.com'
  3. a = []
  4. with open('1.txt', 'r') as f:
  5.     for line in f.readlines():
  6.         line = line.strip().split()
  7.         line.sort()     # 排序 ,列就一致了
  8.         if line not in a:
  9.             a.append(line)
  10.     for i in a:
  11.         print(' '.join(i))
复制代码
  1. 117.144.232.3 117.144.232.5 117.144.232.7 117.144.232.9
  2. 117.144.232.10 117.144.232.13 117.144.232.15
复制代码

论坛徽章:
54
2015亚冠之德黑兰石油
日期:2015-07-07 13:00:1615-16赛季CBA联赛之深圳
日期:2016-03-31 09:03:5415-16赛季CBA联赛之辽宁
日期:2016-05-09 20:38:15程序设计版块每日发帖之星
日期:2016-05-12 06:20:0015-16赛季CBA联赛之四川
日期:2016-05-13 15:19:4715-16赛季CBA联赛之福建
日期:2016-05-15 20:24:34每日论坛发贴之星
日期:2016-05-16 06:20:0015-16赛季CBA联赛之吉林
日期:2016-05-26 11:49:4715-16赛季CBA联赛之广东
日期:2016-05-26 13:49:18极客徽章
日期:2016-12-07 14:05:2315-16赛季CBA联赛之广夏
日期:2016-12-20 17:33:532017金鸡报晓
日期:2017-01-10 15:19:56
4 [报告]
发表于 2016-05-05 21:22 |只看该作者
本帖最后由 haooooaaa 于 2016-05-05 22:00 编辑
  1. awk '{for(i=1;i<=NF;i++)if(a!~$i)a=b}!a{print;a=$0}END{print}' file
复制代码

论坛徽章:
22
2015年亚洲杯之科威特
日期:2015-04-18 15:27:07每日论坛发贴之星
日期:2016-01-27 06:20:0015-16赛季CBA联赛之广夏
日期:2016-03-28 16:20:51程序设计版块每日发帖之星
日期:2016-04-09 06:20:00CU十四周年纪念徽章
日期:2016-05-03 09:35:1415-16赛季CBA联赛之天津
日期:2016-11-18 08:31:3115-16赛季CBA联赛之山西
日期:2016-12-07 16:29:5315-16赛季CBA联赛之八一
日期:2017-01-10 11:34:3415-16赛季CBA联赛之吉林
日期:2017-03-30 22:51:1915-16赛季CBA联赛之广夏
日期:2017-04-13 20:51:52程序设计版块每日发帖之星
日期:2016-01-27 06:20:00每日论坛发贴之星
日期:2015-12-28 06:20:00
5 [报告]
发表于 2016-05-05 21:24 |只看该作者
  1. sort -u
复制代码

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
6 [报告]
发表于 2016-05-05 21:34 |只看该作者
本帖最后由 sunzhiguolu 于 2016-05-05 21:35 编辑
  1. perl -anle '{$h{join(",",sort @F)}=1}END{print join "\t", split/,/ for keys %h}' f
复制代码
117.144.232.10  117.144.232.13  117.144.232.15
117.144.232.3   117.144.232.5   117.144.232.7   117.144.232.9

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
7 [报告]
发表于 2016-05-05 21:34 |只看该作者
  1. perl -anle '{$h{join(",",sort @F)}=1}END{print join "\t", split/,/ for keys %h}' f
复制代码

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
8 [报告]
发表于 2016-05-05 21:36 |只看该作者
本帖最后由 jason680 于 2016-05-05 21:42 编辑

回复 1# 哭过的天空

$ perl -lane '{$h{"@{[sort@F]}"}=$_}END{print $h{$_}for(keys%h)}' FILE
117.144.232.10 117.144.232.13 117.144.232.15
117.144.232.9 117.144.232.7 117.144.232.5 117.144.232.3

$ perl -lane '{print if(!$h{"@{[sort@F]}"}++)}' FILE
117.144.232.7 117.144.232.9 117.144.232.5 117.144.232.3
117.144.232.15 117.144.232.10 117.144.232.13

   

评分

参与人数 1信誉积分 +10 收起 理由
sunzhiguolu + 10 长见识!!!

查看全部评分

论坛徽章:
1
2015亚冠之萨济拖拉机
日期:2015-09-04 10:29:22
9 [报告]
发表于 2016-05-05 23:17 |只看该作者
awk '{split($0,a);asort(a);for(i=1;i<=length(a);i++) printf a[i]"  ";print ""}' tt1 | uniq
117.144.232.3  117.144.232.5  117.144.232.7  117.144.232.9  
117.144.232.10  117.144.232.13  117.144.232.15  

论坛徽章:
0
10 [报告]
发表于 2016-05-06 10:17 |只看该作者
感谢各位大神。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP