免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 3940 | 回复: 13
打印 上一主题 下一主题

awk 处理 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2011-11-23 14:10 |只看该作者 |倒序浏览
这里有50多W个ip,如果前3位是相同的就取第1个。
  1. 14.221.246.118
  2. 14.222.67.130
  3. 27.18.178.159
  4. 58.16.249.53
  5. 58.22.113.5
  6. 58.22.113.28
  7. 58.22.116.143
  8. 58.22.116.145
  9. 61.158.153.216
  10. 112.4.2.17
  11. 112.4.2.18
  12. 112.4.2.48
  13. 112.4.2.49
  14. 112.4.2.50
  15. 112.4.2.51
  16. 112.96.30.233
  17. 112.96.66.5
  18. 112.96.66.18
  19. 112.96.128.106
  20. 112.96.130.12
  21. 112.96.254.55
  22. 112.96.255.35
  23. 112.97.30.2
复制代码
处理后
  1. 14.221.246.118
  2. 14.222.67.130
  3. 27.18.178.159
  4. 58.16.249.53
  5. 58.22.113.5
  6. 58.22.116.143
  7. 61.158.153.216
  8. 112.4.2.17
  9. 112.96.30.233
  10. 112.96.66.5
  11. 112.96.128.106
  12. 112.96.130.12
  13. 112.96.254.55
  14. 112.96.255.35
  15. 112.97.30.2
复制代码
该如何操作呢

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
2 [报告]
发表于 2011-11-23 14:18 |只看该作者
  1. awk -F. '{if(a[$1.$2.$3]==0)a[$1.$2.$3]=$0}END{for(i in a)print a[i]}' urfile
复制代码

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
3 [报告]
发表于 2011-11-23 14:20 |只看该作者
  1. awk -F. '{if(a[$1.$2.$3]==0)a[$1.$2.$3]=$0}END{for(i in a)print a[i]}' urfile
复制代码

论坛徽章:
0
4 [报告]
发表于 2011-11-23 14:27 |只看该作者
谢谢,就是长了点。。。

论坛徽章:
0
5 [报告]
发表于 2011-11-23 14:28 |只看该作者
awk -vFS="." '{line=$1"."$2"."$3;if(a[line]==""){a[line]=$0}}END{for( i in a){ print a[i]}}' data | sort -t . -k1,1n -k2,2n -k3,3n

论坛徽章:
23
15-16赛季CBA联赛之吉林
日期:2017-12-21 16:39:27白羊座
日期:2014-10-27 11:14:37申猴
日期:2014-10-23 08:36:23金牛座
日期:2014-09-30 08:26:49午马
日期:2014-09-29 09:40:16射手座
日期:2014-11-25 08:56:112015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:49:0315-16赛季CBA联赛之山东
日期:2017-12-21 16:39:1915-16赛季CBA联赛之广东
日期:2016-01-19 13:33:372015亚冠之山东鲁能
日期:2015-10-13 09:39:062015亚冠之西悉尼流浪者
日期:2015-09-21 08:27:57
6 [报告]
发表于 2011-11-23 14:30 |只看该作者
回复 4# 一棵菠菜


awk -F. '!a[$1.$2.$3]++' urfile

论坛徽章:
3
2015年迎新春徽章
日期:2015-03-04 09:56:11数据库技术版块每日发帖之星
日期:2016-08-03 06:20:00数据库技术版块每日发帖之星
日期:2016-08-04 06:20:00
7 [报告]
发表于 2011-11-23 14:38 |只看该作者
awk 'BEGIN{FS="\."}NF==4{if(a[$1,$2,$3]=="")a[$1,$2,$3]=$0}END{for(i in a)print a[i]}'

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
8 [报告]
发表于 2011-11-23 14:46 |只看该作者
回复 4# 一棵菠菜


几厘米的算短?
希望你能懂6楼

论坛徽章:
0
9 [报告]
发表于 2011-11-23 15:16 |只看该作者
6楼的代码很经典。学习了。谢谢大家的帮助!!!

论坛徽章:
0
10 [报告]
发表于 2011-11-23 15:59 |只看该作者

  1. #!/usr/bin/python
  2. #coding:utf-8
  3. ipEndNumList = []
  4. ipDict = {}
  5. dataFile = 'ipdata.txt'

  6. def ipData(dataFile):
  7.     f = open(dataFile)
  8.     for line in f:
  9.         data = line.strip().rsplit('.',1)
  10.         yield data
  11.                
  12. ipData = ipData(dataFile)

  13. for i in ipData:
  14.     ipSection = i[0]
  15.     if ipSection in ipDict:
  16.         ipDict[ipSection].append(i)
  17.     else:
  18.         ipDict[ipSection] = [i]

  19. for keys in ipDict:
  20.     for ipList in ipDict[keys]:
  21.         ipEndNumList.append(int(ipList[1]))
  22.     minNum = min(ipEndNumList)
  23.     print keys + '.' + str(minNum)
  24.     minNum = 0
  25.     ipEndNumList = []
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP