免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 7352 | 回复: 14
打印 上一主题 下一主题

[文本处理] 合并ip地址问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-10-12 23:18 |只看该作者 |倒序浏览
本帖最后由 chenwenming_zj 于 2013-10-12 23:25 编辑

如:

cat a.txt
192.168.1
192.168.2
192.168.3
172.19.3
192.16.1
192.16.2
10.0.4

想得到:
192.168.1-192.168.3
172.19.3
192.16.1-192.16.2
10.0.4


请问用awk 或perl 怎么写呀,我的思路是:
把$1.$2放到一个变量里,下一行的$1.$2与这个变量对比,如果相同进行下一个$3的对比,如果$3与上一个值差为1,继续对比直到不为1,打印出第一个$3与最后一次值,但还是没写出来,请教一下大家,谢了!

论坛徽章:
5
白羊座
日期:2014-10-28 11:23:27水瓶座
日期:2015-01-20 10:19:022015亚冠之柏斯波利斯
日期:2015-07-11 18:17:2015-16赛季CBA联赛之同曦
日期:2015-12-23 12:38:582016猴年福章徽章
日期:2016-02-18 15:30:34
2 [报告]
发表于 2013-10-13 00:57 |只看该作者
本帖最后由 klainogn 于 2013-10-13 01:27 编辑

awk 'BEGIN{FS=".";ORS=""}{p=(prefix==$1"."$2);if(p && $3==start+i)next;prefix=$1"."$2;start=$3;i++;if(p){print "-"$3}else{print "\n"$0}}' a.txt
这个有点问题

论坛徽章:
60
20周年集字徽章-20	
日期:2020-10-28 14:04:3015-16赛季CBA联赛之北京
日期:2016-07-06 15:42:0715-16赛季CBA联赛之同曦
日期:2016-06-12 10:38:0915-16赛季CBA联赛之佛山
日期:2016-05-27 11:54:56黄金圣斗士
日期:2015-12-02 11:44:35白银圣斗士
日期:2015-11-25 14:32:43白银圣斗士
日期:2015-11-23 12:53:352015亚冠之布里斯班狮吼
日期:2015-10-21 16:55:482015亚冠之首尔
日期:2015-09-01 16:46:052015亚冠之德黑兰石油
日期:2015-08-31 11:39:192015亚冠之萨济拖拉机
日期:2015-08-28 21:06:5315-16赛季CBA联赛之广东
日期:2016-07-12 14:58:53
3 [报告]
发表于 2013-10-13 12:22 |只看该作者
本帖最后由 reyleon 于 2013-10-15 14:05 编辑
  1. [root@centos ~]# cat file
  2. 192.168.1
  3. 192.168.11
  4. 192.168.13
  5. 192.168.12
  6. 192.168.14
  7. 192.168.2
  8. 192.168.4
  9. 192.168.3
  10. 192.168.6
  11. 172.19.3
  12. 192.16.1
  13. 192.16.2
  14. 10.0.4
  15. 10.0.3
  16. 10.0.7
  17. [root@centos ~]# sort -t. -n -k3 file | awk -f f.awk
  18. 172.19.3
  19. 10.0.3-10.0.4
  20. 10.0.7
  21. 192.16.1-192.16.2
  22. 192.168.1-192.168.4
  23. 192.168.6
  24. 192.168.11-192.168.14
  25. [root@centos ~]#
  26. [root@centos ~]# cat f.awk
  27. #!/bin/awk

  28. BEGIN{
  29.         FS=SUBSEP="."
  30. }
  31. {
  32.         a[$1,$2]=a[$1,$2]?a[$1,$2]OFS$3:$3
  33. }
  34. END{
  35.         for(i in a){
  36.                 l=split(a[i],s,OFS)
  37.                 for(j=1;j<=l;j++){
  38.                         min=s[j]
  39.                         while(1){
  40.                                 if(s[j]+1!=s[++j]){
  41.                                         max=s[--j]
  42.                                         if(min==max){print i FS min}else{print i FS min"-"i FS max}
  43.                                         break
  44.                                 }
  45.                         }
  46.                 }
  47.         }
  48. }
  49. [root@centos ~]#
复制代码

论坛徽章:
15
2015年辞旧岁徽章
日期:2015-03-03 16:54:15双鱼座
日期:2015-01-15 17:29:44午马
日期:2015-01-06 17:06:51子鼠
日期:2014-11-24 10:11:13寅虎
日期:2014-08-18 07:10:55酉鸡
日期:2014-04-02 12:24:51双子座
日期:2014-04-02 12:19:44天秤座
日期:2014-03-17 11:43:36亥猪
日期:2014-03-13 08:13:51未羊
日期:2014-03-11 12:42:03白羊座
日期:2013-11-20 10:15:18CU大牛徽章
日期:2013-04-17 11:48:45
4 [报告]
发表于 2013-10-13 17:16 |只看该作者
本帖最后由 rdcwayx 于 2013-10-13 19:17 编辑

思路很好, 但好像有部分多余了。
  1. #!/bin/awk

  2. BEGIN{
  3.         FS="."     #  SUBSEP 放在这里有啥讲究吗?
  4. }
  5. {
  6.         a[$1,$2]=a[$1,$2]?a[$1,$2]OFS$3:$3
  7. }
  8. END{
  9.         for(i in a){
  10.                 l=split(a[i],s,OFS)   # 后面的if判断可以不用。
  11.                 {
  12.                         for(j=1;j<=l;j++){
  13.                                 min=s[j]
  14.                                 while(1){
  15.                                         if(s[j]+1!=s[++j]){
  16.                                                 max=s[--j]
  17.                                                 if(min==max){print i FS min}else{print i FS min"-"i FS max}
  18.                                                 break
  19.                                         }
  20.                                 }
  21.                         }
  22.                 }
  23.         }
  24. }
复制代码

论坛徽章:
60
20周年集字徽章-20	
日期:2020-10-28 14:04:3015-16赛季CBA联赛之北京
日期:2016-07-06 15:42:0715-16赛季CBA联赛之同曦
日期:2016-06-12 10:38:0915-16赛季CBA联赛之佛山
日期:2016-05-27 11:54:56黄金圣斗士
日期:2015-12-02 11:44:35白银圣斗士
日期:2015-11-25 14:32:43白银圣斗士
日期:2015-11-23 12:53:352015亚冠之布里斯班狮吼
日期:2015-10-21 16:55:482015亚冠之首尔
日期:2015-09-01 16:46:052015亚冠之德黑兰石油
日期:2015-08-31 11:39:192015亚冠之萨济拖拉机
日期:2015-08-28 21:06:5315-16赛季CBA联赛之广东
日期:2016-07-12 14:58:53
5 [报告]
发表于 2013-10-13 18:42 |只看该作者
回复 4# rdcwayx


      后面的if确实不需要,多谢指出! 这种情况已经不是第一次了,我老是会搞糊涂 ,虽然不会有错,但看着显得会很不专业,哈哈

至于用到SUBSEP,是因为写成a[$1,$2],而不是写成a[$1"."$2],不然后面打印a的下标的时候不是少了一个"."么?

论坛徽章:
15
2015年辞旧岁徽章
日期:2015-03-03 16:54:15双鱼座
日期:2015-01-15 17:29:44午马
日期:2015-01-06 17:06:51子鼠
日期:2014-11-24 10:11:13寅虎
日期:2014-08-18 07:10:55酉鸡
日期:2014-04-02 12:24:51双子座
日期:2014-04-02 12:19:44天秤座
日期:2014-03-17 11:43:36亥猪
日期:2014-03-13 08:13:51未羊
日期:2014-03-11 12:42:03白羊座
日期:2013-11-20 10:15:18CU大牛徽章
日期:2013-04-17 11:48:45
6 [报告]
发表于 2013-10-13 19:12 |只看该作者
本帖最后由 rdcwayx 于 2013-10-13 21:13 编辑

回复 5# reyleon
嗯,确实如此, 这个方法要简便很多。学习了
  1. awk的多维数组在本质上是一维数组,更确切一点,awk在存储上并不支持多维数组。awk提供了逻辑上模拟二维数组的访问方式。例 如,array[2,4] = 1这样的访问是允许的。awk使用一个特殊的字符串SUBSEP (\034)作为分割字段,在上面的例子中,关联数组array存储的键值实际上是2\0344。
复制代码
我通常这样做的。
  1. BEGIN{
  2.         FS="."   
  3. }
  4. {
  5.         a[$1 FS $2]=a[$1 FS $2]?a[$1 FS $2]OFS$3:$3
  6. }
复制代码

论坛徽章:
0
7 [报告]
发表于 2013-10-13 20:30 |只看该作者
多谢klainogn  reyleon  rdcwayx  大神 真的解决我的问题了。

论坛徽章:
5
白羊座
日期:2014-10-28 11:23:27水瓶座
日期:2015-01-20 10:19:022015亚冠之柏斯波利斯
日期:2015-07-11 18:17:2015-16赛季CBA联赛之同曦
日期:2015-12-23 12:38:582016猴年福章徽章
日期:2016-02-18 15:30:34
8 [报告]
发表于 2013-10-13 22:48 |只看该作者
本帖最后由 klainogn 于 2013-10-13 23:03 编辑

awk 'BEGIN{FS=".";ORS=""}{p=(prefix==$1"."$2);v=($3==ip+1);prefix=$1"."$2;before=ip;ip=$3;if(p&&v){a=1;next};if(NR==1){print;next};if(a)print "-"before;print "\n"$0;a=0}'
这个应该可以了,必须赞一下reyleon的思路

论坛徽章:
15
2015年辞旧岁徽章
日期:2015-03-03 16:54:15双鱼座
日期:2015-01-15 17:29:44午马
日期:2015-01-06 17:06:51子鼠
日期:2014-11-24 10:11:13寅虎
日期:2014-08-18 07:10:55酉鸡
日期:2014-04-02 12:24:51双子座
日期:2014-04-02 12:19:44天秤座
日期:2014-03-17 11:43:36亥猪
日期:2014-03-13 08:13:51未羊
日期:2014-03-11 12:42:03白羊座
日期:2013-11-20 10:15:18CU大牛徽章
日期:2013-04-17 11:48:45
9 [报告]
发表于 2013-10-14 07:28 |只看该作者
回复 8# klainogn
  1. $ cat infile
  2. 192.168.1
  3. 192.168.2
  4. 192.168.3
  5. 172.19.3
  6. 192.16.1
  7. 192.16.2
  8. 10.0.4
  9. 172.19.34
  10. 172.19.35
  11. 172.19.38
  12. 10.0.5

  13. $ awk 'BEGIN{FS=".";ORS=""}{p=(prefix==$1"."$2);v=($3==ip+1);prefix=$1"."$2;before=ip;ip=$3;if(p&&v){a=1;next};if(NR==1){print;next};if(a)print "-"before;print "\n"$0;a=0}'  infile
  14. 192.168.1-3
  15. 172.19.3
  16. 192.16.1-2
  17. 10.0.4
  18. 172.19.34-35
  19. 172.19.38
  20. 10.0.5
复制代码
10.0.4 和 10.0.5 没有合并。 而且感觉在某些条件下,会漏了最后一行数据的。

论坛徽章:
2
白羊座
日期:2013-11-18 19:52:42辰龙
日期:2014-09-07 07:46:06
10 [报告]
发表于 2013-10-14 09:19 |只看该作者
本帖最后由 damcool 于 2013-10-14 09:25 编辑

利用power of sort
  1. sort -t '.' -k1,1n -k2,2n -k3,3n /tmp/ips|awk -F "." '{r=$1"."$2;if (r!=t || m!=$3-1) {if (n!=m) printf "-"m;printf "\n";printf r"."$3;n=$3;m=$3} else m=$3;t=r}END{if (n!=m) print "-"m}'
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP