免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 2076 | 回复: 10
打印 上一主题 下一主题

[文本处理] 文本求助-内容汇总更新去重 [复制链接]

论坛徽章:
18
辰龙
日期:2014-05-21 21:01:4115-16赛季CBA联赛之深圳
日期:2016-12-23 13:51:3815-16赛季CBA联赛之北控
日期:2016-11-28 18:26:3815-16赛季CBA联赛之佛山
日期:2016-11-03 11:18:5815-16赛季CBA联赛之辽宁
日期:2016-07-10 16:09:4115-16赛季CBA联赛之江苏
日期:2016-02-20 23:09:202015亚冠之塔什干棉农
日期:2015-08-17 19:49:492015年亚洲杯之日本
日期:2015-04-30 01:24:342015年亚洲杯之约旦
日期:2015-04-01 00:37:182015年亚洲杯之沙特阿拉伯
日期:2015-03-02 15:55:40处女座
日期:2014-05-25 10:34:0020周年集字徽章-年
日期:2023-04-23 11:17:52
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2016-09-06 04:19 |只看该作者 |倒序浏览
5可用积分
本帖最后由 bikkuri 于 2016-09-06 04:21 编辑

大家好,我有一个问题向大家请教。
有大量文件,内容是IP地址和机器名的对应关系。
例如以下是一个样本sample1:
66.241.106.180  mirror1.centos.org
101.70.152.37   www.weather.com.cn
106.187.93.85   www.pm25x.com
112.124.140.210 mirrors.aliyun.com
120.25.63.41        coolmoon
45.32.13.160    tokyo
185.122.57.125  london
以下是另一个样本sample2:
127.0.0.1 localhost
106.187.93.86   www.pm25x.com
101.70.152.37   www.weather.com.cn
66.241.106.180  mirror2.centos.org
120.25.63.41    alex
54.215.223.83   wang
现在希望将所有文件中的内容整合到一个文件,要求如下:
IP地址相同的,以最后出现的机器名为准;
新出现的IP,直接添加到汇总文件的最后。
例如以上两个样本汇总后的结果应该是:
66.241.106.180  mirror2.centos.org
101.70.152.37   www.weather.com.cn
106.187.93.85   www.pm25x.com
112.124.140.210 mirrors.aliyun.com
120.25.63.41        alex
45.32.13.160    tokyo
185.122.57.125  london
127.0.0.1 localhost
106.187.93.86   www.pm25x.com
54.215.223.83   wang
谢谢大家!

论坛徽章:
28
15-16赛季CBA联赛之八一
日期:2016-02-22 19:10:4215-16赛季CBA联赛之深圳
日期:2016-12-01 10:34:0415-16赛季CBA联赛之新疆
日期:2016-12-07 10:24:2915-16赛季CBA联赛之同曦
日期:2016-12-15 12:06:43CU十四周年纪念徽章
日期:2016-12-18 13:03:4415-16赛季CBA联赛之吉林
日期:2017-01-03 15:52:2515-16赛季CBA联赛之辽宁
日期:2017-01-04 14:58:2415-16赛季CBA联赛之辽宁
日期:2017-01-15 09:42:512016科比退役纪念章
日期:2017-02-06 17:21:50黑曼巴
日期:2017-02-10 15:46:1215-16赛季CBA联赛之上海
日期:2017-03-18 10:14:5415-16赛季CBA联赛之青岛
日期:2017-03-18 22:00:44
2 [报告]
发表于 2016-09-06 08:28 |只看该作者
本帖最后由 moperyblue 于 2016-09-06 10:04 编辑
  1. awk '!a[$1]++{b[++c]=$1}{d[$1]=$2}END{for(;i++<c;)print b[i],d[b[i]]}' simple1 simple2
复制代码

论坛徽章:
29
程序设计版块每日发帖之星
日期:2016-02-29 06:20:0015-16赛季CBA联赛之天津
日期:2016-08-10 10:33:1115-16赛季CBA联赛之深圳
日期:2016-08-17 15:07:2015-16赛季CBA联赛之佛山
日期:2016-11-07 11:33:5015-16赛季CBA联赛之广夏
日期:2016-11-15 09:13:31CU十四周年纪念徽章
日期:2016-11-24 14:12:25极客徽章
日期:2016-12-07 14:03:4015-16赛季CBA联赛之深圳
日期:2016-12-07 17:15:2715-16赛季CBA联赛之北京
日期:2016-12-22 09:30:0115-16赛季CBA联赛之深圳
日期:2016-12-22 10:49:2115-16赛季CBA联赛之山西
日期:2017-02-10 09:05:3215-16赛季CBA联赛之同曦
日期:2017-02-27 14:19:08
3 [报告]
发表于 2016-09-06 09:14 |只看该作者
  1. awk '!a[$1]{b[++i]=$1}{a[$1]=$0}END{for(k=1;k<=i;++k)print a[b[k]]}'
复制代码

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
4 [报告]
发表于 2016-09-06 09:18 |只看该作者

  1. $ awk '{if(!a[$1]++)b[++c]=$1;d[$1]=$2}END{for(n=1;n<=c;++n)print b[n],d[b[n]]}' s1 s2
  2. 66.241.106.180 mirror2.centos.org
  3. 101.70.152.37 www.weather.com.cn
  4. 106.187.93.85 www.pm25x.com
  5. 112.124.140.210 mirrors.aliyun.com
  6. 120.25.63.41 alex
  7. 45.32.13.160 tokyo
  8. 185.122.57.125 london
  9. 127.0.0.1 localhost
  10. 106.187.93.86 www.pm25x.com
  11. 54.215.223.83 wang
复制代码

论坛徽章:
30
申猴
日期:2014-04-10 09:43:532015年亚洲杯纪念徽章
日期:2015-03-20 14:40:232015亚冠之阿尔纳斯尔
日期:2015-06-02 18:59:042015亚冠之阿尔希拉尔
日期:2015-06-30 15:22:572015亚冠之大阪钢巴
日期:2015-07-20 10:44:332015亚冠之阿尔纳斯尔
日期:2015-10-28 14:57:5215-16赛季CBA联赛之新疆
日期:2015-12-25 10:18:45黑曼巴
日期:2016-06-26 21:39:5315-16赛季CBA联赛之山西
日期:2016-07-25 21:54:2715-16赛季CBA联赛之北京
日期:2016-10-27 12:07:2315-16赛季CBA联赛之八一
日期:2017-07-07 16:39:0915-16赛季CBA联赛之吉林
日期:2017-09-04 12:14:43
5 [报告]
发表于 2016-09-06 09:42 |只看该作者
回复 1# bikkuri


  1. awk 'FNR==NR{a[$1]=$2;c[$1]=1;next}{if(c[$1]) {delete a[$1];b[$0]} else {t=t?t"\n"$0:$0}}END{for(i in a) print i,a[i];for(i in b) print i,b[i];print t}' sample1 sample2  
复制代码

论坛徽章:
1
15-16赛季CBA联赛之江苏
日期:2016-10-26 16:19:04
6 [报告]
发表于 2016-09-06 10:20 |只看该作者
awk 'NR==FNR{a[$1]=$2;next}{a[$1]=$2}END{for(i in a)print i,a[i]}' file1 file2

论坛徽章:
0
7 [报告]
发表于 2016-09-06 18:51 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
18
辰龙
日期:2014-05-21 21:01:4115-16赛季CBA联赛之深圳
日期:2016-12-23 13:51:3815-16赛季CBA联赛之北控
日期:2016-11-28 18:26:3815-16赛季CBA联赛之佛山
日期:2016-11-03 11:18:5815-16赛季CBA联赛之辽宁
日期:2016-07-10 16:09:4115-16赛季CBA联赛之江苏
日期:2016-02-20 23:09:202015亚冠之塔什干棉农
日期:2015-08-17 19:49:492015年亚洲杯之日本
日期:2015-04-30 01:24:342015年亚洲杯之约旦
日期:2015-04-01 00:37:182015年亚洲杯之沙特阿拉伯
日期:2015-03-02 15:55:40处女座
日期:2014-05-25 10:34:0020周年集字徽章-年
日期:2023-04-23 11:17:52
8 [报告]
发表于 2016-09-07 06:19 |只看该作者
非常感谢大家的帮助。
能不能再将所有文件中相同IP但不同机器名的内容汇总到另外一个文件。
例如以上两个样本汇总后的结果应该是:
66.241.106.180  mirror1.centos.org
66.241.106.180  mirror2.centos.org
120.25.63.41        coolmoon
120.25.63.41        alex
谢谢大家!

论坛徽章:
28
15-16赛季CBA联赛之八一
日期:2016-02-22 19:10:4215-16赛季CBA联赛之深圳
日期:2016-12-01 10:34:0415-16赛季CBA联赛之新疆
日期:2016-12-07 10:24:2915-16赛季CBA联赛之同曦
日期:2016-12-15 12:06:43CU十四周年纪念徽章
日期:2016-12-18 13:03:4415-16赛季CBA联赛之吉林
日期:2017-01-03 15:52:2515-16赛季CBA联赛之辽宁
日期:2017-01-04 14:58:2415-16赛季CBA联赛之辽宁
日期:2017-01-15 09:42:512016科比退役纪念章
日期:2017-02-06 17:21:50黑曼巴
日期:2017-02-10 15:46:1215-16赛季CBA联赛之上海
日期:2017-03-18 10:14:5415-16赛季CBA联赛之青岛
日期:2017-03-18 22:00:44
9 [报告]
发表于 2016-09-07 08:22 |只看该作者
本帖最后由 moperyblue 于 2016-09-07 12:00 编辑
  1. awk 'a[$1]++{b[++c]=$1}{if(d[$1]){if(d[$1]==$0){delete d[$1];next};d[$1]=d[$1] RS $0}else{d[$1]=$0}}END{for(;i++<c;)if(d[b[i]])print d[b[i]]}' simple1 simple2
复制代码

论坛徽章:
29
程序设计版块每日发帖之星
日期:2016-02-29 06:20:0015-16赛季CBA联赛之天津
日期:2016-08-10 10:33:1115-16赛季CBA联赛之深圳
日期:2016-08-17 15:07:2015-16赛季CBA联赛之佛山
日期:2016-11-07 11:33:5015-16赛季CBA联赛之广夏
日期:2016-11-15 09:13:31CU十四周年纪念徽章
日期:2016-11-24 14:12:25极客徽章
日期:2016-12-07 14:03:4015-16赛季CBA联赛之深圳
日期:2016-12-07 17:15:2715-16赛季CBA联赛之北京
日期:2016-12-22 09:30:0115-16赛季CBA联赛之深圳
日期:2016-12-22 10:49:2115-16赛季CBA联赛之山西
日期:2017-02-10 09:05:3215-16赛季CBA联赛之同曦
日期:2017-02-27 14:19:08
10 [报告]
发表于 2016-09-07 09:16 |只看该作者
  1. sort 1 > 11
  2. sort 2 > 22
  3. join 11 22 | awk '$2!=$3&&$2=$2"\n"$1'
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP