免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 3923 | 回复: 16
打印 上一主题 下一主题

[文本处理] 急,求一个shell分析 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-12-11 12:41 |只看该作者 |倒序浏览
有一个文本如下:
   时间|来源|帐号|网站|标识
   2014|122a|abc|163.com|122
   2012|b132|acc|sina.com|23
   2012|c132|abc|baidu.com|a3
   2012|ts42|xcc|goole.com|a3
   2012|as22|xcc|baidu.com|a3
需求: 一个帐号只能出现在一个网站中,找出重复帐号出现在不同网站中的数据
想要的结果如下:
2014|122a|abc|163.com|122
2012|c132|abc|baidu.com|a3
2012|ts42|xcc|goole.com|a3
2012|as22|xcc|baidu.com|a3

论坛徽章:
24
申猴
日期:2014-10-10 15:56:39射手座
日期:2014-10-10 15:57:18黑曼巴
日期:2018-05-14 11:05:122016科比退役纪念章
日期:2018-05-14 11:05:0715-16赛季CBA联赛之北控
日期:2018-05-14 11:05:0015-16赛季CBA联赛之江苏
日期:2017-02-27 18:11:0715-16赛季CBA联赛之上海
日期:2018-08-15 09:48:5415-16赛季CBA联赛之佛山
日期:2018-07-20 17:14:2315-16赛季CBA联赛之佛山
日期:2019-09-10 18:08:4615-16赛季CBA联赛之山西
日期:2020-03-26 09:40:5115-16赛季CBA联赛之佛山
日期:2020-05-08 09:03:54
2 [报告]
发表于 2014-12-11 13:07 |只看该作者
gentoo ~ # awk -F "|" '{a[$3]=a[$3]"\n"$0;b[$3]+=1}END{for(i in a){if(b[i]>=2){print a[i]}}}' a

2012|ts42|xcc|goole.com|a3
2012|as22|xcc|baidu.com|a3

2014|122a|abc|163.com|122
2012|c132|abc|baidu.com|a3

论坛徽章:
3
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:51:162015年亚洲杯之阿曼
日期:2015-04-07 20:00:59
3 [报告]
发表于 2014-12-11 13:08 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
4 [报告]
发表于 2014-12-11 13:17 |只看该作者
回复 1# wzl189189


2014|122a|abc|163.com|122
2012|b132|acc|sina.com|23
2014|122a|abc|163.com|122
2012|c132|def|baidu.com|a3
2012|ts42|xcc|goole.com|a3
2012|as22|xcc|baidu.com|a3


这样的数据,结果是什么?

论坛徽章:
0
5 [报告]
发表于 2014-12-11 13:54 |只看该作者
回复 4# blackold


    想要的结果如下:
2014|122a|abc|163.com|122
2012|c132|abc|baidu.com|a3
2012|ts42|xcc|goole.com|a3
2012|as22|xcc|baidu.com|a3

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
6 [报告]
发表于 2014-12-11 13:56 |只看该作者
回复 5# wzl189189


    你没注意看。

论坛徽章:
0
7 [报告]
发表于 2014-12-11 14:08 |只看该作者
回复 1# wzl189189

  1. $>cat a
  2. 2014|122a|abc|163.com|122
  3. 2012|b132|acc|sina.com|23
  4. 2012|c132|abc|baidu.com|a3
  5. 2012|ts42|xcc|goole.com|a3
  6. 2012|as22|xcc|baidu.com|a3
  7. $>awk -F\| 'FNR==NR{a[$3]++}FNR<NR&&a[$3]>1' a a
  8. 2014|122a|abc|163.com|122
  9. 2012|c132|abc|baidu.com|a3
  10. 2012|ts42|xcc|goole.com|a3
  11. 2012|as22|xcc|baidu.com|a3
复制代码

论坛徽章:
0
8 [报告]
发表于 2014-12-11 14:18 |只看该作者
回复 4# blackold


    对不起,刚才没有看清楚,如果是你写的这样的条件,那结果就如下(就是找出同一个帐号,在不同网站出现):
2012|ts42|xcc|goole.com|a3
2012|as22|xcc|baidu.com|a3

论坛徽章:
0
9 [报告]
发表于 2014-12-11 15:04 |只看该作者
回复 2# chengchow

厉害啊,shell 我还没有入门,看了半天没看懂下面这句话
a[$3]=a[$3]"\n"$0;b[$3]+=1
  这个怎么理解?  为什么还有一个“\n“ ?
   

论坛徽章:
36
摩羯座
日期:2013-09-23 16:37:312015年亚洲杯之沙特阿拉伯
日期:2015-04-14 09:10:172015亚冠之柏太阳神
日期:2015-06-25 08:48:212015亚冠之武里南联
日期:2015-07-28 09:01:082015亚冠之莱赫维亚
日期:2015-07-28 15:44:172015亚冠之柏斯波利斯
日期:2015-09-06 14:08:52白银圣斗士
日期:2015-11-25 17:06:2815-16赛季CBA联赛之吉林
日期:2015-12-09 16:59:072016猴年福章徽章
日期:2016-02-18 15:30:3415-16赛季CBA联赛之辽宁
日期:2016-04-14 09:29:04luobin
日期:2016-06-17 17:46:3615-16赛季CBA联赛之天津
日期:2016-08-16 14:11:01
10 [报告]
发表于 2014-12-11 15:41 |只看该作者
回复 9# wzl189189
这个代码,重复的账号在重复的网站也显示出来了,你到底需要什么?

   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP