免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2261 | 回复: 8
打印 上一主题 下一主题

[文本处理] shell如何实现抓取特定符号内的内容,并且统计个数 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2015-09-01 14:29 |只看该作者 |倒序浏览
本帖最后由 skywalkzf 于 2015-11-30 16:44 编辑

Hi All:
目前碰到一个文本需要处理,类似:
Line 1:1111111   “aaa”  xxxx
Line 2:2222        "bbbb" xxxx
Line3: 33333333       "cccccccc" xxxx
Line 4 : 4444444    "aaa" xxxx
Line5 : 55555   “cccccccc” xxxx

需要统计引号内的内容出现的次数,生成到另外一个表中并且按顺序排放:
aaa 2
cccccccc 2
bbbb 1
谢谢!

我的理解:
用awk或者sed将引号内的内容提取出来,然后grep aaa | wc -l ,但是如何规避aaa被统计两次?

论坛徽章:
95
程序设计版块每日发帖之星
日期:2015-09-05 06:20:00程序设计版块每日发帖之星
日期:2015-09-17 06:20:00程序设计版块每日发帖之星
日期:2015-09-18 06:20:002015亚冠之阿尔艾因
日期:2015-09-18 10:35:08月度论坛发贴之星
日期:2015-09-30 22:25:002015亚冠之阿尔沙巴布
日期:2015-10-03 08:57:39程序设计版块每日发帖之星
日期:2015-10-05 06:20:00每日论坛发贴之星
日期:2015-10-05 06:20:002015年亚冠纪念徽章
日期:2015-10-06 10:06:482015亚冠之塔什干棉农
日期:2015-10-19 19:43:35程序设计版块每日发帖之星
日期:2015-10-21 06:20:00每日论坛发贴之星
日期:2015-09-14 06:20:00
2 [报告]
发表于 2015-09-01 14:41 |只看该作者
回复 1# skywalkzf


    cat data.txt | awk -F\" '{ print $2 }' | sort | uniq -c

论坛徽章:
20
卯兔
日期:2015-01-26 22:05:142015亚冠之萨济拖拉机
日期:2015-09-10 15:15:282015亚冠之阿尔希拉尔
日期:2015-09-25 17:37:53程序设计版块每日发帖之星
日期:2015-10-03 06:20:00程序设计版块每日发帖之星
日期:2015-12-09 06:20:00CU十四周年纪念徽章
日期:2015-12-17 09:07:15程序设计版块每日发帖之星
日期:2015-12-25 06:20:34程序设计版块每日发帖之星
日期:2015-12-25 06:20:34程序设计版块每日发帖之星
日期:2015-12-25 06:20:342015亚冠之广州富力
日期:2015-08-27 19:29:56每日论坛发贴之星
日期:2015-08-26 06:20:002015亚冠之阿尔希拉尔
日期:2015-05-18 17:26:27
3 [报告]
发表于 2015-09-01 14:48 |只看该作者
回复 1# skywalkzf
  1. awk -F'"' '{a[$2]++}END{l=asort(a,b);for(i=l;i>0;i--)for(s in a)if(b[i]==a[s]){print s,b[i];delete a[s];break}}' file
复制代码

论坛徽章:
11
射手座
日期:2015-08-11 16:10:26辰龙
日期:2015-08-11 16:11:11黑曼巴
日期:2016-04-26 16:58:40
4 [报告]
发表于 2015-09-01 15:17 |只看该作者
回复 2# MMMIX


    还少一次sort
  1. awk -F\" '{ print $2 }' file | sort | uniq -c | sort -rn
复制代码

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
5 [报告]
发表于 2015-09-01 15:23 |只看该作者
没有看懂最后的需求,能否讲清楚一点,如何排序?

论坛徽章:
0
6 [报告]
发表于 2015-09-01 17:35 |只看该作者
cat file |awk -F'"' '{a[$2]++}END{for(i in a)print i,a[i]}'|sort -nrk2

论坛徽章:
0
7 [报告]
发表于 2015-11-30 16:45 |只看该作者
收到,已经按照各位的方法实现,谢谢!

论坛徽章:
1
技术图书徽章
日期:2016-02-03 16:35:25
8 [报告]
发表于 2015-11-30 17:42 |只看该作者
awk '{gsub(/"/,"") ; print $2 }' test2_11.30  | sort | uniq -c

论坛徽章:
6
羊年新春福章
日期:2015-03-03 17:16:28双子座
日期:2015-03-03 17:16:56巳蛇
日期:2015-03-03 17:17:2415-16赛季CBA联赛之福建
日期:2016-03-11 09:05:00黑曼巴
日期:2016-07-07 16:58:1215-16赛季CBA联赛之吉林
日期:2016-11-14 09:23:07
9 [报告]
发表于 2015-12-01 09:18 |只看该作者
  1. awk -F'"|“|”' '{print $2}' test|awk '{a[$0]++}END{for(i in a)print i,a[i]}'
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP