免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 13640 | 回复: 9
打印 上一主题 下一主题

[文本处理] 大文本如何统计每行字符出现的次数 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-08-24 15:24 |显示全部楼层 |倒序浏览
本帖最后由 vkqo 于 2013-08-24 16:40 编辑

一个大文本

每行一个字符串,统计不同的字符串出现的次数,然后把生成次数的结果排序生成一个文本

比如a.txt
wangbo
ohpho
wou
abc
asdjfklj
urowre
jojfan
asjdouw
12308s
ja134
9348022
2980024
jbouwf
mingwou
ajluouw
o9274
cba
abc
982344
9999
9999
2308
5644
9999
wangbo
litao
litao

统计后生成个次数文件
9999:3
wangbo:2
litao:2
...

论坛徽章:
0
2 [报告]
发表于 2013-08-24 15:27 |显示全部楼层
我刚才用这个
sort a.txt |uniq -d -c
但是好像处理速度好慢啊

论坛徽章:
0
3 [报告]
发表于 2013-08-24 15:32 |显示全部楼层
而且统计出来的东西也是错误的
有的重复统计

论坛徽章:
0
4 [报告]
发表于 2013-08-24 15:50 |显示全部楼层
我的是win32系统,只有gawk和sort

论坛徽章:
0
5 [报告]
发表于 2013-08-24 16:55 |显示全部楼层
gawk "{a[$1]++}END{for(i in a){print i,a[i]}}" a.txt > b.txt

win32下面怎么对次数排序啊???

论坛徽章:
0
6 [报告]
发表于 2013-08-24 16:59 |显示全部楼层
Windows下面那个sort很多时候无法正确的排序

论坛徽章:
0
7 [报告]
发表于 2013-08-24 17:08 |显示全部楼层
用sort -rk 2 就
提示输入文件指定了两次。

我郁闷

论坛徽章:
0
8 [报告]
发表于 2013-08-24 17:59 |显示全部楼层
统计的问题已经解决了,就剩下按照次数排序了,
win32下的sort非常恶心不能分列排序

论坛徽章:
0
9 [报告]
发表于 2013-08-24 18:01 |显示全部楼层
哥们,我的是win32系统

论坛徽章:
0
10 [报告]
发表于 2013-08-26 17:34 |显示全部楼层
回复 16# rdcwayx


    en,搞定了,谢谢版主
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP