免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2105 | 回复: 1
打印 上一主题 下一主题

[算法] 统计一个词组样本中每个词组的出现次数 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2011-05-09 03:19 |只看该作者 |倒序浏览
假如现在有一个很大的文本样本,经过分词程序处理后变成了一个个的字或词,现在要统计这些字或词在整个分词结果中的出现次数,想问下大家有米有好的思路;

我现在的思路是:做hash每一个hash位置对应一个统计数组中的一位,一旦某一个词放入某一位置或在某一位置发生冲突 则该位置对应的数组元素值加1 表示出现过一次,最后遍历了整个文本后得到结果。


例如:

一个文本分词后得到如下词语:  中国  中学生  大学生  中国  人民  大学生

那么经过统计后的结果就应该是:  中国:2    ;  中学生:1   ; 大学生:2   ;人民:1

求各位有没有什么比较好的思路一起探讨下吧,因为文本很大处理起来有很大的困难。谢谢了

论坛徽章:
324
射手座
日期:2013-08-23 12:04:38射手座
日期:2013-08-23 16:18:12未羊
日期:2013-08-30 14:33:15水瓶座
日期:2013-09-02 16:44:31摩羯座
日期:2013-09-25 09:33:52双子座
日期:2013-09-26 12:21:10金牛座
日期:2013-10-14 09:08:49申猴
日期:2013-10-16 13:09:43子鼠
日期:2013-10-17 23:23:19射手座
日期:2013-10-18 13:00:27金牛座
日期:2013-10-18 15:47:57午马
日期:2013-10-18 21:43:38
2 [报告]
发表于 2011-05-09 08:45 |只看该作者
不同字符串的哈希结果可能是相同的
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP