免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: crazyhadoop
打印 上一主题 下一主题

互联网文本处理挑战巨大 中文分词系统设计如何面对? [复制链接]

论坛徽章:
0
21 [报告]
发表于 2012-05-29 17:01 |只看该作者
中文切词,应该有索引库吧,

论坛徽章:
0
22 [报告]
发表于 2012-05-29 17:24 |只看该作者
说实话,有时候别说计算机分词了,就是人有时候还会有分词误会。况且现在的语言一天一个样,昨天不行的,今天就行了 , 就像 “我勒个去”

论坛徽章:
0
23 [报告]
发表于 2012-05-29 20:16 |只看该作者
贝叶斯分类???

论坛徽章:
1
CU十二周年纪念徽章
日期:2013-10-24 15:41:34
24 [报告]
发表于 2012-05-29 21:41 |只看该作者
很陌生的领域

论坛徽章:
1
天蝎座
日期:2013-12-06 18:23:58
25 [报告]
发表于 2012-05-29 22:36 |只看该作者
回复 22# zhanggggfd


    哈哈,这个就属于最近新造词,这是需要专门分析的

论坛徽章:
1
天蝎座
日期:2013-12-06 18:23:58
26 [报告]
发表于 2012-05-29 22:42 |只看该作者
回复 21# qdwmail


    嗯,这是非常原始的,就好像查字典一下。不过太不精准了,经典的例子,下雨天留客天客留我不留,这样的仅靠字典分不明白了啊

论坛徽章:
0
27 [报告]
发表于 2012-05-29 22:49 |只看该作者
建议学习一下Perl Vim 谷歌的自动翻译系统,文本处理,如果涉及所谓的文法,语法,词法,一个问题就变成10个问题,够你研究一辈子了。

论坛徽章:
0
28 [报告]
发表于 2012-05-30 01:38 |只看该作者
好高深……学习了

论坛徽章:
0
29 [报告]
发表于 2012-05-30 10:04 |只看该作者
我感觉 MACHINE LEARNING 是比较重要的,对不同的群体(比如地域,行业)的语言习惯进行学习。然后根据语言习惯进行不同的分词。直接分词还是很不好办的。

论坛徽章:
0
30 [报告]
发表于 2012-05-30 10:48 |只看该作者
造新词这个分析,目前有什么方法么,感觉上这没什么规律啊。
回复 25# crazyhadoop


   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP