免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: crazyhadoop
打印 上一主题 下一主题

互联网文本处理挑战巨大 中文分词系统设计如何面对? [复制链接]

论坛徽章:
1
天蝎座
日期:2013-12-06 18:23:58
31 [报告]
发表于 2012-05-30 10:54 |只看该作者
回复 30# zhanggggfd


    大规模索引+ 学习,只能通过智能算法来分析了,路还很长

论坛徽章:
1
天蝎座
日期:2013-12-06 18:23:58
32 [报告]
发表于 2012-05-30 11:42 |只看该作者
回复 30# zhanggggfd


    现在常用的方法是基于统计,不过这个要有大量的最新语料库的配合,一般为了提高新词的认知准确度,先都是在特定领域挖掘,泛泛的抓取识别还达不到这样的技术

论坛徽章:
0
33 [报告]
发表于 2012-05-30 13:00 |只看该作者
学习。。。

论坛徽章:
4
CU十二周年纪念徽章
日期:2013-10-24 15:41:34摩羯座
日期:2013-12-24 13:05:332015亚冠之西悉尼流浪者
日期:2015-10-09 16:03:47fulanqi
日期:2016-06-17 17:54:25
34 [报告]
发表于 2012-05-30 13:22 |只看该作者
crazyhadoop 发表于 2012-05-28 21:44
回复 6# hbsycw



是的,感觉搜狗输入法,用着很不错~

论坛徽章:
0
35 [报告]
发表于 2012-05-30 14:41 |只看该作者
这样听来,要处理海量数据啊,还真是巨大挑战。估计没几个公司做的了。不过说不定那天就有人想出新算法,精简+联想数据貌似也有可能。

回复 32# crazyhadoop


   

论坛徽章:
0
36 [报告]
发表于 2012-05-30 14:59 |只看该作者
看看。。。

论坛徽章:
0
37 [报告]
发表于 2012-05-30 17:20 |只看该作者
还是语法呀

要分清主语,动语
我是中国人
从左往右最长匹配优先:
读入‘我’,一个字当然是一个词
再读入‘是’,查表找‘我是’,不在表中,则‘我’是一个独立的词,‘是’还要下一步判断
读入‘中’‘是中’肯定不在表内,那‘是’也是一个独立的词,‘中’还要下一步判断
读入‘果’,‘中国’在表内
再读入‘人’,’中国人‘也在表内,
此时全部读完,’中国人‘是一个次
结果就是:我 是 中国人
其他就是递归,
有时间还可以看一下龙书。

论坛徽章:
5
丑牛
日期:2014-01-21 08:26:26卯兔
日期:2014-03-11 06:37:43天秤座
日期:2014-03-25 08:52:52寅虎
日期:2014-04-19 11:39:48午马
日期:2014-08-06 03:56:58
38 [报告]
发表于 2012-05-30 19:15 |只看该作者
是一个比较艰巨的任务。

论坛徽章:
0
39 [报告]
发表于 2012-05-30 21:28 |只看该作者
精简+联想数据

这个怎么解读
回复 35# zhanggggfd


   

论坛徽章:
0
40 [报告]
发表于 2012-05-30 21:41 |只看该作者
我参考别人的论文实现过一个新词发现的程序。基本思想:
根据一个字串上下文的多样性来确认是否是新词。对于比较正规的新闻文体,识别新词的效果还是不错的。

回复 30# zhanggggfd


   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP