免费注册	查看新帖 \|


平台论坛博客文库

› 论坛 › 程序设计 › Linux环境编程 › 互联网文本处理挑战巨大中文分词系统设计如何面对？

1 2 345 6 / 6 页下一页

最近访问板块

发新帖

楼主: crazyhadoop

上一主题

下一主题

互联网文本处理挑战巨大中文分词系统设计如何面对？ [复制链接]

论坛徽章:: 1

天蝎座
日期:2013-12-06 18:23:58

31楼 [报告]

发表于 2012-05-30 10:54 |只看该作者

回复 30# zhanggggfd

大规模索引+ 学习，只能通过智能算法来分析了，路还很长

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 1

天蝎座
日期:2013-12-06 18:23:58

32楼 [报告]

发表于 2012-05-30 11:42 |只看该作者

回复 30# zhanggggfd

现在常用的方法是基于统计，不过这个要有大量的最新语料库的配合，一般为了提高新词的认知准确度，先都是在特定领域挖掘，泛泛的抓取识别还达不到这样的技术

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

33楼 [报告]

发表于 2012-05-30 13:00 |只看该作者

学习。。。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 4

CU十二周年纪念徽章
日期:2013-10-24 15:41:34

摩羯座
日期:2013-12-24 13:05:33

2015亚冠之西悉尼流浪者
日期:2015-10-09 16:03:47

fulanqi
日期:2016-06-17 17:54:25

34楼 [报告]

发表于 2012-05-30 13:22 |只看该作者

crazyhadoop 发表于 2012-05-28 21:44
回复 6# hbsycw

是的，感觉搜狗输入法，用着很不错~

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

35楼 [报告]

发表于 2012-05-30 14:41 |只看该作者

这样听来，要处理海量数据啊，还真是巨大挑战。估计没几个公司做的了。不过说不定那天就有人想出新算法，精简+联想数据貌似也有可能。

回复 32# crazyhadoop

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

36楼 [报告]

发表于 2012-05-30 14:59 |只看该作者

看看。。。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

37楼 [报告]

发表于 2012-05-30 17:20 |只看该作者

还是语法呀

要分清主语，动语
我是中国人
从左往右最长匹配优先：
读入‘我’，一个字当然是一个词
再读入‘是’，查表找‘我是’，不在表中，则‘我’是一个独立的词，‘是’还要下一步判断
读入‘中’‘是中’肯定不在表内，那‘是’也是一个独立的词，‘中’还要下一步判断
读入‘果’，‘中国’在表内
再读入‘人’，’中国人‘也在表内，
此时全部读完，’中国人‘是一个次
结果就是：我是中国人
其他就是递归，
有时间还可以看一下龙书。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 5

丑牛
日期:2014-01-21 08:26:26

卯兔
日期:2014-03-11 06:37:43

天秤座
日期:2014-03-25 08:52:52

寅虎
日期:2014-04-19 11:39:48

午马
日期:2014-08-06 03:56:58

38楼 [报告]

发表于 2012-05-30 19:15 |只看该作者

是一个比较艰巨的任务。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

39楼 [报告]

发表于 2012-05-30 21:28 |只看该作者

精简+联想数据

这个怎么解读
回复 35# zhanggggfd

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

40楼 [报告]

发表于 2012-05-30 21:41 |只看该作者

我参考别人的论文实现过一个新词发现的程序。基本思想：
根据一个字串上下文的多样性来确认是否是新词。对于比较正规的新闻文体，识别新词的效果还是不错的。

回复 30# zhanggggfd

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

1 2 345 6 / 6 页下一页

发新帖

Chinaunix › 论坛 › 程序设计 › Linux环境编程 › 互联网文本处理挑战巨大中文分词系统设计如何面对？

北京盛拓优讯信息技术有限公司. 版权所有京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号：11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员联系我们：huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP