123 4 5 6 / 6 页下一页

互联网文本处理挑战巨大中文分词系统设计如何面对？ [复制链接]

kns1024wh

广告杀手

论坛徽章:: 0

11楼 [报告]

发表于 2012-05-29 08:49 |只看该作者

回复 1# crazyhadoop

这个的基础应该是hadoop 处理

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

yifangyou

小富即安

论坛徽章:: 27

12楼 [报告]

发表于 2012-05-29 10:04 |只看该作者

我在做我公司的站内搜索时，使用lucene搜索引擎，其中分词法我找了很多种类型的分词工具，例如paoding,ictclas4j,imdict-chinese,mmseg4j，IKAnalyzer。
比较下来我发现IKAnalyzer比较适合我的需求，
1）它有通用词库，对于一些常用词基本上可以分析出来。
2）它同时也有扩展库，我可以自己定义词库，因为我公司的网站是一个专业型网站，专业词汇比较多。
3）它不像其它基于词库的的分词器就是简单地根据词库进行分词，他有一个比较简单的分词程序能够按照自然语言进行分词。
ictclas4j据说是中科院的分词器java版，分词能力很强，但是它太复杂了，不太适合我。
我需要把分词器改造为适合我的，我修改了IKAnalyzer，让它从数据库里读取词库，这样我可以动态增加词库。
我设想中的分词器，应该还有一项功能：学习能力，就是根据用户搜索的词的频率自动把搜索频率比较高的词加入到词库中。类似于google输入法或者qq输入法，能够根据用户输入的词的频率，自动加入到常用词里，自动联想。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

crazyhadoop

版主

论坛徽章:: 1

13楼 [报告]

发表于 2012-05-29 10:05 |只看该作者

回复 10# dooros

这个做敏感词用的到哦

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

crazyhadoop

版主

论坛徽章:: 1

14楼 [报告]

发表于 2012-05-29 10:06 |只看该作者

回复 12# yifangyou

对的，理想的情况就是具备学习能力。这样这个词库才有生命力

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

huihui_2012

白手起家

论坛徽章:: 0

15楼 [报告]

发表于 2012-05-29 14:49 |只看该作者

好的分词方法要有未登录词的识别功能，就是能将词典里未出现的词语识别出来。
还有就是专门的新词发现。根据词频统计和规则过滤等。

回复 9# crazyhadoop

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

huihui_2012

白手起家

论坛徽章:: 0

16楼 [报告]

发表于 2012-05-29 14:55 |只看该作者

前面的帖子中讲到未登录词的问题。下面将讲述一种对未登录词的简单处理策略。

登录字串的处理
首先，考虑未登陆字串的定义。未登陆字串是指在训练语料中没有作为词语出现的字串。这包括两种情形：
a. 在训练集中作为字串出现过但没有作为词语出现过
b. 在训练集中没有出现过的字串。
对于这两种未登陆字串，本文做统一处理。
对于未登陆字串，如果将其WR设为0，则会使得整个路径的切分概率为0，这样会导致无法识别未登录词，因此不可取。因此，需要给每个未登录字串其设定一个略大于0的概率。
对于一个未登陆字串，我们可以根据其长度为其估算一个概率。有两种做法，一种方法是简单根据长度来设定概率，我们通过实践发现，如下设定是一种合适的选择：
WR(US)=0.1^(1.1*len-0.1)
其中len是未登陆字串US的长度。值得注意的是，实践表明，当大于3时，通常取WR(US)的值为0。也就是，未登陆词的长度不大于3，这样的识别效果最好。也就是说，长度大于3时，这种方法效果并不好。而且，由于多数未登陆词是人名和地名等，这些词的长度多为2和3。
另一种方法，根据统计来估计不同长度的未登陆字串的成词概率WR。即将语料分割为训练集和调整集两部分，将那些只在调整集中出现而未在训练集中出现的词语，均视为未登陆词。为了估计不同长度的未登陆字串的成词概率，可以统计在调整集中某长度的未登陆词的数量，除以该长度的未登陆字串的总数，所得的值就是该长度的未登陆字串的成词概率。
本文所述的系统采用了第一种方法进行平滑估计。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

lkk_super

稍有积蓄

论坛徽章:: 5

17楼 [报告]

发表于 2012-05-29 14:56 |只看该作者

回复 8# huihui_2012

这样优化过的词频的计算方式分词和用传统二元分词相比有什么优势和劣势？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

huihui_2012

白手起家

论坛徽章:: 0

18楼 [报告]

发表于 2012-05-29 15:02 |只看该作者

这样的方式下有两个好处：便于加入词典（后面仍将讲述），节省存储空间（前面已经提到）

回复 17# lkk_super

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

huihui_2012

白手起家

论坛徽章:: 0

19楼 [报告]

发表于 2012-05-29 15:04 |只看该作者

添加外部词典
我们注意到WR值的计算依赖于切分语料，但是语料的标注耗时耗力，规模是受限制。现实中的新词不断涌现，因此我们需要将外部词典引入到分词系统中。
如果词典中的词语在训练集中作为词语出现，我们直接采用WR的定义公式进行计算。
如果词典中的词语没有在训练集中作为词语出现（符合上面的未登录字串的定义），该怎么计算它的WR值呢？显然，其成词概率高于一般的未登录字串，计算方法如下：
WR（DW)=1/(1+count(DW))
其中DW是词典里出现的词语， count(DW)是该词语在训练集中作为字串出现的次数。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

_Rayx

富足长乐

论坛徽章:: 0

20楼 [报告]

发表于 2012-05-29 16:37 |只看该作者

以前对这个挺感兴趣的，毕设想做短文本聚类，boss死活不让，于是就没做这个了。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

123 4 5 6 / 6 页下一页

返回列表

Chinaunix › 论坛 › 程序设计 › Linux环境编程 › 互联网文本处理挑战巨大中文分词系统设计如何面对？

互联网文本处理挑战巨大 中文分词系统设计如何面对？ [复制链接]

互联网文本处理挑战巨大中文分词系统设计如何面对？ [复制链接]