免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 15509 | 回复: 53
打印 上一主题 下一主题

互联网文本处理挑战巨大 中文分词系统设计如何面对? [复制链接]

论坛徽章:
0
1 [报告]
发表于 2012-05-28 17:26 |只看该作者


分词简介
为什么要分词?
一般人会说,因为中文句子中的词语之间没有明显的空格。这个说法正确,但是读者不应该满足于这个答案。更重要的是去思考分词有什么用?怎么使用分词结果?
1. 分词对于中文自然语言处理应用并非必需的。
本人曾开发了一个基于正则表达式的短文本分类系统,没有考虑词语边界的问题,因而也就不需要中文分词。有以下理由:
a. 不考虑分词时,程序就格外简单。
b. 在口语化很强(错别字较多),特定领域的文本上(领域词汇很多),分词所带来的收益和分词错误所带来的损失往往相互抵消了。
c. 基于篇章的分类,因为单个词语边界的错误带来的影响不大。
2. 分词粒度大小对于后期应用是很重要的。比如“北京饭店”这个词语,后期应用往往既需要知道“北京饭店”作为一个整体表示一个专有名词,它隐含了地名“北京”和机构的性质“饭店”。
为了满足这种需求,有些系统可能会同时输出多种粒度的分词结果。通常,为了不至于过分复杂,只设定两种粒度。
实际上,如果将单个汉字作为词语输出,也可以看成是一种特殊的分词粒度。在基于机器学习的中文文本分类系统中,不进行分词,单纯基于汉字来进行文本分类,往往也能取得不错的效果。实际上,同时将词语和汉字作为分类特征,往往能取得更好的分类结果。

前沿概况
单一的分词方法方面,基于字标注的条件随机场模型能较好地解决未登录词问题,是目前比较领先的单一分词方法。实际的中文分词系统会综合采用多种分词方法。国内比较有名的中文分词系统是中国科学院计算机研究所张华平、刘群研制的CITCLAS分词词性标注一体化系统。

论坛徽章:
0
2 [报告]
发表于 2012-05-28 17:28 |只看该作者
本帖最后由 huihui_2012 于 2012-06-16 12:27 编辑

一种简单有效的基于字串成词概率的分词方法(WRSeg)
该方法基于独创的字串成词概率,十分简单有效。突出创新点:
(1)        字串成词概率将对词语歧义,未登录词,外部词典导入的处理概括到一个单一的指标中。导致算法十分简洁。
(2)        大量二元语法的字串成词概率可以用一元概率来表示,因此节省了存储空间。
因为算法十分简洁,因此非常便于新手入门学习,也便于在一些小规模系统中进行应用。
这个分词系统在实践中已经多次运用。

论坛徽章:
1
天蝎座
日期:2013-12-06 18:23:58
3 [报告]
发表于 2012-05-28 17:31 |只看该作者
中文分词的难点在于如何准确而又快速地进行分词,中文太博大精神了, 下雨天留客天留我不留 ,这句话怎么理解?计算机又是如何理解的呢?这就要看分词系统的本事了

论坛徽章:
5
亥猪
日期:2013-10-15 13:41:04CU十二周年纪念徽章
日期:2013-10-24 15:41:34申猴
日期:2013-10-28 10:55:45辰龙
日期:2013-10-31 13:29:29丑牛
日期:2014-02-14 11:25:54
4 [报告]
发表于 2012-05-28 17:41 |只看该作者
回复 3# huihui_2012


    可否举个例子说明下 咱好奇这个算法~~~~

论坛徽章:
4
CU十二周年纪念徽章
日期:2013-10-24 15:41:34摩羯座
日期:2013-12-24 13:05:332015亚冠之西悉尼流浪者
日期:2015-10-09 16:03:47fulanqi
日期:2016-06-17 17:54:25
5 [报告]
发表于 2012-05-28 18:09 |只看该作者
中文分词:一个丰富的基础词库应该很重要吧~

论坛徽章:
59
2015七夕节徽章
日期:2015-08-24 11:17:25ChinaUnix专家徽章
日期:2015-07-20 09:19:30每周论坛发贴之星
日期:2015-07-20 09:19:42ChinaUnix元老
日期:2015-07-20 11:04:38荣誉版主
日期:2015-07-20 11:05:19巳蛇
日期:2015-07-20 11:05:26CU十二周年纪念徽章
日期:2015-07-20 11:05:27IT运维版块每日发帖之星
日期:2015-07-20 11:05:34操作系统版块每日发帖之星
日期:2015-07-20 11:05:36程序设计版块每日发帖之星
日期:2015-07-20 11:05:40数据库技术版块每日发帖之星
日期:2015-07-20 11:05:432015年辞旧岁徽章
日期:2015-07-20 11:05:44
6 [报告]
发表于 2012-05-28 19:23 |只看该作者
查看。查看。

论坛徽章:
0
7 [报告]
发表于 2012-05-28 20:03 |只看该作者
训练算法
基于字串成词概率(WR)的全切分
本分词方法的要点在于找一条具有最大概率的切分路径。对于一个待分词句子,有多种切分可能。如果一个句子的长度为n,则理论上有2^(n-1)种可能性。这是因为n个字的句子中间有(n-1)个间隔,每个间隔都有切开和不切开两种选择,不同的选择将导致 2^(n-1)种不同的切分路径。
比如对“它是狗”,就会有4种可能的切分路径:
它/是/狗
它是/狗
它/是狗
它是狗
如果只考虑一元语法,那么对于每种切分形式的概率,可以计算如下。我们将选择切分概率最大的结果作为分词结果。

Pr("它是/狗“|”它是狗“)是指句子”它是狗“被切分为”它是/狗“的概率,这里WR是成词概率。在本文中,对于语料出现的字串S,其成词概率 的计算方法如下:

其中,count(S)是字串S在语料中出现的次数, wordcount(S)是S 在语料作为独立完整的词语出现的次数。假设语料如下(空格表示词语之间的间隔):
我 是 研究生 , 研究 生物 , 一 个 人 认真 工作 , 从不 讲求 个人 利益 。

在这个句子中,字串“研究”出现了2次,在“研究 生物”中作为完整独立的词语出现了1次,在“研究生”中作为词语内部的子串出现了1次。同样,字串“个人”作为完整独立的词语只出现了1次,但“一 个 人”作为两个相邻词语合并成的字串出现了1次,因此“个人”作为字串一共出现了2次。
容易得知, WR值高的字串更容易作为词语出现,因此在中文分词时产生歧义的可能性要小。
上面用的是一元语法,因而没有考虑相邻词语之间的相关性。为此,我们要引入二元语法,此时,不同切分路径的概率计算如下:

其中<S>是一个虚设的词语,我们假定在每个句子的前面都有这么一个词语。基于WR的二元语法概率定义如下:


其中,count(S|P) 是词语P后面相邻字串S的次数, wordcount(S|P)是指词语P后面相邻词语S的次数。
值得说明的是,很多情况下 WR(S)=WR(S|P),也就使得其实不用为所有出现的(P,S)二元组保存成词概率WR(S|P) ,而只需用WR(S) 来替代 即可。这可以大大节省存储空间。



回复 5# lkk_super


   

论坛徽章:
1
天蝎座
日期:2013-12-06 18:23:58
8 [报告]
发表于 2012-05-28 21:44 |只看该作者
回复 6# hbsycw


    这是一种方法,就是通过已有的词库来分析要分词的一句话,不过这个有局限性,分词结果很大程度上要依赖这个词库的准确性和及时性,流行语基本就被完爆了。还有就是通过大量的文本学习,来丰富自己的词库,这样才会更有活力。 比如搜狗拼音经常会提示一些最新热词,这都是根据情景造出来的,就像人一样,不断丰富自己的大脑,才能见文之意

论坛徽章:
4
CU大牛徽章
日期:2013-03-13 15:29:07CU大牛徽章
日期:2013-03-13 15:29:49CU大牛徽章
日期:2013-03-13 15:30:192015年迎新春徽章
日期:2015-03-04 09:57:09
9 [报告]
发表于 2012-05-28 22:29 |只看该作者
我勒个去,这个好高深……

论坛徽章:
0
10 [报告]
发表于 2012-05-29 08:49 |只看该作者
回复 1# crazyhadoop


    这个的基础应该是hadoop 处理
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP