免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1748 | 回复: 2
打印 上一主题 下一主题

请教, 使用词库做中文断词 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2006-02-16 20:17 |只看该作者 |倒序浏览
词库的内容是:
文件
文字
文法
文章
.
.
.

我的初步想法是把词库全部放在associative arrays中:
open FILE,"Dic.txt";
for(<FILE>){
    $dic{$_}++;
}

接下是文件内容的比对了...
想请教有无perl的source code可参考,谢谢!

论坛徽章:
0
2 [报告]
发表于 2006-02-17 12:31 |只看该作者
什么是词库啊 配置文件吗?

论坛徽章:
0
3 [报告]
发表于 2006-02-17 12:40 |只看该作者
原帖由 kleenrite33 于 2006-2-16 20:17 发表
词库的内容是:
文件
文字
文法
文章
.
.
.

我的初步想法是把词库全部放在associative arrays中:
open FILE,"Dic.txt";
for(<FILE>){
    $dic{$_}++;
}

接下是文件内容的比对了 ...


相关GB2312编码知识:
GB2312(1980年)一共收录了7445个字符,包括6763个汉字和682个其它符号。汉字 区的内码范围高字节从B0-F7,低字节从A1-FE,占用的码位是72*94=6768。其中有 5个空位是D7FA-D7FE。

词库应该可以转化(人工或者写程序)一下,将多行转成一行正则表达式能够表达出来的,
如上述几行可转话为
"\xce\xc4[\xbc\xf3\xd7\xd6]{2}"...
"文[件字]{2}"...

然后根据文后面可搭配的字的变化范围,这样处理起来应该会更快吧...
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP