论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2006-02-16 20:17 |只看该作者 |倒序浏览

词库的内容是:
文件
文字
文法
文章
.
.
.

我的初步想法是把词库全部放在associative arrays中:
open FILE,"Dic.txt";
for(<FILE>){
$dic{$_}++;
}

接下是文件内容的比对了...
想请教有无perl的source code可参考,谢谢!

文库|博客

Aaron.Gao

白手起家

论坛徽章:: 0

2楼 [报告]

发表于 2006-02-17 12:31 |只看该作者

什么是词库啊配置文件吗?

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

riverfor

白手起家

论坛徽章:: 0

3楼 [报告]

发表于 2006-02-17 12:40 |只看该作者

原帖由 kleenrite33 于 2006-2-16 20:17 发表
词库的内容是:
文件
文字
文法
文章
.
.
.

我的初步想法是把词库全部放在associative arrays中:
open FILE,"Dic.txt";
for(<FILE>){
$dic{$_}++;
}

接下是文件内容的比对了 ...

相关GB2312编码知识:
GB2312(1980年)一共收录了7445个字符，包括6763个汉字和682个其它符号。汉字区的内码范围高字节从B0-F7，低字节从A1-FE，占用的码位是72*94=6768。其中有 5个空位是D7FA-D7FE。

词库应该可以转化(人工或者写程序)一下,将多行转成一行正则表达式能够表达出来的，
如上述几行可转话为
"\xce\xc4[\xbc\xf3\xd7\xd6]{2}"...
"文[件字]{2}"...

然后根据文后面可搭配的字的变化范围，这样处理起来应该会更快吧...

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

返回列表

Chinaunix › 论坛 › 程序设计 › Perl › 请教, 使用词库做中文断词

请教, 使用词库做中文断词 [复制链接]