免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: hightman

[下载] php版简易中文分词代码及词典(新加cscwsd) [复制链接]

论坛徽章:
0
发表于 2005-11-22 17:15 |显示全部楼层
很好很好。
对分词没有什么研究,只是看了一些资料。有没有考虑逆向最大匹配分词法。感觉逆序的方法比顺序精确度要高一点点。

另外,长词的切分是个问题。比如:“软件工程” 不切分成“软件”,“工程”,感觉要好些。

论坛徽章:
0
发表于 2005-11-22 17:27 |显示全部楼层
逆向匹配的话对消岐比较难作二级比较, 只能依靠逆向的先天优势.


  1. 软件工程学 是 一 门 计算机 相关 的 学科
  2. ________

  3. 基本 功能 :   根据 字典 分词 ( 自制 字典 :   155443 词 条 , 正向 最大 二级 最小 词 频 比较 ) 、 姓名 / 数字 年代 智能 辨认
复制代码

[ 本帖最后由 hightman 于 2005-11-22 17:29 编辑 ]

论坛徽章:
0
发表于 2005-11-22 19:10 |显示全部楼层
支持一下,这种基础类的工作在国内很难有人能静下心来做了

论坛徽章:
0
发表于 2005-11-22 20:04 |显示全部楼层
原帖由 litie123 于 2005-11-22 19:10 发表
支持一下,这种基础类的工作在国内很难有人能静下心来做了


静下心?研究生课程中有一专门研究切词的....@#$%

论坛徽章:
0
发表于 2005-11-22 20:06 |显示全部楼层
原帖由 wobushiwo 于 2005-11-22 20:04 发表


静下心?研究生课程中有一专门研究切词的....@#$%


那个是算法.............

这个是字典,性质不一样的

论坛徽章:
0
发表于 2005-11-22 20:15 |显示全部楼层
原帖由 wobushiwo 于 2005-11-22 20:04 发表


静下心?研究生课程中有一专门研究切词的....@#$%



研究生不是人?
他们能研究,咱为什么就不能研究

论坛徽章:
0
发表于 2005-11-22 20:23 |显示全部楼层
天啊,难道我来自火星...

litie123说没人做这

我说有人做这,并没有褒贬的意思

论坛徽章:
0
发表于 2005-11-22 20:29 |显示全部楼层
原帖由 wobushiwo 于 2005-11-22 20:23 发表
天啊,难道我来自火星...

litie123说没人做这

我说有人做这,并没有褒贬的意思


论坛徽章:
0
发表于 2005-11-22 23:42 |显示全部楼层
哪位大哥能说说这那么把哪个db后缀的字典,转为mysql?
google了半天,找不到资料

论坛徽章:
0
发表于 2005-11-22 23:45 |显示全部楼层
原帖由 dianker 于 2005-11-22 23:42 发表
哪位大哥能说说这那么把哪个db后缀的字典,转为mysql?
google了半天,找不到资料


把如下代码存成 mk_sql.php 放在 dict.db 所在的目录下, 在命令行模式下执行
1. php[.exe] mk_sqll.php > cwords.sql
2. 创建名为 (dict) 的 mysql 数据表, 包含三个字段 (id, key, value) [其中id为自增主键]
3. 将生成的 cwords.sql 导入   


  1. <?php
  2. // xxx
  3. $db = dba_open("dict.db", "r", "gdbm");
  4. if ($key = dba_firstkey($db))
  5. {
  6.         do {
  7.                 $value = dba_fetch($key, $db);
  8.                 echo "INSERT INTO dict VALUES ('', '$key', '$value');rn";
  9.         }
  10.         while ($key = dba_nextkey($db));
  11. }
  12. dba_close($db);
  13. ?>
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP