免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: hightman
打印 上一主题 下一主题

[下载] php版简易中文分词代码及词典(新加cscwsd) [复制链接]

论坛徽章:
0
31 [报告]
发表于 2005-11-23 19:52 |只看该作者
非常感谢!!!

论坛徽章:
0
32 [报告]
发表于 2005-11-23 20:53 |只看该作者
原帖由 hightman 于 2005-11-23 19:42 发表


那么很可能是你没有照我说的步骤去操作:  1. 词典名称(原先是dict.db,现改为data.cdb) 改了吗,  2. db_type 改成cdb了吗

我特意在 windows 下测试了一下, 把我的结果发上来给你看看:


感谢,一直用的apache的PHP5
刚换到IIS的PHP4试了一下,确实可用的,麻烦楼主了

Image00004.jpg (59.94 KB, 下载次数: 77)

Image00004.jpg

论坛徽章:
0
33 [报告]
发表于 2005-11-27 22:24 |只看该作者
重新编写了一些细节处理. 并增加了一些 debug信息, 演示时可以勾选 verbose , 观看切词的具体过程. :p

原先对于复合词的切分在消岐上出现了额外的bug. 真是抱歉.

完整页面介绍
直接下载链接: cword_v2.zip
在线测试链接(新)
换了新的测试地址, 没想到跑起来比家里的老破机快了三倍左右 汗
http://php.twomice.net/~hightman/cword/

[ 本帖最后由 hightman 于 2005-11-27 23:52 编辑 ]

论坛徽章:
0
34 [报告]
发表于 2005-11-27 23:25 |只看该作者
楼主真是大好人啊!

持续关注ing!!!!!


就像前面朋友说的,能静下心做基础工作的人在国内太少了。

论坛徽章:
0
35 [报告]
发表于 2005-11-28 15:20 |只看该作者
这个结果是正确的吗?

贝聿铭 , 本 世 纪最重 要 的 建 筑 师 之 一 , 在 他 卓越建 筑 的 背 后 , 贯 穿 着 一 条 神 秘 的
线 , 这 就 是 为 贝氏 所 独 有 的 设 计 方法 。

设 计 中 的 人 员 分 工 :

        在 美 国 , 社 会 分 工 很 细 , 每 方面 的 工 作 都 会 有 专 门 的 人 员 从 事 , 基 本 没 有 中 国 这
种 建 筑 师 身 兼 多 职 的 情 况 。 建 筑 师 事 务 所 只 负 责 把 握 大 的 方向 , 以 及 总 体 协 调 工 作 ,
至 于结构 与 设 备 都 交 由 专 门 的 事 务 所 去 解决 。 设 备 工 程师 的 分 工 远 比 中 国 的 复 杂 , 建
筑 师 甚 至 可 以 向 专 门 的 灯 光 工 程师咨 询 各 种 灯 光 的 艺 术 效 果 , 这 是 中 国 的 电 气 工 程师
远 远 办 不 到 的 。 就 连表达 建 筑 师 意 图 的 设 计 说 明 , 在 美 国 也 交 由 专 门 从 事 设 计 说 明业
务 的 公 司 去 完 成 。 在 Internet 高度发 展 的 今 天 , 这 样 做 丝 毫 不 会 妨 碍 各 专 业 之 间 的 配
合 , 图 纸 通 过 互 联 网 相 互 传 输 , 就 如 同 在 同 一 单位工 作 一 样 。
        在 中 银大厦 的 设 计 中 , 整 个 设 计 由 贝氏建 筑 师 事 务 所

论坛徽章:
0
36 [报告]
发表于 2005-11-28 15:48 |只看该作者
原帖由 xuzuning 于 2005-11-28 15:20 发表
这个结果是正确的吗?

贝聿铭 , 本 世 纪最重 要 的 建 筑 师 之 一 , 在 他 卓越建 筑 的 背 后 , 贯 穿 着 一 条 神 秘 的
线 , 这 就 是 为 贝氏 所 独 有 的 设 计 方法 。

设 计 中 的 人 员 分 ...


你这个结果怎么搞出来的? 肯定是错的. 是不是没有加载词典或出错?

论坛徽章:
0
37 [报告]
发表于 2005-11-29 16:13 |只看该作者
加油。hightman……

论坛徽章:
0
38 [报告]
发表于 2005-12-03 21:05 |只看该作者
hightman,那个词频代表什么意思?
我取出前十个词,可以看到key,但是词频为空,不知是否正常?用的是cdb那个词典
洗衣女工
陈炯
海滨风景区
小提琴
项目特征函
室内气流
适配
桑巴
大权旁
卵黄生
留言板

论坛徽章:
0
39 [报告]
发表于 2005-12-03 21:09 |只看该作者
回 38楼,请使用 php4 , 在 php5下经多位网友测试读取 cdb库时均有问题.

论坛徽章:
0
40 [报告]
发表于 2005-12-03 21:14 |只看该作者
谢谢您,hightman
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP