免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 4181 | 回复: 17
打印 上一主题 下一主题

求一个现成的字典 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2009-04-20 16:53 |只看该作者 |倒序浏览
遇到个麻烦,需要验证一个现成的字符串,比如 xyz, 是否是一个有意义的单词,该怎么做?

我的想法是,在一个现成的字典里面去查,但是我没有做过相关的东西,不知道字典是什么结构。

谁能指点一下,或者,能够给个更好的方案?

论坛徽章:
0
2 [报告]
发表于 2009-04-20 16:59 |只看该作者
有意义的单词,这个怎么定义?xyz是只需要从头开始匹配还是中间匹配也可以呢?
trie树这种数据结构似乎可以做这种事情.

论坛徽章:
0
3 [报告]
发表于 2009-04-20 17:01 |只看该作者
拆分的事我自己来做,问题就是   xyz 这整个word,是否有意义,如何判断?
我猜想是查字典吧,就是不知道那些字典的格式是怎么样的。

论坛徽章:
0
4 [报告]
发表于 2009-04-20 17:08 |只看该作者
我下了一个 stardict用的字典,里面有三个文件: .dict.dz, .idex, . ifo,前两个内容不知道该怎么分析。

论坛徽章:
0
5 [报告]
发表于 2009-04-20 17:11 |只看该作者
stardict不是开源的嘛

硬着头皮看看人家是怎么写的吧

论坛徽章:
0
6 [报告]
发表于 2009-04-20 17:25 |只看该作者
时间上来不及。

论坛徽章:
0
7 [报告]
发表于 2009-04-20 17:28 |只看该作者
/usr/share/dict/web2
/usr/share/dict/web2a
/usr/share/dict/propernames
这才叫现成。



[ 本帖最后由 langue 于 2009-4-20 17:30 编辑 ]

论坛徽章:
0
8 [报告]
发表于 2009-04-20 17:39 |只看该作者
用trie啊,效率很高,只是占内存.
或者对字符串hash.

当然如果数据量不大,直接匹配就可以了

论坛徽章:
0
9 [报告]
发表于 2009-04-20 19:44 |只看该作者
我想大家误解我的意思了,我现在需要一个包含了所有上万上亿单词的字典文件,或者一个能够解析现有文件格式的方法...

论坛徽章:
0
10 [报告]
发表于 2009-04-20 22:18 |只看该作者
找个txt版的英文字典 自己格式化一下变成单词固定长度且有序的字典

判断一个单词是否有意义时在文件里面用二分查找
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP