免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 3340 | 回复: 11
打印 上一主题 下一主题

有在lucene1.3/1.4的同学帮忙测试一下 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2006-08-22 21:40 |只看该作者 |倒序浏览
使用ChineseAnalyzer,内容为 "中华人民共和国"

搜 "中和" 或 "民华" 能不能搜到



下面是 ChineseAnalyzer 的作者写的,应该是搜得到,但我用 lucene 2.0 ,把顺序调乱就搜不到

/**
* Title: ChineseTokenizer
* Description: Extract tokens from the Stream using Character.getType()
*              Rule: A Chinese character as a single token
* Copyright:   Copyright (c) 2001
* Company:
*
* The difference between thr ChineseTokenizer and the
* CJKTokenizer (id=23545) is that they have different
* token parsing logic.
*
* Let me use an example. If having a Chinese text
* "C1C2C3C4" to be indexed, the tokens returned from the
* ChineseTokenizer are C1, C2, C3, C4. And the tokens
* returned from the CJKTokenizer are C1C2, C2C3, C3C4.
*
* Therefore the index the CJKTokenizer created is much
* larger.
*
* The problem is that when searching for C1, C1C2, C1C3,
* C4C2, C1C2C3 ... the ChineseTokenizer works, but the
* CJKTokenizer will not work.
*
* @author Yiyi Sun
* @version 1.0
*
*/

论坛徽章:
0
2 [报告]
发表于 2006-08-24 10:51 |只看该作者
神功护体,屹立不倒

论坛徽章:
0
3 [报告]
发表于 2006-08-24 18:48 |只看该作者
我用cjk。。。搜不到。。。

要不找个新的分词把。。

论坛徽章:
0
4 [报告]
发表于 2006-08-24 22:58 |只看该作者
介绍你一个开源得分词Java程序:http://www.zbno.com/seg.jsp

论坛徽章:
0
5 [报告]
发表于 2006-08-24 23:51 |只看该作者
多谢大家,我想知道的是 WHY 不是 HOW

论坛徽章:
0
6 [报告]
发表于 2006-08-25 00:00 |只看该作者
“中华人民共和国”


不能搜到 "中和" 或 "民华" 能不能搜到。你应该可以搜到 “中华”“华人” “人民” “民共”。。。。等等

论坛徽章:
0
7 [报告]
发表于 2006-08-25 01:49 |只看该作者
你说的是二元切词的方式,我说的是ChineseAnalyzer

论坛徽章:
0
8 [报告]
发表于 2006-08-25 02:44 |只看该作者
你的ChineseTokenizer里使用二元切词的方式的ChineseTokenizer, 你要的其实是一元的,
建议你用下面那个ChineseTokenizer,那是One Chinese character one single token,这样你可以搜到"中和" 或 "民华"。


http://www.docjar.com/html/api/o ... eAnalyzer.java.html

http://www.docjar.com/html/api/o ... Tokenizer.java.html

http://www.docjar.com/html/api/o ... eseFilter.java.html

论坛徽章:
0
9 [报告]
发表于 2006-08-25 06:50 |只看该作者
首先感谢 itlaomao 热情的回复,但可否花2分钟将 1 楼的帖子再理解一遍。。。

论坛徽章:
0
10 [报告]
发表于 2006-08-27 14:46 |只看该作者
搞出来了通知我一下,放弃也说下。

谢谢。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP