论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2006-08-22 21:40 |只看该作者 |倒序浏览

使用ChineseAnalyzer，内容为 "中华人民共和国"

搜 "中和" 或 "民华" 能不能搜到

下面是 ChineseAnalyzer 的作者写的，应该是搜得到，但我用 lucene 2.0 ，把顺序调乱就搜不到

/**
* Title: ChineseTokenizer
* Description: Extract tokens from the Stream using Character.getType()
* Rule: A Chinese character as a single token
* Copyright: Copyright (c) 2001
* Company:
*
* The difference between thr ChineseTokenizer and the
* CJKTokenizer (id=23545) is that they have different
* token parsing logic.
*
* Let me use an example. If having a Chinese text
* "C1C2C3C4" to be indexed, the tokens returned from the
* ChineseTokenizer are C1, C2, C3, C4. And the tokens
* returned from the CJKTokenizer are C1C2, C2C3, C3C4.
*
* Therefore the index the CJKTokenizer created is much
* larger.
*
* The problem is that when searching for C1, C1C2, C1C3,
* C4C2, C1C2C3 ... the ChineseTokenizer works, but the
* CJKTokenizer will not work.
*
* @author Yiyi Sun
* @version 1.0
*
*/

文库|博客

wobushiwo

丰衣足食

论坛徽章:: 0

2楼 [报告]

发表于 2006-08-24 10:51 |只看该作者

神功护体，屹立不倒

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

james.liu

家境小康

论坛徽章:: 0

3楼 [报告]

发表于 2006-08-24 18:48 |只看该作者

我用cjk。。。搜不到。。。

要不找个新的分词把。。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

itlaomao

白手起家

论坛徽章:: 0

4楼 [报告]

发表于 2006-08-24 22:58 |只看该作者

介绍你一个开源得分词Java程序：http://www.zbno.com/seg.jsp

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

wobushiwo

丰衣足食

论坛徽章:: 0

5楼 [报告]

发表于 2006-08-24 23:51 |只看该作者

多谢大家，我想知道的是 WHY 不是 HOW

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

itlaomao

白手起家

论坛徽章:: 0

6楼 [报告]

发表于 2006-08-25 00:00 |只看该作者

“中华人民共和国”

不能搜到 "中和" 或 "民华" 能不能搜到。你应该可以搜到 “中华”“华人” “人民” “民共”。。。。等等

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

wobushiwo

丰衣足食

论坛徽章:: 0

7楼 [报告]

发表于 2006-08-25 01:49 |只看该作者

你说的是二元切词的方式，我说的是ChineseAnalyzer

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

itlaomao

白手起家

论坛徽章:: 0

8楼 [报告]

发表于 2006-08-25 02:44 |只看该作者

你的ChineseTokenizer里使用二元切词的方式的ChineseTokenizer，你要的其实是一元的，
建议你用下面那个ChineseTokenizer，那是One Chinese character one single token，这样你可以搜到"中和" 或 "民华"。

http://www.docjar.com/html/api/o ... eAnalyzer.java.html

http://www.docjar.com/html/api/o ... Tokenizer.java.html

http://www.docjar.com/html/api/o ... eseFilter.java.html