论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2009-12-22 16:34 |显示全部楼层 |倒序浏览

用lucene中的IndexSearcher查询，用默认的相关度计算器，搜索到的文档的score值全为NAN是怎么回事？用IndexSearcher.explain(q, docid)解释一下是这样的

this document's score is NaN
0.71933484 = (MATCH) sum of:
  0.4066309 = (MATCH) weight(content:甲 in 7), product of:
0.6658104 = queryWeight(content:甲), product of:
   3.454815 = idf(docFreq=401, maxDocs=4681)
   0.19271956 = queryNorm
0.61073077 = (MATCH) fieldWeight(content:甲 in 7), product of:
   2.828427 = tf(termFreq(content:甲)=

   3.454815 = idf(docFreq=401, maxDocs=4681)
   0.0625 = fieldNorm(field=content, doc=7)
  0.3127039 = (MATCH) weight(content:流 in 7), product of:
0.746121 = queryWeight(content:流), product of:
   3.8715372 = idf(docFreq=264, maxDocs=4681)
   0.19271956 = queryNorm
0.4191062 = (MATCH) fieldWeight(content:流 in 7), product of:
   1.7320508 = tf(termFreq(content:流)=3)
   3.8715372 = idf(docFreq=264, maxDocs=4681)
   0.0625 = fieldNorm(field=content, doc=7)

这是其中一个文档的结果，输出结果中最大score也是NaN,不知道出现这种情况一般是因为什么原因。我用的lucene的2.9.1版本。
谢谢大家了

文库|博客

木兰豆豆

白手起家

论坛徽章:: 0

2楼 [报告]

发表于 2009-12-25 14:01 |显示全部楼层

回复 #2 james.liu 的帖子

上面哪个是2.9.1版本的，现在换成3.0试了一下，也是NaN，这个是新的结果

Document<stored,indexed,tokenized<myTITLE:甲流病因分析> stored,indexed,tokenized<myCONTENT:随着天气越来越冷，甲型H1N1流感不仅继续蔓延，而且在北半球进入了第二次高峰，感染人数和死亡病例激增。尽管如此，很多人对甲流仍存在不少认识上的误区，对甲流病因的分析>>
NaN
0.47855338 = (MATCH) sum of:
  0.35355338 = (MATCH) weight(myTITLE:甲流 in 1), product of:
0.70710677 = queryWeight(myTITLE:甲流), product of:
   1.0 = idf(docFreq=1, maxDocs=2)
   0.70710677 = queryNorm
0.5 = (MATCH) fieldWeight(myTITLE:甲流 in 1), product of:
   1.0 = tf(termFreq(myTITLE:甲流)=1)
   1.0 = idf(docFreq=1, maxDocs=2)
   0.5 = fieldNorm(field=myTITLE, doc=1)
  0.12499999 = (MATCH) weight(myCONTENT:甲流 in 1), product of:
0.70710677 = queryWeight(myCONTENT:甲流), product of:
   1.0 = idf(docFreq=1, maxDocs=2)

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

木兰豆豆

白手起家

论坛徽章:: 0

3楼 [报告]

发表于 2009-12-25 14:07 |显示全部楼层

原帖由 james.liu 于 2009-12-24 10:41 发表
你索引什么版本创建的？

按照你列出信息，，score应该是0.71933484

现在3.0也出了。

既然是有计算出来的值，为什么我直接输出这个值的时候会输出NaN呢？
我用来检索的语句是这样的

      IndexSearcher searcher = new IndexSearcher(dir,true);


      String query = "甲流";
      String fields[] = {"myTITLE" , "myCONTENT"};
      Query q = IKQueryParser.parseMultiField(fields, query);

      TopDocs results = searcher.search(q , null , 100 , Sort.RELEVANCE);
      ScoreDoc[] sdocs = results.scoreDocs;

      for(int i =0; i< sdocs.length; i++){
        System.out.println(searcher.getIndexReader().document(sdocs.doc));
        System.out.println(sdocs.score);
        System.out.println(searcher.explain(q, sdocs.doc));
      }

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

返回列表

Chinaunix › 论坛 › 程序设计 › Java › lucene中的评分问题

lucene中的评分问题 [复制链接]

回复 #2 james.liu 的帖子