Êý¾ÝÍÚ¾òÖ®·ÖÀà£¨kNNËã·¨µÄÃèÊö¼°Ê¹ÓÃ£©

cu_Cbear ·¢±íÓÚ 2011-03-30 16:04

Êý¾ÝÍÚ¾òÖ®·ÖÀà£¨kNNËã·¨µÄÃèÊö¼°Ê¹ÓÃ£©

kNNËã·¨¼ò½é£º
kNN(k Nearest Neighbors)Ëã·¨ÓÖ½Ðk×îÁÙ½ü·½·¨£¬ ×ÜÌåÀ´ËµkNNËã·¨ÊÇÏà¶Ô±È½ÏÈÝÒ×Àí½âµÄËã·¨Ö®Ò»£¬¼ÙÉèÃ¿Ò»¸öÀà°üº¬¶à¸öÑù±¾Êý¾Ý£¬¶øÇÒÃ¿¸öÊý¾Ý¶¼ÓÐÒ»¸öÎ¨Ò»µÄÀà±ê¼Ç±íÊ¾ÕâÐ©Ñù±¾ÊÇÊôÓÚÄÄÒ»¸ö·ÖÀà£¬ kNN¾ÍÊÇ¼ÆËãÃ¿¸öÑù±¾Êý¾Ýµ½´ý·ÖÀàÊý¾ÝµÄ¾àÀë£¬È¡ºÍ´ý·ÖÀàÊý¾Ý×î½üµÄk¸÷Ñù±¾Êý¾Ý£¬ÄÇÃ´Õâ¸ök¸öÑù±¾Êý¾ÝÖÐÄÄ¸öÀà±ðµÄÑù±¾Êý¾ÝÕ¼¶àÊý£¬Ôò´ý·ÖÀàÊý¾Ý¾ÍÊôÓÚ¸ÃÀà±ð¡£

»ùÓÚkNNËã·¨µÄË¼Ïë£¬ÎÒÃÇ±ØÐëÕÒ³öÊ¹ÓÃ¸ÃËã·¨µÄÍ»ÆÆµã£¬±¾ÎÄµÄÄ¿µÄÊÇÊ¹ÓÃkNNËã·¨¶ÔÎÄ±¾½øÐÐ·ÖÀà£¬ÄÇÃ´ºÍÖ®Ç°µÄÎÄÕÂÒ»Ñù£¬¹Ø¼ü»¹ÊÇÏîÏòÁ¿µÄ±È½ÏÎÊÌâ£¬Ö®Ç°µÄÎÄÕÂÖÐµÄ·ÖÀà´úÂë½öÊ¹ÓÃµÄ·´ÓàÏÒÀ´Æ¥ÅäÏîÏòÁ¿£¬ÕÒµ½¹Ø¼üµÄ¡°¾àÀë¡±£¬ÄÇÃ´ÎÒÃÇ¿ÉÒÔÊÔÏë·´ÓàÏÒÖ®ºóÊ¹ÓÃkNNµÄ½á¹ûÈçºÎ¡£

²¹³äÉÏÒ»ÆªÎÄÕÂÖÐÃ»ÓÐÏêÏ¸½²½âµÄ·´ÓàÏÒÆ¥ÅäÎÊÌâ£º
LuceneÖÐÓÐÒ»¸öterm vectorsÕâ¸ö¶«¶«£¬Ëü±íÊ¾¸Ã´Ê»ãµ¥ÔªÔÚÎÄµµÖÐ³öÏÖµÄ´ÎÊý£¬±ÈÈçËµÕâÀïÓÐÁ½ÆªÎÄÕÂ£¬ÕâÁ½ÆªÎÄÕÂÖÐ¶¼ÓÐhibernateºÍspringÕâÁ½¸öµ¥´Ê£¬ÔÚµÚÒ»ÆªÎÄÕÂÖÐhibernate³öÏÖÁË10´Î£¬spring³öÏÖÁË20´Î£¬µÚ¶þÆªÎÄÕÂÖÐhibernate³öÏÖ15´Î£¬spring³öÏÖ10´Î£¬ÄÇÃ´¶ÔµÚÒ»ÆªÎÄÕÂÀ´ËµÓÐÁ½¸öÏîÏòÁ¿£¬·Ö±ðÊÇhibernate:10,spring:20£¬µÚ¶þÆªÎÄÕÂÀàËÆ£¬hibernate:15,spring:10¡£È»ºóÎÒÃÇ¾Í¿ÉÒÔÔÚ¶þÎ¬¿Õ¼äµÄx£¬y×éÉÏ±íÊ¾³öÀ´£¬ÈçÍ¼£º

ÕâÑù¿´À´ÎÒÃÇÆäÊµÊÇÒªµÃµ½Á½ÕßÖ®¼äµÄ¼Ð½Ç£¬¼ÆËãÁ½¸öÏòÁ¿Ö®¼ä¼Ð½ÇµÄ¹«Ê½ÎªA*B/||A||*||B||¡£°´ÕÕÕâ¸öÔÀíÎÒÃÇ¾Í¿ÉÒÔµÃµ½ÐÂÎÄÕÂºÍÑù±¾ÎÄÕÂÖ®¼äµÄ¾àÀë£¬´úÂëÈçÏÂ£¬Õâ¸ö·Ý´úÂëÔÚµÚÒ»ÆªÎÄÕÂÌá¹©µÄ´úÂëÏÂÔØÖÐ¡£

Java´úÂëpublic double caculateVectorSpace(Map<String, Integer> articleVectorMap, Map<String, Integer> classVectorMap) {
if (articleVectorMap == null || classVectorMap == null) {
if (logger.isDebugEnabled()) {
logger.debug("itemVectorMap or classVectorMap is null");
}

return 20;
}

int dotItem = 0;
double denominatorOne = 0;
double denominatorTwo = 0;

for (Entry<String, Integer> entry : articleVectorMap.entrySet()) {
String word = entry.getKey();
double categoryWordFreq = 0;
double articleWordFreq = 0;

if (classVectorMap.containsKey(word)) {
categoryWordFreq = classVectorMap.get(word).intValue() / classVectorMap.size();
articleWordFreq = entry.getValue().intValue() / articleVectorMap.size();
}

dotItem += categoryWordFreq * articleWordFreq;
denominatorOne += categoryWordFreq * categoryWordFreq;
denominatorTwo += articleWordFreq * articleWordFreq;
}

double denominator = Math.sqrt(denominatorOne) * Math.sqrt(denominatorTwo);

double ratio =dotItem / denominator;

return Math.acos(ratio);
}½Ó×Å¸ù¾ÝkNNµÄÔÀí£¬ÎÒÃÇ¼ÇÂ¼ÏÂ´ý·ÖÀàÊý¾ÝºÍÑù±¾Êý¾ÝµÄ¾àÀë£¬¶ÔÃ¿Ò»¸ö´ý·ÖÀàÊý¾Ý¶¼ÕÒ³ök¸ö¾àÀë×îÐ¡µÄÑù±¾£¬×îºóÅÐ¶ÏÕâÐ©Ñù±¾ËùÔÚµÄ·ÖÀà£¬ ÕâÐ©Ñù±¾ËùÔÚµÄ·ÖÀà¾ÍÊÇ¸ÃÐÂÊý¾ÝÓ¦¸ÃËùÔÚµÄ·ÖÀà¡£

ÄÇÃ´¸ù¾ÝÒÔÉÏµÄÃèÊö£¬ÎÒ°Ñ½áºÏÊ¹ÓÃ·´ÓàÏÒÆ¥ÅäºÍkNN½áºÏµÄ¹ý³Ì·Ö³ÉÒÔÏÂ¼¸¸ö²½Öè£º
1£¬ ¼ÆËã³öÑù±¾Êý¾ÝºÍ´ý·ÖÀàÊý¾ÝµÄ¾àÀë
2£¬ Îª´ý·ÖÀàÊý¾ÝÑ¡Ôñk¸öÓëÆä¾àÀë×îÐ¡µÄÑù±¾
3£¬ Í³¼Æ³ök¸öÑù±¾ÖÐ´ó¶àÊýÑù±¾ËùÊôµÄ·ÖÀà
4£¬ Õâ¸ö·ÖÀà¾ÍÊÇ´ý·ÖÀàÊý¾ÝËùÊôµÄ·ÖÀà

¸ù¾ÝÉÏÃæµÄ²½Öè£¬ÎÒÐ´³öÁËÒÔÏÂ´úÂë£¬ÕâÐ©´úÂë¶¼°üº¬ÔÚÌá¹©ÏÂÔØµÄ´úÂëÀï£¬ÎÒ½«²»¶ÏµÄÀ©³äÕâÐ©´úÂë£¬¿ÉÒÔËµÒ»ÏÂ´úÂëÊÇÊ¹ÓÃkNN±È½ÏºËÐÄµÄ´úÂë¡£

MatchConditionÕâ¸öÀà°üÀ¨£¬´ý·ÖÀàÊý¾Ý£¬Ñù±¾Êý¾Ý£¬Ñù±¾Àà±ð£¬ºÍ¾àÀë¡£

Java´úÂëprotected Map<String, List<MatchCondition>> analyse(Map<String, Map<String, Integer>> articleVectorMap, Map<String, Map<String, Integer>> categoryVectorMap) {

Map<String, List<MatchCondition>> result = new HashMap<String, List<MatchCondition>>();

for (Entry<String, Map<String, Integer>> categoryEntry : categoryVectorMap.entrySet()) {

for (Entry<String, Map<String, Integer>> itemEntry : articleVectorMap.entrySet()) {
double acos = caculateVector(itemEntry.getValue(), filterVectorMap(categoryEntry.getValue()));
if (acos < vectorGene) {
if (result.get(itemEntry.getKey()) != null) {
List<MatchCondition> list = result.get(itemEntry.getKey());

if (list.size() < kNum) {
list.add(new MatchCondition(itemEntry.getKey(), categoryEntry.getKey(), acos));
} else {
if (list.size() == kNum) {
Collections.sort(list, new MatchConditionComparator());
}

int n = 0;
for (MatchCondition condition : list) {
if (acos < condition.getAcos()) {
list.set(n, new MatchCondition(itemEntry.getKey(), categoryEntry.getKey(), acos));
}
n++;
}
}
} else {
List<MatchCondition> list = new LinkedList<MatchCondition>();
list.add(new MatchCondition(itemEntry.getKey(), categoryEntry.getKey(), acos));
result.put(itemEntry.getKey(), list);
}

}
}

}

return result;
}ËùÓÐµÄ´úÂëÔÚ±¾ÎÄÌá¹©µÄÏÂÔØ´úÂëÖÐ£¬ÒÔµÚÒ»ÆªÎÄÕÂÖÐµÄ²âÊÔÊý¾ÝÔËÐÐ²âÊÔ£¬ËùµÃµÄ½á¹ûÎª£º
2008-02-23 14:04:15,646 DEBUG ArticleKNNClassifierImpl:81 - ---------------- The article id is 3
2008-02-23 14:04:15,646 DEBUG ArticleKNNClassifierImpl:83 - categoryId : a | count : 1
2008-02-23 14:04:15,646 DEBUG ArticleKNNClassifierImpl:81 - ---------------- The article id is 2
2008-02-23 14:04:15,646 DEBUG ArticleKNNClassifierImpl:83 - categoryId : b | count : 2
2008-02-23 14:04:15,646 DEBUG ArticleKNNClassifierImpl:83 - categoryId : a | count : 3
2008-02-23 14:04:15,656 DEBUG ArticleKNNClassifierImpl:81 - ---------------- The article id is 1
2008-02-23 14:04:15,656 DEBUG ArticleKNNClassifierImpl:83 - categoryId : b | count : 1
2008-02-23 14:04:15,656 DEBUG ArticleKNNClassifierImpl:83 - categoryId : a | count : 4
2008-02-23 14:04:15,656 DEBUG ArticleKNNClassifierImpl:81 - ---------------- The article id is 5
2008-02-23 14:04:15,656 DEBUG ArticleKNNClassifierImpl:83 - categoryId : b | count : 1
2008-02-23 14:04:15,656 DEBUG ArticleKNNClassifierImpl:83 - categoryId : a | count : 4
2008-02-23 14:04:15,656 DEBUG ArticleKNNClassifierImpl:81 - ---------------- The article id is 4
2008-02-23 14:04:15,656 DEBUG ArticleKNNClassifierImpl:83 - categoryId : b | count : 3
2008-02-23 14:04:15,656 DEBUG ArticleKNNClassifierImpl:83 - categoryId : a | count : 2
´ÓÕâÀïÎÒÃÇ¿ÉÒÔ¿´³öarticleIdÎª2µÄÓ¦¸ÃÊôÓÚa·ÖÀà£¬articleIdÎª1µÄÒ²ÊôÓÚa·ÖÀà£¬articleIdÎª5µÄÒ²ÊôÓÚa·ÖÀà£¬articleIdÎª4µÄÊôÓÚb·ÖÀà¡£µ±È»ÆäÊµÎÒÃÇµÄÑù±¾ÊýÁ¿Ì«ÉÙÁË£¬²¢²»ÄÜËµÃ÷acos£«knn½áºÏµÄµÄÐ§¹û¡£

Ò²ÓÐÈËÌá³öÁËÒ»ÖÖ½áºÏkNN·ÖÀàÆ÷µÄ¼ÓÈ¨ÌØÕ÷ÌáÈ¡ÎÊÌâ£¬¸Ã·ÖÀàÍ¨¹ýÃ¿´ÎµÄ·ÖÀà½á¹û²»¶ÏµÄµ÷ÕûÈ¨Öµ£¬¾ßÓÐ½ÏºÃµÄ·ÖÀàÐ§¹û¡£ËùÒÔËµËäÈ»kNNËã·¨±È½Ï¼òµ¥£¬µ«ÊÇÊÂÊµÉÏÈç¹ûÊ¹ÓÃÕýÈ·£¬Ó¦¸ÃÒ²¿ÉÒÔÊÕµ½²»´íµÄÐ§¹û¡£

compare2000 ·¢±íÓÚ 2011-03-30 19:19

kankan

Ò³: [1]

Chinaunix's Archiver

Êý¾ÝÍÚ¾òÖ®·ÖÀà£¨kNNËã·¨µÄÃèÊö¼°Ê¹ÓÃ£©