»ùÓÚRubyºÍÖÐÎÄ·Ö´ÊµÄ±´Ò¶Ë¹·´À¬»ø½â¾ö·½°¸

so_brave ·¢±íÓÚ 2011-11-24 14:11

±¾Ìû×îºóÓÉ so_brave ÓÚ 2011-11-24 14:12 ±à¼

»ùÓÚRubyºÍÖÐÎÄ·Ö´ÊµÄ±´Ò¶Ë¹·´À¬»ø½â¾ö·½°¸

±´Ò¶Ë¹¹ýÂË¼¼ÊõÊÇ·Ç³£ÓÐÐ§µÄ·´À¬»ø¼¼Êõ¡£ÔÚRubyÖÐ£¬ÓÐ¼¸¸öLibraryÊµÏÖÁË±´Ò¶Ë¹¹ýÂË£¬¿ÉÏ§µÄÊÇËüÃÇ¶¼²»Ö§³ÖÖÐÎÄ·Ö´Ê¡£¶ømmsegÔòÊÇ±È½ÏÁ÷ÐÐµÄÖÐÎÄ·Ö´Ê¼¼Êõ£¬ÔÚRuby¿ò¼ÜÏÂ£¬ÓÐrmmsegÕâ¸öLibraryÊµÏÖÁËmmseg·Ö´Ê·¨²¢×Ô´øÁË´Ê¿â£¬·Ç³£·½±ã¡£±¾ÎÄ½«ÕâÁ½ÖÖ¼¼Êõ½áºÏÔÚÒ»Æð£¬Ê¹µÃÔÚRubyÏÂ¿ÉÒÔ»ñµÃÖ§³ÖÖÐÎÄµÄ±´Ò¶Ë¹¹ýÂËÆ÷¡£

°²×°¼°ÊÔÓÃclassifier

Ê×ÏÈÀ´Í¨¹ý¼òµ¥µÄÊ¹ÓÃÀ´ÊìÏ¤Ò»ÏÂ±´Ò¶Ë¹·´À¬»øÒýÇæ£¬ÕâÀïÎÒÃÇÊ¹ÓÃµÄgem½Ð×öclassfier£¬ÏîÄ¿µØÖ·Î»ÓÚ "https://github.com/kitop/classifier":https://github.com/kitop/classifier

Ê¹ÓÃgemÃüÁî°²×°Õâ¸ölibrary£º

Bash´úÂë1.sudo gem install classifier -v=1.3.3
2.Password:
3.Successfully installed classifier-1.3.3
4.1 gem installed
5.Installing ri documentation for classifier-1.3.3...
6.Installing RDoc documentation for classifier-1.3.3...
sudo gem install classifier -v=1.3.3
Password:
Successfully installed classifier-1.3.3
1 gem installed
Installing ri documentation for classifier-1.3.3...
Installing RDoc documentation for classifier-1.3.3...ÎªÁË·½±ãËµÃ÷£¬ËùÒÔÃ÷È·Ö¸¶¨ÁËÊ¹ÓÃ1.3.3Õâ¸ö°æ±¾¡£µ«ÊÇÕâ¸ö°æ±¾ÓÐÒ»¸öBUG£¬Òò´ËÎÒÃÇÐèÒª´ò¸ö²¹¶¡¡£ÕÒµ½gemµÄ°²×°Ä¿Â¼£º

Bash´úÂë1.gem list -d classifier
2.*LOCAL GEMS*
3.classifier (1.3.3)
4. Author: Lucas Carlson
5. Homepage: http://classifier.rufy.com/
6. Installed at: /Library/Ruby/Gems/1.8
7.
8. A general classifier module to allow Bayesian and other types of
9. classifications.
gem list -d classifier
*LOCAL GEMS*
classifier (1.3.3)
Author: Lucas Carlson
Homepage: http://classifier.rufy.com/
Installed at: /Library/Ruby/Gems/1.8

A general classifier module to allow Bayesian and other types of
classifications.ÎÒµÄgemÎ»ÓÚ/Library/Ruby/Gems/1.8£¬ Òò´ËÎÒ½øÈëÕâ¸öÄ¿Â¼£¬ÕÒµ½gems×ÓÄ¿Â¼£¬ÀïÃæÓ¦¸ÃÓÐclassifier-1.3.3/
ÕÒµ½lib/classifier/bayes.rbÕâ¸öÎÄ¼þ£¬ÔÚ45ÐÐÏÂÃæÌí¼ÓÒ»ÐÐ´úÂë£º

Ruby´úÂë1.orig ||= 0
orig ||= 0ÐÞ¸Äºó´úÂëÈçÏÂËùÊ¾£º

ÕâÑù£¬ÎÒÃÇ±ã×°ºÃÁËÕâ¸ögem£¬´ò¿ªirbÍæÍæ¿´£º

Ruby´úÂë1.irb
2.>> require 'classifier'
3.=> true
4.>> checker = Classifier::Bayes.new('spam', 'not spam')
5.=> #<Classifier::Bayes:0x1010e9cd0 @total_words=0, @categories={:Spam=>{}, :"Not spam"=>{}}>
6.>> checker.train :not_spam, "It's a good day!"
7.=> {:"!"=>1, :it=>1, :"'"=>1, :good=>1, :dai=>1}
8.>> checker.train :spam, "buy buy buy!"
9.=> {:"!"=>1, :bui=>3}
10.>> checker.classify "What a lovely day~"
11.=> "Not spam"
12.>> checker.classify "Buy some apple?"
13.=> "Spam"
14.>>
irb
>> require 'classifier'
=> true
>> checker = Classifier::Bayes.new('spam', 'not spam')
=> #<Classifier::Bayes:0x1010e9cd0 @total_words=0, @categories={:Spam=>{}, :"Not spam"=>{}}>
>> checker.train :not_spam, "It's a good day!"
=> {:"!"=>1, :it=>1, :"'"=>1, :good=>1, :dai=>1}
>> checker.train :spam, "buy buy buy!"
=> {:"!"=>1, :bui=>3}
>> checker.classify "What a lovely day~"
=> "Not spam"
>> checker.classify "Buy some apple?"
=> "Spam"
>> ¿ÉÒÔ¿´µ½±´Ò¶Ë¹ÒýÇæµÄÔÀíÊÇ½«¾ä×Ó²ð·Ö³É´Ê£¬²¢¸ù¾Ý´ÊÆµÀ´½øÐÐ¹éÀàÅÐ¶Ï£¬Òò´ËÑù±¾ÊýÁ¿Ô½´óÅÐ¶ÏÔ½×¼È·¡£Í¨¹ýÉÏÃæµÄÀý×Ó£¬ÎÒÃÇ¿ÉÒÔ¿´µ½classifierÕâ¸ö¿âÊÇÍ¨¹ý×ÔÈ»¿Õ¸ñ¶ÔÓ¢ÎÄ¾ä×Ó½øÐÐ¶Ï¾ä·Ö´Ê£¬ºÜÒÅº¶ÕâÖÖ·½Ê½²¢²»ÊÊÓÃÓÚÖÐÎÄ¡£

classfierÓëÖÐÎÄµÄ²»¼æÈÝÐÔ

ÎÒÃÇÍ¨¹ýÒ»¸öÀý×ÓÀ´ËµÃ÷classifierÓëÖÐÎÄµÄ²»¼æÈÝÐÔ¡£Ê×ÏÈ´´½¨Ò»¸ötxtÎÄµµ£¬Ð´ÈëÒ»Ð©ÖÐÎÄ£¬¿É½«ÎÄ¼þ±£´æÎªsample.txt£º
sample.txt

Bash´úÂë
1.ÈËÀàÔÚÉç»á·¢Õ¹ÖÐ£¬¶ÔÓÚ×ÔÈ»ÊÀ½çµÄÈÏÊ¶ºÍ¾«ÉñÊÀ½çÀïµÄ×·Çó£¬Ô´Ô¶Á÷³¤£¬ÐÎ³ÉÁË¾Þ´óµÄ¾«Éñ²Æ¸»£¬ÈçÎÄÑ§¡¢ÒÕÊõ¡¢½ÌÓý¡¢¿ÆÑ§µÈ£¬ÕâÐ©ÒÔÎÄ×Ö»ò·ûºÅ¼ÓÒÔ¼ÇÔØºÍ´«²¥£¬¾ÍÐÎ³ÉÁËÎÒÃÇËùËµµÄÎÄ»¯¡£ÀúÊ·ÉÏ£¬¾¡¹Ü¸÷Ãñ×åµÄÎÄ»¯²îÒìºÜ´ó£¬µ«Ò»ÏîÖØ´óµÄ¿ÆÑ§³É¾Í£¬³£³£ÄÜ¹»Ó°ÏìÕû¸öÊÀ½çÎÄ»¯·¢Õ¹µÄ½ø³Ì¡£
ÈËÀàÔÚÉç»á·¢Õ¹ÖÐ£¬¶ÔÓÚ×ÔÈ»ÊÀ½çµÄÈÏÊ¶ºÍ¾«ÉñÊÀ½çÀïµÄ×·Çó£¬Ô´Ô¶Á÷³¤£¬ÐÎ³ÉÁË¾Þ´óµÄ¾«Éñ²Æ¸»£¬ÈçÎÄÑ§¡¢ÒÕÊõ¡¢½ÌÓý¡¢¿ÆÑ§µÈ£¬ÕâÐ©ÒÔÎÄ×Ö»ò·ûºÅ¼ÓÒÔ¼ÇÔØºÍ´«²¥£¬¾ÍÐÎ³ÉÁËÎÒÃÇËùËµµÄÎÄ»¯¡£ÀúÊ·ÉÏ£¬¾¡¹Ü¸÷Ãñ×åµÄÎÄ»¯²îÒìºÜ´ó£¬µ«Ò»ÏîÖØ´óµÄ¿ÆÑ§³É¾Í£¬³£³£ÄÜ¹»Ó°ÏìÕû¸öÊÀ½çÎÄ»¯·¢Õ¹µÄ½ø³Ì¡£

½øÈëirbÖÕ¶Ë£¬ÊÔ×Å½«classfierÓ¦ÓÃÓÚÕâ¶ÎÎÄ×Ö£º

Bash´úÂë1. irb
2.>> require 'classifier'
3.=> true
4.>> checker = Classifier::Bayes.new('spam', 'not spam')
5.=> #<Classifier::Bayes:0x1010e9c30 @total_words=0, @categories={:Spam=>{}, :"Not spam"=>{}}>
6.>> File.open('sample.txt').each_line{ |s| p checker.train :not_spam, s
7.>>}
8.{:"\344\272\272\347\261\273..."=>1}
9.=> #<File:sample.txt>
10.>>
irb
>> require 'classifier'
=> true
>> checker = Classifier::Bayes.new('spam', 'not spam')
=> #<Classifier::Bayes:0x1010e9c30 @total_words=0, @categories={:Spam=>{}, :"Not spam"=>{}}>
>> File.open('sample.txt').each_line{ |s| p checker.train :not_spam, s
>>}
{:"\344\272\272\347\261\273..."=>1}
=> #<File:sample.txt>
>> ¿ÉÒÔ¿´µ½£¬classifierÖ»Éú³ÉÁËÒ»¸ö´ÊÆµÎª1µÄ´ó×Ö´®£¬°ÑÈ«¶ÎÎÄ×Öµ±³ÉÊÇÒ»¸öµ¥´Ê±£´æÁËÆðÀ´£¬Õâ¶ÎÎÄ×Ö²¢Ã»ÓÐ±»ÕýÈ·µØ²ð³ÉÖÐÎÄ´ÊÓï²¢½øÐÐÕýÈ·µÄ´ÊÆµÍ³¼Æ¡£ÔÒòÔÚÓÚclassfier½öÄÚÖÃÁËÓ¢ÎÄµÄ²ð´Ê·¨£¬¼´Í¨¹ý¿Õ¸ñÀ´²ð·Öµ¥´Ê£¬ÕâÑùµÄ·½Ê½ÏÔÈ»ÊÇÎÞ·¨ÓÃÓÚÖÐÎÄµÄ£¬Òò´ËÎªÁËÄÜÈÃÖÐÎÄÄÚÈÝÒ²ÓÃÉÏclassifier¿â£¬ÎÒÃÇÊ×ÏÈÒª×öµÄÊÇÊ¹ÆäÄÜ½«ÖÐÎÄ¶ÎÂäÕýÈ·µÄ²ð³É´Ê£¬RMMSegµÄÓÃ´¦¾ÍÔÚÕâÀï¡£

RMMSegµÄ°²×°¼°Ê¹ÓÃ

¶ømmsegÊÇºÜÁ÷ÐÐµÄÖÐÎÄ·Ö´ÊËã·¨£¬ÔÚrubyÏÂÓÐÖÐÎÄ·Ö´ÊÆ÷µÄÊµÏÖRMMSeg£¬Ê¹ÓÃËüµÄºÃ´¦ÊÇËüÍêÈ«ÓÃrubyÊµÏÖ£¬²¢ÇÒ×Ô´ø´Ê¿â£¬Ê®·Ö·½±ã¡£ÎÒÃÇÏÈÀ´ÁË½âÒ»ÏÂÈçºÎÊ¹ÓÃÕâ¸ö·Ö´ÊÆ÷£¬Ê×ÏÈÊÇÓÃgemÀ´°²×°Ëü£º

Bash´úÂë1.sudo gem install rmmseg
sudo gem install rmmseg³É¹¦°²×°ºó£¬ÎÒÃÇÈÔÈ»¿ÉÒÔÍ¨¹ýIRBÊÔÓÃÏÂÕâ¸ölibrary¡£½øÈëirbÖÕ¶Ë£¬²âÊÔÒ»ÏÂRMMSegÊÇ·ñ¿ÉÒÔÕý³£¹¤×÷£¬ÈÔÈ»Ê¹ÓÃÇ°Ãæ´´½¨µÄÖÐÎÄÎÄ¼þsample.txtÀ´×ö²âÊÔ£º

Bash´úÂë1. irb
2.>> require 'rmmseg'
3.=> true
4.>> include RMMSeg
5.=> Object
6.>> File.open('sample.txt').each_line{ |s| p segment(s) }
7.["ÈËÀà", "ÔÚ", "Éç»á", "·¢Õ¹ÖÐ", "£¬", "¶ÔÓÚ", "×ÔÈ»", "ÊÀ½ç", "µÄ", "ÈÏÊ¶", "ºÍ", "¾«ÉñÊÀ½ç", "Àï", "µÄ", "×·Çó", "£¬", "Ô´Ô¶Á÷³¤", "£¬", "ÐÎ³É", "ÁË", "¾Þ´ó", "µÄ", "¾«Éñ", "²Æ¸»", "£¬", "Èç", "ÎÄÑ§", "¡¢", "ÒÕÊõ", "¡¢", "½ÌÓý", "¡¢", "¿ÆÑ§", "µÈ", "£¬", "ÕâÐ©", "ÒÔ", "ÎÄ×Ö", "»ò", "·ûºÅ", "¼ÓÒÔ", "¼ÇÔØ", "ºÍ", "´«²¥", "£¬", "¾Í", "ÐÎ³É", "ÁË", "ÎÒÃÇ", "ËùËµ", "µÄ", "ÎÄ»¯", "¡£", "ÀúÊ·ÉÏ", "£¬", "¾¡¹Ü", "¸÷Ãñ×å", "µÄ", "ÎÄ»¯", "²îÒì", "ºÜ´ó", "£¬", "µ«", "Ò»Ïî", "ÖØ´ó", "µÄ", "¿ÆÑ§", "³É¾Í", "£¬", "³£³£", "ÄÜ¹»", "Ó°Ïì", "Õû¸ö", "ÊÀ½çÎÄ»¯", "·¢Õ¹", "µÄ", "½ø³Ì", "¡£"]
8.=> #<File:sample.txt>
irb
>> require 'rmmseg'
=> true
>> include RMMSeg
=> Object
>> File.open('sample.txt').each_line{ |s| p segment(s) }
["ÈËÀà", "ÔÚ", "Éç»á", "·¢Õ¹ÖÐ", "£¬", "¶ÔÓÚ", "×ÔÈ»", "ÊÀ½ç", "µÄ", "ÈÏÊ¶", "ºÍ", "¾«ÉñÊÀ½ç", "Àï", "µÄ", "×·Çó", "£¬", "Ô´Ô¶Á÷³¤", "£¬", "ÐÎ³É", "ÁË", "¾Þ´ó", "µÄ", "¾«Éñ", "²Æ¸»", "£¬", "Èç", "ÎÄÑ§", "¡¢", "ÒÕÊõ", "¡¢", "½ÌÓý", "¡¢", "¿ÆÑ§", "µÈ", "£¬", "ÕâÐ©", "ÒÔ", "ÎÄ×Ö", "»ò", "·ûºÅ", "¼ÓÒÔ", "¼ÇÔØ", "ºÍ", "´«²¥", "£¬", "¾Í", "ÐÎ³É", "ÁË", "ÎÒÃÇ", "ËùËµ", "µÄ", "ÎÄ»¯", "¡£", "ÀúÊ·ÉÏ", "£¬", "¾¡¹Ü", "¸÷Ãñ×å", "µÄ", "ÎÄ»¯", "²îÒì", "ºÜ´ó", "£¬", "µ«", "Ò»Ïî", "ÖØ´ó", "µÄ", "¿ÆÑ§", "³É¾Í", "£¬", "³£³£", "ÄÜ¹»", "Ó°Ïì", "Õû¸ö", "ÊÀ½çÎÄ»¯", "·¢Õ¹", "µÄ", "½ø³Ì", "¡£"]
=> #<File:sample.txt>¿ÉÒÔ¿´µ½£¬Í¨¹ýRMMSegµÄsegmentÃüÁî£¬Ò»¶ÎÖÐÎÄÎÄ×Ö±»ÇÐ³ÉÁË´Ê¡£½ÓÏÂÀ´µÄ¹¤×÷£¬ÊÇ¸ÄÔìclassifier¿âµÄ¶Ï×Ö²¿·Ö£¬ÈÃËüÊ¹ÓÃRMMSegÌá¹©µÄÖÐÎÄ¶Ï×ÖÄÜÁ¦¡£

¸ÄÔìclassifier£¬¼¯³ÉRMMSeg£¬Ê¹Ö®Ö§³ÖÖÐÎÄ·Ö´Ê

classifierµÄ·Ö´Ê´úÂëÎ»ÓÚÆäº¯Êý¿â¸ùÄ¿Â¼µÄlib/classifier/extensions/word_hash.rbÖÐ¡£ÎÒÃÇ´ò¿ªÕâ¸öÎÄ¼þ£¬ÔÚ´úÂëÒ»¿ªÊ¼Ìí¼Ó£º

Ruby´úÂë1.require 'rmmseg'
2.include RMMSeg
require 'rmmseg'
include RMMSegÈ»ºóÕÒµ½word_hashÕâ¸öº¯Êý£¬½«»ùÓÚ¿Õ¸ñµÄ·Ö´Ê·½·¨¸Ä³ÉRMMSeg¸ø³öµÄsegment·½·¨½øÐÐ·Ö´Ê£º

Ruby´úÂë1.def word_hash
2. #word_hash_for_words(gsub(/[^\w\s]/,"").split + gsub(/[\w]/," ").split)
3. word_hash_for_words(segment(gsub(/[^\w\s]/,"")) + gsub(/[\w]/," ").split)
4.end
def word_hash
#word_hash_for_words(gsub(/[^\w\s]/,"").split + gsub(/[\w]/," ").split)
word_hash_for_words(segment(gsub(/[^\w\s]/,"")) + gsub(/[\w]/," ").split)
endÐÞ¸ÄºóµÄ´úÂëÈçÏÂËùÊ¾£º

¸ÄÔìÍê³Éºó£¬ÎÒÃÇ±ã¿ÉÒÔÓÃ¸Õ²ÅµÄsample.txtÖØÐÂ×öÏÂ²âÊÔ£¬¿´¿´classifierÊÇ·ñ¿ÉÒÔÕë¶ÔÖÐÎÄÕý³£¹¤×÷ÁË£º

Bash´úÂë1.irb
2.>> require 'classifier'
3.=> true
4.>> checker = Classifier::Bayes.new('spam', 'not spam')
5.=> #<Classifier::Bayes:0x10109c318 @categories={:Spam=>{}, :"Not spam"=>{}}, @total_words=0>
6.>> File.open('sample.txt').each_line{ |s| p checker.train :not_spam, s
7.>> }
8.{:ÖØ´ó=>1, :ÎÒÃÇ=>1, :¿ÆÑ§=>2, :Ô´Ô¶Á÷³¤=>1, :·¢Õ¹ÖÐ=>1, :ÊÀ½çÎÄ»¯=>1, :¸÷Ãñ×å=>1, :·ûºÅ=>1, :Èç=>1, :ÈÏÊ¶=>1, :³É¾Í=>1, :ËùËµ=>1, :µÈ=>1, :ÐÎ³É=>2, :£¬=>9, :·¢Õ¹=>1, :²îÒì=>1, :¼ÓÒÔ=>1, :ÎÄÑ§=>1, :ºÍ=>2, :³£³£=>1, :ÎÄ»¯=>2, :ÕâÐ©=>1, :ÁË=>2, :¶ÔÓÚ=>1, :½ø³Ì=>1, :ºÜ´ó=>1, :¼ÇÔØ=>1, :¡¢=>3, :¾«ÉñÊÀ½ç=>1, :ÈËÀà=>1, :ÄÜ¹»=>1, :¡£=>2, :ÒÔ=>1, :¾Þ´ó=>1, :×ÔÈ»=>1, :µ«=>1, :´«²¥=>1, :ÒÕÊõ=>1, :Àï=>1, :ÔÚ=>1, :Ó°Ïì=>1, :ÀúÊ·ÉÏ=>1, :ÎÄ×Ö=>1, :¾«Éñ=>1, :ÊÀ½ç=>1, :Ò»Ïî=>1, :¾Í=>1, :½ÌÓý=>1, :×·Çó=>1, :Éç»á=>1, :Õû¸ö=>1, :¾¡¹Ü=>1, :»ò=>1, :²Æ¸»=>1, :µÄ=>7}
9.=> #<File:sample.txt>
10.>>
irb
>> require 'classifier'
=> true
>> checker = Classifier::Bayes.new('spam', 'not spam')
=> #<Classifier::Bayes:0x10109c318 @categories={:Spam=>{}, :"Not spam"=>{}}, @total_words=0>
>> File.open('sample.txt').each_line{ |s| p checker.train :not_spam, s
>> }
{:ÖØ´ó=>1, :ÎÒÃÇ=>1, :¿ÆÑ§=>2, :Ô´Ô¶Á÷³¤=>1, :·¢Õ¹ÖÐ=>1, :ÊÀ½çÎÄ»¯=>1, :¸÷Ãñ×å=>1, :·ûºÅ=>1, :Èç=>1, :ÈÏÊ¶=>1, :³É¾Í=>1, :ËùËµ=>1, :µÈ=>1, :ÐÎ³É=>2, :£¬=>9, :·¢Õ¹=>1, :²îÒì=>1, :¼ÓÒÔ=>1, :ÎÄÑ§=>1, :ºÍ=>2, :³£³£=>1, :ÎÄ»¯=>2, :ÕâÐ©=>1, :ÁË=>2, :¶ÔÓÚ=>1, :½ø³Ì=>1, :ºÜ´ó=>1, :¼ÇÔØ=>1, :¡¢=>3, :¾«ÉñÊÀ½ç=>1, :ÈËÀà=>1, :ÄÜ¹»=>1, :¡£=>2, :ÒÔ=>1, :¾Þ´ó=>1, :×ÔÈ»=>1, :µ«=>1, :´«²¥=>1, :ÒÕÊõ=>1, :Àï=>1, :ÔÚ=>1, :Ó°Ïì=>1, :ÀúÊ·ÉÏ=>1, :ÎÄ×Ö=>1, :¾«Éñ=>1, :ÊÀ½ç=>1, :Ò»Ïî=>1, :¾Í=>1, :½ÌÓý=>1, :×·Çó=>1, :Éç»á=>1, :Õû¸ö=>1, :¾¡¹Ü=>1, :»ò=>1, :²Æ¸»=>1, :µÄ=>7}
=> #<File:sample.txt>
>> ¿ÉÒÔ¿´µ½£¬ÖÐÎÄ±»ÕýÈ·µØ²ð·Ö²¢¼ÓÒÔ´ÊÆµÍ³¼ÆÁË¡£ÎÒÃÇµÃµ½ÁËÒ»¸öÖ§³ÖÖÐÎÄµÄ±´Ò¶Ë¹·´À¬»øÒýÇæ¡£

ÊÔÓÃÖ§³ÖÖÐÎÄµÄclassifier

½ÓÏÂÀ´¿ÉÒÔÍæÍæ¿´classifierÊÇ·ñÄÜÕýÈ·Çø·Ö¿ªÀ¬»øÄÚÈÝ·ÇÀ¬»øÄÚÈÝÁË£¬ÎÒÃÇ·Ö±ð´´½¨Ò»¸öÀ¬»øÄÚÈÝÑù±¾spam.txt¼°·ÇÀ¬»øÄÚÈÝÑù±¾not_spam.txt£º
spam.txt

Bash´úÂë1.ÅØÏøÌå£¡ÉË²»Æð£¡Õâ¾ÍÊÇÅØÏøÌå£¡£¡°¡°¡£¡£¡°¡°¡£¡£¡£¡ÓÐÄ¾ÓÐ£¡£¡£¡ÓÐÄ¾ÓÐ°¡£¡£¡£¡£¡£¡
ÅØÏøÌå£¡ÉË²»Æð£¡Õâ¾ÍÊÇÅØÏøÌå£¡£¡°¡°¡£¡£¡°¡°¡£¡£¡£¡ÓÐÄ¾ÓÐ£¡£¡£¡ÓÐÄ¾ÓÐ°¡£¡£¡£¡£¡£¡not_spam.txt

Bash´úÂë1.ÈËÀàÔÚÉç»á·¢Õ¹ÖÐ£¬¶ÔÓÚ×ÔÈ»ÊÀ½çµÄÈÏÊ¶ºÍ¾«ÉñÊÀ½çÀïµÄ×·Çó£¬Ô´Ô¶Á÷³¤£¬ÐÎ³ÉÁË¾Þ´óµÄ¾«Éñ²Æ¸»£¬ÈçÎÄÑ§¡¢ÒÕÊõ¡¢½ÌÓý¡¢¿ÆÑ§µÈ£¬ÕâÐ©ÒÔÎÄ×Ö»ò·ûºÅ¼ÓÒÔ¼ÇÔØºÍ´«²¥£¬¾ÍÐÎ³ÉÁËÎÒÃÇËùËµµÄÎÄ»¯¡£ÀúÊ·ÉÏ£¬¾¡¹Ü¸÷Ãñ×åµÄÎÄ»¯²îÒìºÜ´ó£¬µ«Ò»ÏîÖØ´óµÄ¿ÆÑ§³É¾Í£¬³£³£ÄÜ¹»Ó°ÏìÕû¸öÊÀ½çÎÄ»¯·¢Õ¹µÄ½ø³Ì¡£
ÈËÀàÔÚÉç»á·¢Õ¹ÖÐ£¬¶ÔÓÚ×ÔÈ»ÊÀ½çµÄÈÏÊ¶ºÍ¾«ÉñÊÀ½çÀïµÄ×·Çó£¬Ô´Ô¶Á÷³¤£¬ÐÎ³ÉÁË¾Þ´óµÄ¾«Éñ²Æ¸»£¬ÈçÎÄÑ§¡¢ÒÕÊõ¡¢½ÌÓý¡¢¿ÆÑ§µÈ£¬ÕâÐ©ÒÔÎÄ×Ö»ò·ûºÅ¼ÓÒÔ¼ÇÔØºÍ´«²¥£¬¾ÍÐÎ³ÉÁËÎÒÃÇËùËµµÄÎÄ»¯¡£ÀúÊ·ÉÏ£¬¾¡¹Ü¸÷Ãñ×åµÄÎÄ»¯²îÒìºÜ´ó£¬µ«Ò»ÏîÖØ´óµÄ¿ÆÑ§³É¾Í£¬³£³£ÄÜ¹»Ó°ÏìÕû¸öÊÀ½çÎÄ»¯·¢Õ¹µÄ½ø³Ì¡£½ÓÏÂÀ´´´½¨Ò»¸ö´ý·Ö¼ìÀ¬»øÑù±¾test.txt£º
test.txt

Bash´úÂë1.ÀÏ×ÓÁ½ÄêÇ°Ñ¡ÁË·¨Óï¿Î£¡£¡£¡£¡£¡£¡£¡£¡ÓÚÊÇÌ¤ÉÏÁËÄáÂê²»¹éÂ·°¡£¡£¡£¡£¡£¡£¡£¡£¡£¡£¡Ë¸úÀÏ×Ó½²·¨ÓïÊÇÊÀ½çÉÏ×îÓÍÃºµÄÓïÑÔ°¡£¡£¡£¡£¡£¡£¡£¡£¡ÄáÂêÌýµÄÄÄ¸öÍâÌ«¿ÕµÄ·¨Óï°¡£¡£¡£¡£¡£¡£¡£¡£¡£¡£¡£¡¸úÍÂÌµÒ»ÑùÒ»ÑùÒ»ÑùµÄ°¡ ÓÐÄ¾ÓÐ£¡£¡£¡£¡£¡£¡£¡£¡£¡ËÔÙ¸úÀÏ×Ó½²·¨ÓïÊÇÊÀ½çÉÏ×îÓÍÃºµÄÓïÑÔ ÀÏ×ÓÒ»¿ÚÅ¨ÌµÏÌËÀÄã°¡£¡£¡£¡£¡£¡£¡£¡£¡£¡£¡£¡£¡£¡£¡£¡
ÀÏ×ÓÁ½ÄêÇ°Ñ¡ÁË·¨Óï¿Î£¡£¡£¡£¡£¡£¡£¡£¡ÓÚÊÇÌ¤ÉÏÁËÄáÂê²»¹éÂ·°¡£¡£¡£¡£¡£¡£¡£¡£¡£¡£¡Ë¸úÀÏ×Ó½²·¨ÓïÊÇÊÀ½çÉÏ×îÓÍÃºµÄÓïÑÔ°¡£¡£¡£¡£¡£¡£¡£¡£¡ÄáÂêÌýµÄÄÄ¸öÍâÌ«¿ÕµÄ·¨Óï°¡£¡£¡£¡£¡£¡£¡£¡£¡£¡£¡£¡¸úÍÂÌµÒ»ÑùÒ»ÑùÒ»ÑùµÄ°¡ ÓÐÄ¾ÓÐ£¡£¡£¡£¡£¡£¡£¡£¡£¡ËÔÙ¸úÀÏ×Ó½²·¨ÓïÊÇÊÀ½çÉÏ×îÓÍÃºµÄÓïÑÔ ÀÏ×ÓÒ»¿ÚÅ¨ÌµÏÌËÀÄã°¡£¡£¡£¡£¡£¡£¡£¡£¡£¡£¡£¡£¡£¡£¡£¡ ÎÒÃÇ»á½«spam.txtÀïÃæµÄÄÚÈÝ±ê¼ÇÎªÀ¬»øÄÚÈÝ£¬½«not_spam.txtÀïÃæµÄÄÚÈÝ±ê¼ÇÎª·ÇÀ¬»øÄÚÈÝ¡£¶øtest.txtÀïÃæµÄÄÚÈÝÊÇ´ý²âÊÔÄÚÈÝ£¬ÎÒÃÇÆÚ´ýµÄ½á¹ûÊÇclassifier½«ÆäÊ¶±ðÎªÀ¬»øÄÚÈÝ£¬¼´Spam¡£ÏÂÃæÊÇ²âÊÔ¹ý³Ì¼°½á¹û£º

Bash´úÂë1. irb
2.>> require 'classifier'
3.=> true
4.>> checker = Classifier::Bayes.new('spam', 'not spam')
5.=> #<Classifier::Bayes:0x10109c1d8 @categories={:Spam=>{}, :"Not spam"=>{}}, @total_words=0>
6.>> File.open('spam.txt').each_line{ |s| p checker.train :spam, s }
7.{:ÉË=>1, :Ä¾=>2, :²»Æð=>1, :Õâ¾Í=>1, :ÅØÏø=>2, :ÊÇ=>1, :Ìå=>2, :°¡=>5, :£¡=>17, :ÓÐ=>4}
8.=> #<File:spam.txt>
9.>> File.open('not_spam.txt').each_line{ |s| p checker.train :not_spam, s }
10.{:ÖØ´ó=>1, :ÎÒÃÇ=>1, :¿ÆÑ§=>2, :Ô´Ô¶Á÷³¤=>1, :·¢Õ¹ÖÐ=>1, :ÊÀ½çÎÄ»¯=>1, :¸÷Ãñ×å=>1, :·ûºÅ=>1, :Èç=>1, :ÈÏÊ¶=>1, :³É¾Í=>1, :ËùËµ=>1, :µÈ=>1, :ÐÎ³É=>2, :£¬=>9, :·¢Õ¹=>1, :²îÒì=>1, :¼ÓÒÔ=>1, :ÎÄÑ§=>1, :ºÍ=>2, :³£³£=>1, :ÎÄ»¯=>2, :ÕâÐ©=>1, :ÁË=>2, :¶ÔÓÚ=>1, :½ø³Ì=>1, :ºÜ´ó=>1, :¼ÇÔØ=>1, :¡¢=>3, :¾«ÉñÊÀ½ç=>1, :ÈËÀà=>1, :ÄÜ¹»=>1, :¡£=>2, :ÒÔ=>1, :¾Þ´ó=>1, :×ÔÈ»=>1, :µ«=>1, :´«²¥=>1, :ÒÕÊõ=>1, :Àï=>1, :ÔÚ=>1, :Ó°Ïì=>1, :ÀúÊ·ÉÏ=>1, :ÎÄ×Ö=>1, :¾«Éñ=>1, :ÊÀ½ç=>1, :Ò»Ïî=>1, :¾Í=>1, :½ÌÓý=>1, :×·Çó=>1, :Éç»á=>1, :Õû¸ö=>1, :¾¡¹Ü=>1, :»ò=>1, :²Æ¸»=>1, :µÄ=>7}
11.=> #<File:not_spam.txt>
12.>> File.open('test.txt').each_line{ |s|p checker.classify s }
13."Spam"
14.=> #<File:test.txt>
15.>>
irb
>> require 'classifier'
=> true
>> checker = Classifier::Bayes.new('spam', 'not spam')
=> #<Classifier::Bayes:0x10109c1d8 @categories={:Spam=>{}, :"Not spam"=>{}}, @total_words=0>
>> File.open('spam.txt').each_line{ |s| p checker.train :spam, s }
{:ÉË=>1, :Ä¾=>2, :²»Æð=>1, :Õâ¾Í=>1, :ÅØÏø=>2, :ÊÇ=>1, :Ìå=>2, :°¡=>5, :£¡=>17, :ÓÐ=>4}
=> #<File:spam.txt>
>> File.open('not_spam.txt').each_line{ |s| p checker.train :not_spam, s }
{:ÖØ´ó=>1, :ÎÒÃÇ=>1, :¿ÆÑ§=>2, :Ô´Ô¶Á÷³¤=>1, :·¢Õ¹ÖÐ=>1, :ÊÀ½çÎÄ»¯=>1, :¸÷Ãñ×å=>1, :·ûºÅ=>1, :Èç=>1, :ÈÏÊ¶=>1, :³É¾Í=>1, :ËùËµ=>1, :µÈ=>1, :ÐÎ³É=>2, :£¬=>9, :·¢Õ¹=>1, :²îÒì=>1, :¼ÓÒÔ=>1, :ÎÄÑ§=>1, :ºÍ=>2, :³£³£=>1, :ÎÄ»¯=>2, :ÕâÐ©=>1, :ÁË=>2, :¶ÔÓÚ=>1, :½ø³Ì=>1, :ºÜ´ó=>1, :¼ÇÔØ=>1, :¡¢=>3, :¾«ÉñÊÀ½ç=>1, :ÈËÀà=>1, :ÄÜ¹»=>1, :¡£=>2, :ÒÔ=>1, :¾Þ´ó=>1, :×ÔÈ»=>1, :µ«=>1, :´«²¥=>1, :ÒÕÊõ=>1, :Àï=>1, :ÔÚ=>1, :Ó°Ïì=>1, :ÀúÊ·ÉÏ=>1, :ÎÄ×Ö=>1, :¾«Éñ=>1, :ÊÀ½ç=>1, :Ò»Ïî=>1, :¾Í=>1, :½ÌÓý=>1, :×·Çó=>1, :Éç»á=>1, :Õû¸ö=>1, :¾¡¹Ü=>1, :»ò=>1, :²Æ¸»=>1, :µÄ=>7}
=> #<File:not_spam.txt>
>> File.open('test.txt').each_line{ |s|p checker.classify s }
"Spam"
=> #<File:test.txt>
>> ¿ÉÒÔ¿´µ½£¬test.txtÖÐµÄÄÚÈÝ°´ÕÕÔ¤ÆÚ±»Ê¶±ðÎªÀ¬»øÄÚÈÝ¡£

²Î¿¼×ÊÁÏ

http://www.iteye.com/news/1380 - robbinÐ´µÄrmmseg½éÉÜ

https://github.com/logankoester/classifier - classifierÏîÄ¿ÍøÖ·

http://rmmseg.rubyforge.org/ £ rmmsegÎÄµµ

http://baike.baidu.com/view/4169613.htm - ÅØÏøÌå

zhlong8 ·¢±íÓÚ 2011-11-24 14:14

ºÃ¸ß¼¶

zuerrong ·¢±íÓÚ 2011-11-24 14:27

²»´í£¬ÊÇÔ´´Ã´£¿ÎÒÒ²¸ã¹ýbayes£¬²»¹ý²»ÊÇÓÃruby¡£

gr33n ·¢±íÓÚ 2011-11-25 12:29

²»´í²»´í

i_love_ruby ·¢±íÓÚ 2011-11-27 00:32

ding

Ò³: [1]

Chinaunix's Archiver

»ùÓÚRubyºÍÖÐÎÄ·Ö´ÊµÄ±´Ò¶Ë¹·´À¬»ø½â¾ö·½°¸