三里屯摇滚 发表于 2011-12-18 17:30

东风何处是人间(ruby版)

东风何处是人间(ruby版)











近期这个帖子大火啊,也终于抽出时间写ruby版的了。
个人水平有限,程序写的很糟糕,至少比原文的看着复杂多了,不知道是否能有ruby高手给大家写个示例。

数据:《全宋词》文本

Ruby代码#coding: utf-8   
require "iconv"

s1 = Iconv.conv 'gbk','utf-8',","
s2 = Iconv.conv 'gbk','utf-8',"。"
s3 = Iconv.conv 'gbk','utf-8',"!"
s4 = Iconv.conv 'gbk','utf-8',"?"
s5 = Iconv.conv 'gbk','utf-8',"、"

NUM1 = 2#分词长度   
NUM2 =500#显示大于多少的记录   

def splitword(s,l)    #分词,x是字符串,l是字符分词长度   
lt= s.length   
k = Array.new
0.upto(lt-l) do |i|   
    k<<s   
end
return k   
end

x = Array.new   #记录分词结果的数组   

File.open("ci.txt","r") do |file|   
file.each do |line|   
    if line.length<500 and line.length>10   
      line.gsub!(s2,s1)   #把标点都替换为",",再统一进行分割   
      line.gsub!(s3,s1)   
      line.gsub!(s4,s1)   
      line.gsub!(s5,s1)   
      line.chomp!   
      column = line.split(s1)       #用逗号分割   
      column.delete_if {|i| i.length >10 } #去除大于10个字的语句   
      column.each do |col|   
      splitword(col,NUM1).each{|i| x<<i}if col.length>=NUM1 # 分词   
      end   
    end
end   
end   

h = Hash.new
h = x.inject(Hash.new(0)){|hash,x| hash += 1; hash} #把数组内容进行计数为hash   
h.delete_if {|key, value| value <NUM2}               #去除hash中小于指定数值的部分   

y = Array.new
y= h.sort {|a,b| b<=>a}                      # 从大到小排序   
y.each_index {|i| puts "#{i+1} #{y} = #{y}" }

如果有一天21 发表于 2011-12-19 11:23

学习了..谢谢分享了

gr33n 发表于 2011-12-19 18:07

ruby高手啊

2gua 发表于 2011-12-21 08:05

Ruby的花样就是多,可惜这一段转移技术了。

2gua 发表于 2011-12-28 10:10

东风何处是人间,人间Ruby独风情。

Sevk 发表于 2011-12-28 12:04

qqrrm 发表于 2011-12-30 18:34

本帖最后由 qqrrm 于 2011-12-30 18:37 编辑

其实主要是因为我在windows下做的,缺省编码是GBK,在dos下运行的时候,不如此处理,就会都是乱码。
下面的是utf-8版本的,在dos下运行的时候,需要chcp 65001。
改写为utf-8版后,计数和上面gbk版的不同了,gbk版的,和原文的计数一致,utf-8版的,一是计数多了,二是很多后面的也提到了前面,不知道为什么,也许是gbk->utf-8转换的时候,一些文字出现问题了吧。#coding: utf-8
require "iconv"

NUM1 = 2 #分词长度
NUM2 =500#显示大于多少的记录

def splitword(s,l)    #分词,s是字符串,l是字符分词长度
lt= s.length
k = Array.new
0.upto(lt-l) do |i|
    k<<s
end
return k
end

x = Array.new   #记录分词结果的数组
File.open("ci.txt", "r")do |file|
file.each do |line|   
    line = Iconv.conv("UTF-8//IGNORE","GBK", line)   
    line.chomp!
    column = line.split(/,|。|!|?|、/)          #使用标点分割
    column.delete_if {|i| i.length >10 }    #去除大于10个字的语句
    column.each do |col|
      splitword(col,NUM1).each{|i| x<<i} if col.length>NUM1 # 分词
    end
end
end

h = Hash.new
h = x.inject(Hash.new(0)){|hash,x| hash += 1; hash} #把数组内容进行计数为hash
h.delete_if {|key, value| value <NUM2}               #去除hash中小于指定数值的部分

y = Array.new
y= h.sort {|a,b| b<=>a}                      # 从大到小排序
y.each_index {|i| puts "#{i+1} #{y} = #{y}" }

2gua 发表于 2011-12-31 10:09

中文尽量用GBK。
页: [1]
查看完整版本: 东风何处是人间(ruby版)