论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2011-12-18 17:30 |只看该作者 |倒序浏览

东风何处是人间（ruby版）

近期这个帖子大火啊，也终于抽出时间写ruby版的了。
个人水平有限，程序写的很糟糕，至少比原文的看着复杂多了，不知道是否能有ruby高手给大家写个示例。

数据：《全宋词》文本

Ruby代码

#coding: utf-8
require "iconv"
s1 = Iconv.conv 'gbk','utf-8',"，"
s2 = Iconv.conv 'gbk','utf-8',"。"
s3 = Iconv.conv 'gbk','utf-8',"！"
s4 = Iconv.conv 'gbk','utf-8',"？"
s5 = Iconv.conv 'gbk','utf-8',"、"
NUM1 = 2 #分词长度
NUM2 =500 #显示大于多少的记录
def splitword(s,l) #分词，x是字符串，l是字符分词长度
lt = s.length
k = Array.new
0.upto(lt-l) do |i|
k<<s[i..i+l-1]
end
return k
end
x = Array.new #记录分词结果的数组
File.open("ci.txt","r") do |file|
file.each do |line|
if line.length<500 and line.length>10
line.gsub!(s2,s1) #把标点都替换为"，"，再统一进行分割
line.gsub!(s3,s1)
line.gsub!(s4,s1)
line.gsub!(s5,s1)
line.chomp!
column = line.split(s1) #用逗号分割
column.delete_if {|i| i.length >10 } #去除大于10个字的语句
column.each do |col|
splitword(col,NUM1).each{|i| x<<i} if col.length>=NUM1 # 分词
end
end
end
end
h = Hash.new
h = x.inject(Hash.new(0)){|hash,x| hash[x] += 1; hash} #把数组内容进行计数为hash
h.delete_if {|key, value| value <NUM2} #去除hash中小于指定数值的部分
y = Array.new
y = h.sort {|a,b| b[1]<=>a[1]} # 从大到小排序
y.each_index {|i| puts "#{i+1} #{y[i][0]} = #{y[i][1]}" }

复制代码

文库|博客

如果有一天21

家境小康

论坛徽章:: 0

2楼 [报告]

发表于 2011-12-19 11:23 |只看该作者

学习了..谢谢分享了

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

gr33n

稍有积蓄

论坛徽章:: 0

3楼 [报告]

发表于 2011-12-19 18:07 |只看该作者

ruby高手啊

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

2gua

版主

论坛徽章:: 0

4楼 [报告]

发表于 2011-12-21 08:05 |只看该作者

Ruby的花样就是多，可惜这一段转移技术了。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

2gua

版主

论坛徽章:: 0

5楼 [报告]

发表于 2011-12-28 10:10 |只看该作者

东风何处是人间，人间Ruby独风情。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

Sevk Sevk 当前离线禁止发言好友博客消息论坛徽章: 3	6楼 [报告] 发表于 2011-12-28 12:04 \|只看该作者提示: 作者被禁止或删除内容自动屏蔽
Sevk Sevk 当前离线禁止发言好友博客消息论坛徽章: 3	实战分享：从技术角度谈机器学习入门\| 【大话IT】RadonDB低门槛向MySQL集群下战书 \| ChinaUnix打赏功能已上线！ \| 新一代分布式关系型数据库RadonDB知多少？

qqrrm

白手起家

论坛徽章:: 0

7楼 [报告]

发表于 2011-12-30 18:34 |只看该作者

本帖最后由 qqrrm 于 2011-12-30 18:37 编辑

其实主要是因为我在windows下做的，缺省编码是GBK，在dos下运行的时候，不如此处理，就会都是乱码。
下面的是utf-8版本的，在dos下运行的时候，需要chcp 65001。
改写为utf-8版后，计数和上面gbk版的不同了，gbk版的，和原文的计数一致，utf-8版的，一是计数多了，二是很多后面的也提到了前面，不知道为什么，也许是gbk->utf-8转换的时候，一些文字出现问题了吧。

#coding: utf-8
require "iconv"
NUM1 = 2 #分词长度
NUM2 =500 #显示大于多少的记录
def splitword(s,l) #分词，s是字符串，l是字符分词长度
lt = s.length
k = Array.new
0.upto(lt-l) do |i|
k<<s[i..i+l-1]
end
return k
end
x = Array.new #记录分词结果的数组
File.open("ci.txt", "r") do |file|
file.each do |line|
line = Iconv.conv("UTF-8//IGNORE","GBK", line)
line.chomp!
column = line.split(/，|。|！|？|、/) #使用标点分割
column.delete_if {|i| i.length >10 } #去除大于10个字的语句
column.each do |col|
splitword(col,NUM1).each{|i| x<<i} if col.length>NUM1 # 分词
end
end
end
h = Hash.new
h = x.inject(Hash.new(0)){|hash,x| hash[x] += 1; hash} #把数组内容进行计数为hash
h.delete_if {|key, value| value <NUM2} #去除hash中小于指定数值的部分
y = Array.new
y = h.sort {|a,b| b[1]<=>a[1]} # 从大到小排序
y.each_index {|i| puts "#{i+1} #{y[i][0]} = #{y[i][1]}" }

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

2gua

版主

论坛徽章:: 0

8楼 [报告]

发表于 2011-12-31 10:09 |只看该作者

中文尽量用GBK。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

返回列表

Chinaunix › 论坛 › 程序设计 › Ruby › 东风何处是人间（ruby版）

Sevk Sevk 当前离线禁止发言好友博客消息论坛徽章: 3	6楼 [报告] 发表于 2011-12-28 12:04 \|只看该作者提示: 作者被禁止或删除内容自动屏蔽
Sevk Sevk 当前离线禁止发言好友博客消息论坛徽章: 3	实战分享：从技术角度谈机器学习入门\| 【大话IT】RadonDB低门槛向MySQL集群下战书 \| ChinaUnix打赏功能已上线！ \| 新一代分布式关系型数据库RadonDB知多少？

东风何处是人间（ruby版） [复制链接]

浏览过的版块