免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2753 | 回复: 7
打印 上一主题 下一主题

东风何处是人间(ruby版) [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2011-12-18 17:30 |只看该作者 |倒序浏览
东风何处是人间(ruby版)












近期这个帖子大火啊,也终于抽出时间写ruby版的了。
个人水平有限,程序写的很糟糕,至少比原文的看着复杂多了,不知道是否能有ruby高手给大家写个示例。

数据:《全宋词》文本

Ruby代码
  1. #coding: utf-8   
  2. require "iconv"  
  3.   
  4. s1 = Iconv.conv 'gbk','utf-8',","  
  5. s2 = Iconv.conv 'gbk','utf-8',"。"  
  6. s3 = Iconv.conv 'gbk','utf-8',"!"  
  7. s4 = Iconv.conv 'gbk','utf-8',"?"  
  8. s5 = Iconv.conv 'gbk','utf-8',"、"  
  9.   
  10. NUM1 = 2  #分词长度   
  11. NUM2 =500  #显示大于多少的记录   
  12.   
  13. def splitword(s,l)    #分词,x是字符串,l是字符分词长度   
  14.   lt  = s.length   
  15.   k = Array.new  
  16.   0.upto(lt-l) do |i|   
  17.     k<<s[i..i+l-1]   
  18.   end  
  19.   return k   
  20. end  
  21.   
  22. x = Array.new     #记录分词结果的数组   
  23.   
  24. File.open("ci.txt","r") do |file|   
  25.   file.each do |line|   
  26.     if line.length<500 and line.length>10   
  27.       line.gsub!(s2,s1)     #把标点都替换为",",再统一进行分割   
  28.       line.gsub!(s3,s1)   
  29.       line.gsub!(s4,s1)   
  30.       line.gsub!(s5,s1)   
  31.       line.chomp!   
  32.       column = line.split(s1)       #用逗号分割   
  33.       column.delete_if {|i| i.length >10 } #去除大于10个字的语句   
  34.       column.each do |col|   
  35.         splitword(col,NUM1).each{|i| x<<i}  if col.length>=NUM1 # 分词   
  36.       end     
  37.     end  
  38.   end   
  39. end   
  40.   
  41. h = Hash.new  
  42. h = x.inject(Hash.new(0)){|hash,x| hash[x] += 1; hash} #把数组内容进行计数为hash   
  43. h.delete_if {|key, value| value <NUM2}               #去除hash中小于指定数值的部分   
  44.   
  45. y = Array.new  
  46. y  = h.sort {|a,b| b[1]<=>a[1]}                      # 从大到小排序   
  47. y.each_index {|i| puts "#{i+1} #{y[i][0]} = #{y[i][1]}" }  
复制代码

论坛徽章:
0
2 [报告]
发表于 2011-12-19 11:23 |只看该作者
学习了..谢谢分享了

论坛徽章:
0
3 [报告]
发表于 2011-12-19 18:07 |只看该作者
ruby高手啊

论坛徽章:
0
4 [报告]
发表于 2011-12-21 08:05 |只看该作者
Ruby的花样就是多,可惜这一段转移技术了。

论坛徽章:
0
5 [报告]
发表于 2011-12-28 10:10 |只看该作者
东风何处是人间,人间Ruby独风情。

论坛徽章:
3
寅虎
日期:2013-11-27 07:53:29申猴
日期:2014-09-12 09:24:152015年迎新春徽章
日期:2015-03-04 09:48:31
6 [报告]
发表于 2011-12-28 12:04 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
0
7 [报告]
发表于 2011-12-30 18:34 |只看该作者
本帖最后由 qqrrm 于 2011-12-30 18:37 编辑

其实主要是因为我在windows下做的,缺省编码是GBK,在dos下运行的时候,不如此处理,就会都是乱码。
下面的是utf-8版本的,在dos下运行的时候,需要chcp 65001。
改写为utf-8版后,计数和上面gbk版的不同了,gbk版的,和原文的计数一致,utf-8版的,一是计数多了,二是很多后面的也提到了前面,不知道为什么,也许是gbk->utf-8转换的时候,一些文字出现问题了吧。
  1. #coding: utf-8
  2. require "iconv"

  3. NUM1 = 2 #分词长度
  4. NUM2 =500  #显示大于多少的记录

  5. def splitword(s,l)    #分词,s是字符串,l是字符分词长度
  6.   lt  = s.length
  7.   k = Array.new
  8.   0.upto(lt-l) do |i|
  9.     k<<s[i..i+l-1]
  10.   end
  11.   return k
  12. end

  13. x = Array.new     #记录分词结果的数组
  14. File.open("ci.txt", "r")  do |file|
  15.   file.each do |line|   
  16.     line = Iconv.conv("UTF-8//IGNORE","GBK", line)   
  17.     line.chomp!
  18.     column = line.split(/,|。|!|?|、/)          #使用标点分割
  19.     column.delete_if {|i| i.length >10 }    #去除大于10个字的语句
  20.     column.each do |col|
  21.       splitword(col,NUM1).each{|i| x<<i} if col.length>NUM1 # 分词
  22.     end
  23.   end
  24. end

  25. h = Hash.new
  26. h = x.inject(Hash.new(0)){|hash,x| hash[x] += 1; hash} #把数组内容进行计数为hash
  27. h.delete_if {|key, value| value <NUM2}               #去除hash中小于指定数值的部分

  28. y = Array.new
  29. y  = h.sort {|a,b| b[1]<=>a[1]}                      # 从大到小排序
  30. y.each_index {|i| puts "#{i+1} #{y[i][0]} = #{y[i][1]}" }
复制代码

论坛徽章:
0
8 [报告]
发表于 2011-12-31 10:09 |只看该作者
中文尽量用GBK。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP