免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3430 | 回复: 4
打印 上一主题 下一主题

hpricto不支持gb2312,iconv后还是个报错 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2012-02-13 16:02 |只看该作者 |倒序浏览
  1. if RUBY_VERSION =~ /1.9/
  2.   Encoding.default_external = Encoding::UTF_8
  3.   Encoding.default_internal = Encoding::UTF_8
  4. end
  5. require 'iconv'
  6. require 'hpricot'
  7. require 'open-uri'



  8. site=Hash.new

  9. site['url']='http://zu.cq.soufun.com/house/c21000-d22000-g22-s31-kw%bd%f0%c9%bd%c3%fb%b6%bc/'

  10. site['xpath']='//p[@class="housetitle"]/'
  11. file=open(site['url'])
  12. puts file.charset
  13.       content=Iconv.conv('UTF-8//IGNORE', file.charset, file.read)
  14.     doc = Hpricot(content)
  15.     doc.search(site['xpath']).each do |link|
  16.       text= link.inner_text
  17.     puts text
  18. end
复制代码
报错信息  in `<main>': "\x90" on GB2312 (Encoding::InvalidByteSequenceError)

论坛徽章:
0
2 [报告]
发表于 2012-02-13 16:06 |只看该作者
本帖最后由 yakczh 于 2012-02-13 16:06 编辑

不加
  1. if RUBY_VERSION =~ /1.9/
  2.   Encoding.default_external = Encoding::UTF_8
  3.   Encoding.default_internal = Encoding::UTF_8
  4. end
复制代码
这个头报的错不一样

Ruby193/lib/ruby/gems/1.9.1/gems/hpricot-0.8.6-x86-mswin32/lib/hpricot/builder.rb:9:in `gsub': invalid byte sequence in GBK (ArgumentError)
         

论坛徽章:
3
寅虎
日期:2013-11-27 07:53:29申猴
日期:2014-09-12 09:24:152015年迎新春徽章
日期:2015-03-04 09:48:31
3 [报告]
发表于 2012-02-13 21:12 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
0
4 [报告]
发表于 2012-02-13 21:51 |只看该作者
这个头搞得代码好难看

论坛徽章:
0
5 [报告]
发表于 2012-02-14 09:56 |只看该作者
本帖最后由 yakczh 于 2012-02-14 09:56 编辑

加了
  1. if RUBY_VERSION =~ /1.9/

  2.   Encoding.default_external = Encoding::UTF_8

  3.   Encoding.default_internal = Encoding::UTF_8

  4. end
复制代码
以后还需要在文件头指定
  1. #encoding: utf-8  
复制代码
文件编码吗?
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP