免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3163 | 回复: 5
打印 上一主题 下一主题

hpricot vs nokogiry [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2012-02-12 13:11 |只看该作者 |倒序浏览
本帖最后由 yakczh 于 2012-02-12 13:12 编辑

 同一个url ,同一个xpath

url='http://zu.cq.soufun.com/house/c21000-d22000-g22-s31-kw%bd%f0%c9%bd%c3%fb%b6%bc/'
xpath="//p[@class='housetitle']/a"
   

用hpricot 抓取
  1. require 'hpricot'

  2. doc = Hpricot(open(url))

  3. doc.search(xpath).each do |item|
  4.   puts item['href']
  5. end
复制代码
有结果 

用nokogiri 抓取
  1. require 'nokogiri'
  2. doc = Nokogiri::HTML(open(url))
  3.        
  4. #    puts doc
  5. doc.xpath(xpath).each do |link|
  6.     puts link.content
  7.    puts link['href']
  8.          end
复制代码
无结果 

论坛徽章:
3
寅虎
日期:2013-11-27 07:53:29申猴
日期:2014-09-12 09:24:152015年迎新春徽章
日期:2015-03-04 09:48:31
2 [报告]
发表于 2012-02-12 13:15 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
46
15-16赛季CBA联赛之四川
日期:2018-03-27 11:59:132015年亚洲杯之沙特阿拉伯
日期:2015-04-11 17:31:45天蝎座
日期:2015-03-25 16:56:49双鱼座
日期:2015-03-25 16:56:30摩羯座
日期:2015-03-25 16:56:09巳蛇
日期:2015-03-25 16:55:30卯兔
日期:2015-03-25 16:54:29子鼠
日期:2015-03-25 16:53:59申猴
日期:2015-03-25 16:53:29寅虎
日期:2015-03-25 16:52:29羊年新春福章
日期:2015-03-25 16:51:212015亚冠之布里斯班狮吼
日期:2015-07-13 10:44:56
3 [报告]
发表于 2012-02-12 13:27 |只看该作者
模块的名字很奇葩

论坛徽章:
0
4 [报告]
发表于 2012-02-12 13:29 |只看该作者
回复 2# Sevk

  1. require 'pp'
  2. require 'open-uri'
  3. require 'nokogiri'

  4. url='http://zu.cq.soufun.com/house/c21000-d22000-g22-s31-kw%bd%f0%c9%bd%c3%fb%b6%bc/'
  5. xpath="//p[@class='housetitle']/a"
  6.    

  7. doc = Nokogiri::HTML(open(url))
  8.        
  9. #    puts doc
  10. doc.xpath(xpath).each do |link|
  11.     puts link.content
  12.    puts link['href']
  13.    pp link
  14.          end
复制代码
还是没有

论坛徽章:
0
5 [报告]
发表于 2012-02-12 13:45 |只看该作者
  1. doc.css("p.housetitle").each do |link|
  2.         puts link
  3.         
  4.         end
复制代码
用css选择器也取不出来

论坛徽章:
0
6 [报告]
发表于 2012-02-12 16:19 |只看该作者
用hpricot抓取 如果要输出 链接的内部文本 比如

  text= link.inner_text
puts text

报错 Ruby192/lib/ruby/gems/1.9.1/gems/hpricot-0.8.6-x86-mswin32/lib/hpricot/builder.rb:9:in `gsub': invalid byte sequence in UTF-8 (ArgumentError)

要强制转码才行

nokogiri可以直接在构造函数中传编码参数    doc = Nokogiri::HTML(open(url),'gbk')  
hpricot好象没用,只认utf8
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP