免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3243 | 回复: 2
打印 上一主题 下一主题

Nokogiri 取不出链接 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2012-05-05 21:17 |只看该作者 |倒序浏览
  1.    
  2.     require 'nokogiri'  
  3.         require 'open-uri'  
  4.     require 'iconv'  
  5. url='http://zu.cq.soufun.com/house/c21000-d22000-g22-s31-kw%bd%f0%c9%bd%c3%fb%b6%bc/'  
  6.     xpath="//p[@class='housetitle']/a"  
  7.       
  8.         # get the nokogiri document   
  9.         doc = Nokogiri::HTML(open(url))  
  10.       
  11.          doc.xpath(xpath).each do |link|    # doc.css("p.housetitle").each do |link|  
  12.             puts link.content  
  13.            puts link['href']  
  14.              end  
复制代码
据文件下载到本地
用 url="http://localhost/test.html"
也还是取不出来

论坛徽章:
1
15-16赛季CBA联赛之吉林
日期:2018-05-23 14:31:12
2 [报告]
发表于 2012-05-09 10:16 |只看该作者
您解析的"//p[@class='housetitle']/a"是不是有问题?我看过这个页面,我没看到class='housetitle'的class.
我用下面的代码可以解析出网址:
  1.   1 #!/usr/bin/env ruby
  2.   2 require 'nokogiri'
  3.   3 require 'open-uri'
  4.   4 #require 'iconv'
  5.   5 url='http://zu.cq.soufun.com/house/c21000-d22000-g22-s31-kw%bd%f0%c9%bd%c3%fb%b6%bc/'
  6.   6 #xpath="/a/@href"
  7.   7
  8.   8 # get the nokogiri document
  9.   9 doc = Nokogiri::HTML(open(url))
  10. 10
  11. 11 doc.xpath("//div/a/@href").each do |link|    # doc.css("p.housetitle").each do |link|
  12. 12   puts link.content
  13. 13   puts link['href']
  14. 14 end
复制代码

论坛徽章:
0
3 [报告]
发表于 2012-05-09 12:14 |只看该作者
本帖最后由 yakczh 于 2012-05-09 12:22 编辑
  1.        <p class="housetitle">
  2.                                                         <a href='/chuzu/3_3956185_1.htm' target="_blank"><strong>
  3.                                                             龙脊金山名都 2房2厅1卫 2000/月 精装修
  4.                                                         </strong></a>
  5.                                                         
复制代码
查看源码 直接搜索 class="housetitle"
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP