免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 6176 | 回复: 1
打印 上一主题 下一主题

如何对不规范的HTML使用XPath查询 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2008-06-30 18:46 |只看该作者 |倒序浏览
10可用积分
刚接触ruby,目前需要用ruby做bot,遇到个棘手的问题

我发现REXML不能直接处理不规范的HTML (或者说非XHTML),
我做java的时候都是用htmlcleaner解决这个问题的,但是ruby就没啥概念了。

关于HTML的parser, 现在google下来也有好几个工具了

rubyful_soap
ymHtml
hTree

不过还是想问问各位都在用哪个开发包呢?

论坛徽章:
0
2 [报告]
发表于 2008-07-01 12:02 |只看该作者
先用rubyful_soup了,我看oreilly的书上的例子就是用这个soup



  1. require 'rexml/document'
  2. require 'rubygems'
  3. require 'rubyful_soup'

  4. resp, data = request(url, nil)
  5. # entrance xml
  6. ent_xml = BeautifulSoup.new(resp.body).prettify
  7. ent_doc = REXML::Document.new(ent_xml)
  8. elems_input = ent_doc.elements.to_a('//input')
  9. elems_input.each { | elem_input |
  10.     puts elem_input
  11. }
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP