免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3532 | 回复: 5
打印 上一主题 下一主题

请教 HTML::TreeBuilder::XPath 如何取得xpath 对应的所有 html contents [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2016-03-29 18:10 |只看该作者 |倒序浏览
本帖最后由 david_95 于 2016-03-29 18:13 编辑

我想取得 xpath 对应的html contents, 就是 带 html tag attributes 等内容。我用 $treeParser->as_XML_compact($xpath_setting) 有时候会报错 ,我猜是因为网页内容可能不完整,无法解析为xml

我后来又找到 $treeParser->findnodes_as_string($xpath_setting), 但是这个有缺陷: 对应xpath 只有一个node 时,是ok 的。 如果xpath 有一批对应的node ,就只能把第一层node 的html tag 找出来。

例如: 我用到 xpath:  .//div[contains(\@id,\"Widget\")] ,这个对应十个 div , 每隔div 下有多个node.
而 findnodes_as_string ,就只能找出十个div , div 下的node 内容就丢失了。
取得内容是就像  <div id="ns_0WNSWFKX64E4EKK8BYVR_1831_Widget" class="a-section unified_widget rcm widget s9hl s9Widget s9Multipack"></div>
而div 下还应该有多个html node..
请教我该怎么作,才能把对应十个div 下,所有的html 内容都获得?



论坛徽章:
1
操作系统版块每日发帖之星
日期:2016-06-12 06:20:00
2 [报告]
发表于 2016-03-29 18:32 |只看该作者
本帖最后由 yakczh_cu 于 2016-03-29 18:36 编辑

用 scrappy  https://metacpan.org/pod/Scrappy

  1. $element = $scraper->select('css-style')->data->[0]
  2. print $element->{html}
复制代码

论坛徽章:
0
3 [报告]
发表于 2016-03-30 12:47 |只看该作者
回复 2# yakczh_cu


    谢谢,看了一下,scrappy 确实很强大,研究中

论坛徽章:
0
4 [报告]
发表于 2016-03-30 21:17 |只看该作者
在家和在公司的电脑, cpan 都安装Scrappy失败, 好挫败啊 。 perl module 为什么这么难安装
在公司是 因为依赖 DateTime::Formate::Sqlite 无法安装失败
在家是因为依赖 Template 无法安装失败

论坛徽章:
1
操作系统版块每日发帖之星
日期:2016-06-12 06:20:00
5 [报告]
发表于 2016-03-31 11:07 |只看该作者
本帖最后由 yakczh_cu 于 2016-03-31 11:18 编辑

@david_95

  1. use 5.01;
  2. use HTML::TreeBuilder::XPath;

  3. my $tree= HTML::TreeBuilder::XPath->new;
  4. $tree->parse_file( \*DATA);   


  5. my $allhtml=$tree->findnodes_as_string( '//div[contains(@id,"Widget")]/*');   
  6. say $allhtml;

  7. __DATA__
  8. <div id='Widget' >
  9.       <ul id='first'>
  10.                
  11.                         <li><a href="http://www.baidu.com">baidu</a></li>
  12.                         <li><a href="http://www.google.com">google</a></li>
  13.                        <li>  <a href="http://www.soso.com">soso</a></li>
  14.                  
  15.         </ul>
  16.         <ul id='secend'>
  17.                
  18.                         <li><a href="http://www.baidu.com">baidu</a></li>
  19.                         <li><a href="http://www.google.com">google</a></li>
  20.                        <li>  <a href="http://www.soso.com">soso</a></li>
  21.                  
  22.         </ul>
  23.     </div>
  24.     </body>
复制代码

论坛徽章:
0
6 [报告]
发表于 2016-03-31 13:12 |只看该作者
本帖最后由 david_95 于 2016-03-31 13:59 编辑

回复 5# yakczh_cu


    十分感谢您的热心 , 我又试了一下,确实都取到了。之前测试时不清楚为啥没取到,我得找找之前的网页,看为啥不行。
返回结果是变量而不是数组。
而 findnodes_as_strings ,我以为是和 findnodes_as_string 有相似功能,而实际不是。 findnodes_as_strings 取网页的值,findnodes_as_string取网页的html contents
这两个函数名字取的不好,易被误解
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP