免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 4095 | 回复: 5
打印 上一主题 下一主题

perl 利用XML::LibXML 解析 html [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-11-17 16:25 |只看该作者 |倒序浏览
本帖最后由 Perling_ 于 2014-11-17 18:47 编辑

    贴下我的代码
#!/usr/bin/perl
use strict;
use warnings;


use XML::LibXML;
use XML::LibXML::Common;
use XML::NamespaceSupport;
use XML::SAX;
use XML::LibXML::NodeList;

my $dom = XML::LibXML->load_html(  location => "./index.html" );
my $node = XML::LibXML::Element->new( $dom );
my @head = $node->getChildrensByTagName("head");
foreach (@head){
    print "$_ \n";
}
执行时报错
./index.html:39: HTML parser error : htmlParseEntityRef: expecting ';'
ttp://v.t.sina.com.cn/share/share.php?',u=d.location.href,p=['url=',e(u),'&title
                                                                                ^
./index.html:39: HTML parser error : htmlParseEntityRef: expecting ';'
到深度分析。网站提供环球、军事、历史等板块。','&appkey
                                                                                ^
./index.html:40: HTML parser error : htmlParseEntityRef: expecting ';'
f='http://v.t.qq.com/share/share.php?',u=d.location.href,p=['url=',e(u),'&title
                                                                                ^
./index.html:40: HTML parser error : htmlParseEntityRef: expecting ';'
到深度分析。网站提供环球、军事、历史等板块。','&appkey
                                                                                ^
./index.html:42: HTML parser error : htmlParseEntityRef: expecting ';'
share.renren.com/share/buttonshare?link=',u=d.location,l=d.title,p=[e(u),'&title
                                                                                ^
./index.html:62: HTML parser error : htmlParseEntityRef: expecting ';'
                                <a href="http://so.miercn.com/cse/search?s=3150559939769104024&q=G20峰会"
                                                                                                ^
./index.html:62: HTML parser error : htmlParseEntityRef: expecting ';'
pan></a><a href="http://so.miercn.com/cse/search?s=3150559939769104024&q
                                                                                ^
./index.html:62: HTML parser error : htmlParseEntityRef: expecting ';'
pan></a><a href="http://so.miercn.com/cse/search?s=3150559939769104024&q
                                                                                ^
./index.html:62: HTML parser error : htmlParseEntityRef: expecting ';'
pan></a><a href="http://so.miercn.com/cse/search?s=3150559939769104024&q
                                                                                ^
./index.html:62: HTML parser error : htmlParseEntityRef: expecting ';'
pan></a><a href="http://so.miercn.com/cse/search?s=3150559939769104024&q
                                                                                ^
./index.html:62: HTML parser error : htmlParseEntityRef: expecting ';'
pan></a><a href="http://so.miercn.com/cse/search?s=3150559939769104024&q
                                                                                ^
./index.html:62: HTML parser error : htmlParseEntityRef: expecting ';'
pan></a><a href="http://so.miercn.com/cse/search?s=3150559939769104024&q
                                                                                ^
./index.html:62: HTML parser error : htmlParseEntityRef: expecting ';'
pan></a><a href="http://so.miercn.com/cse/search?s=3150559939769104024&q
                                                                                ^
./index.html:219: validity error : ID Switch_1 already defined
                                        <div id="Switch_1">
                                                          ^
./index.html:224: validity error : ID Switch_2 already defined
                                        <div id="Switch_2">
                                                          ^
./index.html:229: validity error : ID Switch_3 already defined
                                        <div id="Switch_3">
                                                          ^
./index.html:234: validity error : ID Switch_4 already defined
                                        <div id="Switch_4">
                                                          ^
./index.html:239: validity error : ID Switch_5 already defined
                                        <div id="Switch_5">
                                                          ^
./index.html:244: validity error : ID Switch_6 already defined
                                        <div id="Switch_6">
                                                          ^
./index.html:249: validity error : ID Switch_7 already defined
                   <div id="Switch_7">
                                     ^
./index.html:254: validity error : ID Switch_8 already defined
                                        <div id="Switch_8">
                                                          ^
./index.html:266: validity error : ID SwitchNav already defined
nmouseover="pauseSwitch();"  onmouseout="goonSwitch();"></div><ul id="SwitchNav"
                                                                                ^
./index.html:268: HTML parser error : Unexpected end tag : script
                                </script>
                                         ^
i18n error : input conversion failed due to input error, bytes 0x81 0xD7 0xC1 0xEC
i18n error : input conversion failed due to input error, bytes 0x81 0xD7 0xC1 0xEC
I/O error : encoder error

求大神解答  初学者  不要见笑 谢谢

论坛徽章:
0
2 [报告]
发表于 2014-11-17 16:29 |只看该作者
  有没有文档啊  在线等

论坛徽章:
1
2015年辞旧岁徽章
日期:2015-03-03 16:54:15
3 [报告]
发表于 2014-11-18 11:48 |只看该作者
你要什么文档?XML::LibXML的?search.cpan.org

看你是在用XML::LibXML读HTML,建议还是用个更方便的模块读HTML的东西,比如Mojo::Dom

论坛徽章:
1
2015年辞旧岁徽章
日期:2015-03-03 16:54:15
4 [报告]
发表于 2014-11-18 12:18 来自手机 |只看该作者
html源文件的中文编码没解决吧。

论坛徽章:
0
5 [报告]
发表于 2014-11-19 13:55 |只看该作者
回复 3# py


恩  知道的  关键是要求必须用这个, 官网上边的文档大多数都是跟xml 有关的  html的太少了  


   

论坛徽章:
1
狮子座
日期:2014-02-25 09:46:33
6 [报告]
发表于 2014-11-20 21:18 |只看该作者
菜鸟过来学习的~~~
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP