免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1885 | 回复: 4
打印 上一主题 下一主题

tree_builder parse 网页,as_html中的中文成了&#x5FEB。求救 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2012-07-26 23:12 |只看该作者 |倒序浏览
本帖最后由 pigkingone 于 2012-07-26 23:44 编辑

tree_builder parse 网页,as_html中的中文成了&#x5FEB。求救。请问原因是什么,为什么造成啊。代码如下。结果如下:
注:结果中,汉字都成了莫名其妙的东西。但是用浏览器方式查看,却可以看到正常的中文

open HAN,'>:encoding(utf', '123.html' or die $!;
@name=qw/吞噬星空 天才相师 武动乾坤 遮天/;
$reqname=encode('utf8',decode('gb2312',$name[0]));
$desReq="http://search.booksky.org/Search.aspx?BookName=$reqname&SearchType=ForBookName";
$CON=get($desReq) or die $!;

$tree=HTML::TreeBuilder->new;
$tree->parse($CON);
$tree->eof;
say $desReq or die $!;

syswrite(HAN,$tree->as_HTML);#,length($CON)) or die $!;#bytes::



结果部分如下:
<html><head><meta content="text/html; charset=utf-8" http-equiv="Content-Type" /><title>快眼看书-小说搜索</title><link href="css/css.css" rel="Stylesheet" type="text/css" /><script src="http://www.google-analytics.com/urchin.js" type="text/javascript"></script><script type="text/javascript">_uacct = "UA-166848-2";urchinTracker();</script></head><body><form action="Search.aspx" method="get"><table border="0" width="100%"><tr><td align="center"><a href="/">快眼看书</a></td></tr><tr><td align="center"><input name="BookName" type="text" value="吞噬星空" /><input type="submit" value="找一下" /><br /><input checked name="SearchType" type="radio" value="ForBookName" /><label


用浏览器打开如下:
快眼看书
等等

论坛徽章:
46
15-16赛季CBA联赛之四川
日期:2018-03-27 11:59:132015年亚洲杯之沙特阿拉伯
日期:2015-04-11 17:31:45天蝎座
日期:2015-03-25 16:56:49双鱼座
日期:2015-03-25 16:56:30摩羯座
日期:2015-03-25 16:56:09巳蛇
日期:2015-03-25 16:55:30卯兔
日期:2015-03-25 16:54:29子鼠
日期:2015-03-25 16:53:59申猴
日期:2015-03-25 16:53:29寅虎
日期:2015-03-25 16:52:29羊年新春福章
日期:2015-03-25 16:51:212015亚冠之布里斯班狮吼
日期:2015-07-13 10:44:56
2 [报告]
发表于 2012-07-27 09:07 |只看该作者
html 的转义符 按这个关键字 google 下。
就好像字符串里的 \n 不是那兩個字符而是換行一樣。

论坛徽章:
0
3 [报告]
发表于 2012-07-27 13:49 |只看该作者
哪个是转意字符啊?我粘贴的HTML在帖子里都又成汉字了。在编辑器里却是我标题那样的显示。不解。能详细说明下吗?在帖子中一些字符无法正常显示,实在不行帮忙截图吧。实在感谢

论坛徽章:
46
15-16赛季CBA联赛之四川
日期:2018-03-27 11:59:132015年亚洲杯之沙特阿拉伯
日期:2015-04-11 17:31:45天蝎座
日期:2015-03-25 16:56:49双鱼座
日期:2015-03-25 16:56:30摩羯座
日期:2015-03-25 16:56:09巳蛇
日期:2015-03-25 16:55:30卯兔
日期:2015-03-25 16:54:29子鼠
日期:2015-03-25 16:53:59申猴
日期:2015-03-25 16:53:29寅虎
日期:2015-03-25 16:52:29羊年新春福章
日期:2015-03-25 16:51:212015亚冠之布里斯班狮吼
日期:2015-07-13 10:44:56
4 [报告]
发表于 2012-07-27 14:42 |只看该作者
pigkingone 发表于 2012-07-27 13:49
哪个是转意字符啊?我粘贴的HTML在帖子里都又成汉字了。在编辑器里却是我标题那样的显示。不解。能详细说明 ...


关键字都给你了自己 google 下啊,我复制粘贴过来也没什么意思。&是转义符它和后面跟的 ; 之间的内容不再是字面上的意思

论坛徽章:
0
5 [报告]
发表于 2012-07-27 20:50 |只看该作者
哦。谢谢了。那还有办法还原吗?比如我想在其中正则表达式的方法查找一些关键字。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP