- 论坛徽章:
- 0
|
本帖最后由 pigkingone 于 2012-07-26 23:44 编辑
tree_builder parse 网页,as_html中的中文成了快。求救。请问原因是什么,为什么造成啊。代码如下。结果如下:
注:结果中,汉字都成了莫名其妙的东西。但是用浏览器方式查看,却可以看到正常的中文
open HAN,'>:encoding(utf ', '123.html' or die $!;
@name=qw/吞噬星空 天才相师 武动乾坤 遮天/;
$reqname=encode('utf8',decode('gb2312',$name[0]));
$desReq="http://search.booksky.org/Search.aspx?BookName=$reqname&SearchType=ForBookName";
$CON=get($desReq) or die $!;
$tree=HTML::TreeBuilder->new;
$tree->parse($CON);
$tree->eof;
say $desReq or die $!;
syswrite(HAN,$tree->as_HTML);#,length($CON)) or die $!;#bytes::
结果部分如下:
<html><head><meta content="text/html; charset=utf-8" http-equiv="Content-Type" /><title>快眼看书-小说搜索</title><link href="css/css.css" rel="Stylesheet" type="text/css" /><script src="http://www.google-analytics.com/urchin.js" type="text/javascript"></script><script type="text/javascript">_uacct = "UA-166848-2";urchinTracker();</script></head><body><form action="Search.aspx" method="get"><table border="0" width="100%"><tr><td align="center"><a href="/">快眼看书</a></td></tr><tr><td align="center"><input name="BookName" type="text" value="吞噬星空" /><input type="submit" value="找一下" /><br /><input checked name="SearchType" type="radio" value="ForBookName" /><label
用浏览器打开如下:
快眼看书
等等 |
|