免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2231 | 回复: 3
打印 上一主题 下一主题

网页中嵌套网页的抓取问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2009-08-13 19:00 |只看该作者 |倒序浏览
我现在遇到一个网页,这个网页很奇怪,页面内有很多超链接可以链接到其他的网页,但是网络地址始终不变。这个网页的地址为

http://apps.who.int/classifications/apps/icd/icd10online/
我用程序抓取了其中的一个超链接,地址为
http://apps.who.int/classifications/apps/icd/icd10online/ka00.htm
但得到的为乱码,不知道是什么原因,有可能是编码问题。请各位高人指点,现将程序附上

#!/usr/bin/perl -w
use LWP;

open OUT ,">123.txt";

my $browser = LWP::UserAgent->new;
   @headers = (
  'User-Agent' => 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)',
  'Accept' => '*/*',
  'Accept-Encoding' => 'gzip, deflate',
  'Accept-Language' => 'zh-cn',

     ;
  my $response = $browser->get( "http://apps.who.int/classifications/apps/icd/icd10online/ka00.htm", @headers );

  if($response->is_success){
    my $content = $response->content;
print OUT $content;
}

1.png (25.73 KB, 下载次数: 19)

1.png

2.png (19.15 KB, 下载次数: 19)

2.png

论坛徽章:
0
2 [报告]
发表于 2009-08-13 19:19 |只看该作者
123.txt改成123.html

论坛徽章:
0
3 [报告]
发表于 2009-08-14 09:24 |只看该作者
原帖由 perlw01f 于 2009-8-13 19:19 发表
123.txt改成123.html

这个没有用,得到的还是乱码。
?臵齭??騑?軉???鲽j?

论坛徽章:
0
4 [报告]
发表于 2009-08-14 10:48 |只看该作者
'Accept-Encoding' => 'gzip, deflate',
------------------------
这里去掉gzip

这是http协议的压缩算法
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP