免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2500 | 回复: 6
打印 上一主题 下一主题

关于web页面链接检测问题? [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2005-07-28 09:43 |只看该作者 |倒序浏览
想写一个对web页面的链接检测程序,如下:
use LWP::UserAgent;
use HTTP::Request;
use HTTP::Response;

# create a user agent
my $url = "";

my $ua = LWP::UserAgent->;new();
$ua->;agent ("";
$ua->;from ();
        
# create a new request
my $request = HTTP::Request->;new();
$request->;method ("HEAD";
$request->;url ($url);

# get the response
my $response = $ua->;simple_request ($request);
my $c  = $response->;code;
my $m  = $response->;message;
               
print $m;

对部分链接的检测有问题,明明可以链接上,返回的却是错误的信息?这是为什么?
perl模块中是否还有比较好的检测程序?是否有人做过这个?谢谢

论坛徽章:
0
2 [报告]
发表于 2005-07-28 11:41 |只看该作者

关于web页面链接检测问题?

不知道你真正的意图。如果你只是测试对某个网页链接访问的有效性的话,用不着这么复杂。
你仔细看一下LWP的介绍就知道了。

论坛徽章:
0
3 [报告]
发表于 2005-07-28 15:32 |只看该作者

关于web页面链接检测问题?

perl link checker :

http://insite.sourceforge.net/

论坛徽章:
0
4 [报告]
发表于 2005-07-29 09:07 |只看该作者

关于web页面链接检测问题?

原帖由 "jeff_gu" 发表:
不知道你真正的意图。如果你只是测试对某个网页链接访问的有效性的话,用不着这么复杂。
你仔细看一下LWP的介绍就知道了。



我想测试网页链接访问的有效性,并且获取它返回的错误信息类型,比如:Can't connect to,read timeout,Moved Temporarily

但是我现在写的这段代码,我在检测某些页面时,会报错,但是直接打开却没有问题,所以想问一下是否LWP本身存在的问题,有没有其它方法?

论坛徽章:
0
5 [报告]
发表于 2005-07-29 11:45 |只看该作者

关于web页面链接检测问题?

报的什么错误,如果是超时一类的,那估计是你的timeout值应该设置的长一点。

论坛徽章:
0
6 [报告]
发表于 2005-07-29 13:57 |只看该作者

关于web页面链接检测问题?

不是超时,而是can't connect to bad hostname,还有server error。
但是刚刚发现有些链接在单独进行检测时,能得到正确的返回信息,但是几百个链接一起循环检测时,得到的结果居然是不一样的!

用的检测代码都是一样的呀!

大家看看这几个链接:
成都高科技术应用研究所 http://www.gkomok.com/ 检测结果是Object Not Found
深圳图书馆 http://szlib.szptt.net.cn/  检测结果是Server Error
而这些都是可以正常打开的页面

论坛徽章:
0
7 [报告]
发表于 2005-07-31 09:49 |只看该作者

关于web页面链接检测问题?

lwp 结果和普通页面访问后的结果不同应该是对方检测访问者的信息,如果不是合法的浏览器就返回类似 404 的结果。

你看看这篇文章,http://www.perlchina.org/archive/archive.php?action=archive&page=15
把 lwp 的 user agent 和 accept* 等设定在试。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP