免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 3866 | 回复: 13
打印 上一主题 下一主题

抓取网页的问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2008-08-20 10:25 |只看该作者 |倒序浏览
抓取网页,先发送head,返回的信息只有expires,无last modifed.
如何根据http头返回的expires判断网页是否更新
比如返回的是
expires=Saturday, 20-Aug-11 02:11:46 GMT

是把这个时间和系统的时间比较看expires比系统时间(假设系统时间是正确的当前时间)迟还是早,迟就不用更新即重新抓网页,早就重新抓网页吗?

还是有其他方法呢?

论坛徽章:
0
2 [报告]
发表于 2008-08-20 10:59 |只看该作者
直接写socket程序获取当前的网页内容存入buffer中

论坛徽章:
4
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:56:11IT运维版块每日发帖之星
日期:2016-08-11 06:20:00IT运维版块每日发帖之星
日期:2016-08-15 06:20:00
3 [报告]
发表于 2008-08-20 11:02 |只看该作者

回复 #1 greatho1507 的帖子

expires和网页是否更新没有关系。
网页最后更新时间需要看last modifed这个字段。

论坛徽章:
0
4 [报告]
发表于 2008-08-20 11:02 |只看该作者
晕,我要判断网页是否更新,如果没有更新我就不抓取。。。

论坛徽章:
0
5 [报告]
发表于 2008-08-20 11:03 |只看该作者
原帖由 happy_fish100 于 2008-8-20 11:02 发表
expires和网页是否更新没有关系。
网页最后更新时间需要看last modifed这个字段。


expires
不是说网页的有效时间吗?
在有效时间内就不用重新抓取网页而是用缓存中的数据?

论坛徽章:
4
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:56:11IT运维版块每日发帖之星
日期:2016-08-11 06:20:00IT运维版块每日发帖之星
日期:2016-08-15 06:20:00
6 [报告]
发表于 2008-08-20 11:07 |只看该作者

回复 #4 greatho1507 的帖子

绝大多数网站都不会设置last modifed这个header

论坛徽章:
0
7 [报告]
发表于 2008-08-20 11:08 |只看该作者
试试这个,我也不太清楚:

The HEAD Method

A HEAD request is just like a GET request, except it asks the server to return the response headers only, and not the actual resource (i.e. no message body). This is useful to check characteristics of a resource without actually downloading it, thus saving bandwidth. Use HEAD when you don't actually need a file's contents.

The response to a HEAD request must never contain a message body, just the status line and headers.


http://jmarshall.com/easy/http/

论坛徽章:
0
8 [报告]
发表于 2008-08-20 11:09 |只看该作者

回复 #6 happy_fish100 的帖子

如果是这样的话,LZ的问题似乎就没办法解决了....期待更好的答案.

论坛徽章:
4
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:56:11IT运维版块每日发帖之星
日期:2016-08-11 06:20:00IT运维版块每日发帖之星
日期:2016-08-15 06:20:00
9 [报告]
发表于 2008-08-20 11:09 |只看该作者

回复 #5 greatho1507 的帖子

你说得也没错。如果要根据expires来判断也是可行的。大多数网页都不会设置expires的。

论坛徽章:
0
10 [报告]
发表于 2008-08-20 11:17 |只看该作者
原帖由 happy_fish100 于 2008-8-20 11:09 发表
你说得也没错。如果要根据expires来判断也是可行的。大多数网页都不会设置expires的。




根据expires来判断也是可行的?
按照我说的用系统时间和expires来判断?还是有其他的方法?
浏览器又是如何做到的呢
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP