免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 4029 | 回复: 6
打印 上一主题 下一主题

[网络相关] shell爬虫 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2012-07-11 11:04 |只看该作者 |倒序浏览
小弟用shell完成了一个爬虫程序。 爬数据没问
在数据更新这遇到问题了。
对于动态网页如何能判断出是否更新。
Last-Modified的方法不可取 动态网页获取不到
MD5也不可取,每次下载同一个页面MD5值都不一样。

麻烦各位大神支支招 谢谢了

论坛徽章:
0
2 [报告]
发表于 2012-07-11 11:15 |只看该作者
回复 1# yakezone


   第一次下载该页面,存为Last.html
第二次下载该页面,存在New.html
用diff 命令比较2个html

论坛徽章:
0
3 [报告]
发表于 2012-07-11 11:18 |只看该作者
MD5值不一样,那2个页面肯定有不同。而且即使行,那样的话会花很大的空间去保存以前的文件。回复 2# personball


   

论坛徽章:
0
4 [报告]
发表于 2012-07-11 11:21 |只看该作者
回复 3# yakezone


    那你也没说清楚,到底依据什么去判断“更新”?    只是从每次获取的数据,哪怕有一个字符不同,不也可以看作是更新?

论坛徽章:
0
5 [报告]
发表于 2012-07-11 16:56 |只看该作者
啥是爬虫啊?分享看看呗

论坛徽章:
0
6 [报告]
发表于 2012-07-11 17:41 |只看该作者
shell爬虫,高啊,哥只会用python来写呢

论坛徽章:
15
2015年辞旧岁徽章
日期:2015-03-03 16:54:15双鱼座
日期:2015-01-15 17:29:44午马
日期:2015-01-06 17:06:51子鼠
日期:2014-11-24 10:11:13寅虎
日期:2014-08-18 07:10:55酉鸡
日期:2014-04-02 12:24:51双子座
日期:2014-04-02 12:19:44天秤座
日期:2014-03-17 11:43:36亥猪
日期:2014-03-13 08:13:51未羊
日期:2014-03-11 12:42:03白羊座
日期:2013-11-20 10:15:18CU大牛徽章
日期:2013-04-17 11:48:45
7 [报告]
发表于 2012-08-03 11:14 |只看该作者
lastfile 发表于 2012-07-11 17:41
shell爬虫,高啊,哥只会用python来写呢

应该就是curl/wget 命令。蛮好的一个话题,居然没有继续讨论下去,可惜了。

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP