免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12
最近访问板块 发新帖
楼主: hh11
打印 上一主题 下一主题

讨论,第三方统计是如何获取网页标题的? [复制链接]

论坛徽章:
0
11 [报告]
发表于 2008-04-17 11:07 |只看该作者
原帖由 ashchen 于 2008-4-16 23:50 发表
抓下来referer来分析,取个标题太简单了,而且只要去网页的前1k字节足够了,taobao的页面都一样

而且取过url标题的下次不需要再去取,或者存一下referer,另外运行一个定时程序专门根据referer更新标题


嗯,分析标题不需要实时的,另外一个程序慢慢跑就行了。

论坛徽章:
0
12 [报告]
发表于 2008-04-17 14:30 |只看该作者
谢谢大家的指教,如果去获取远程网页html,是不是用curl效率最好,用php自身的函数抓取速度太慢,如何用curl只去下载某个页面的前1k字节呢?找了一些参考,都没有找到答案。

论坛徽章:
0
13 [报告]
发表于 2008-04-17 14:47 |只看该作者
读一K字节?
怎么读.好奇中...

论坛徽章:
0
14 [报告]
发表于 2008-04-17 21:24 |只看该作者
水平还没到那个程度就把网页整个抓下来嘛,脑筋是活的!!!!!!
给你瓶农药还当饮料喝?

论坛徽章:
0
15 [报告]
发表于 2008-04-17 21:30 |只看该作者
原帖由 hh11 于 2008-4-17 14:30 发表
谢谢大家的指教,如果去获取远程网页html,是不是用curl效率最好,用php自身的函数抓取速度太慢,如何用curl只去下载某个页面的前1k字节呢?找了一些参考,都没有找到答案。


呵呵,又说慢,啥叫慢阿,啥叫快阿?

论坛徽章:
0
16 [报告]
发表于 2008-04-17 21:32 |只看该作者
原帖由 liuxingyuyuni 于 2008-4-17 14:47 发表
读一K字节?
怎么读.好奇中...


http协议有Range,有空可以研究一下
另外读取页面的时候,判断是否到标题了,获得完整标题就关闭stream,也能提高一下效率
file_get_contents() 结合 stream的几个函数,可以很好的完成任务,curl也不错,但编译php的时候要加上才行,curl对应的选项CURLOPT_RANGE

不过发送range并不明智,怕有的服务器不支持,不如程序里去控制,效率相差无几

[ 本帖最后由 ashchen 于 2008-4-17 21:35 编辑 ]

论坛徽章:
0
17 [报告]
发表于 2008-04-18 11:15 |只看该作者
原帖由 ashchen 于 2008-4-17 21:32 发表


http协议有Range,有空可以研究一下
另外读取页面的时候,判断是否到标题了,获得完整标题就关闭stream,也能提高一下效率
file_get_contents() 结合 stream的几个函数,可以很好的完成任务,curl也不错, ...


我实验了一下,用curl的CURLOPT_RANGE可以处理,但对全完全静态的页面有效,对动态页面就无效了。
用file_get_contents() 结合 stream,能否给个简单的例子呢?写出简单结构就行了,不需要去写正则。
谢谢了。

论坛徽章:
0
18 [报告]
发表于 2008-04-18 11:36 |只看该作者
原帖由 ashchen 于 2008-4-16 23:50 发表
抓下来referer来分析,取个标题太简单了,而且只要去网页的前1k字节足够了,taobao的页面都一样

而且取过url标题的下次不需要再去取,或者存一下referer,另外运行一个定时程序专门根据referer更新标题


取过url标题的下次不需要再去取 这个怎么做到?

<script src="xxx.php?title="+document.title 这样就可以了

[ 本帖最后由 zjq8188 于 2008-4-18 11:38 编辑 ]
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP