论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2008-03-24 19:37 |只看该作者 |倒序浏览

想用python提取http头中比如Etag,Content-Length这两个头的值，有没有特定的库可以实现啊？！
不想用urllib2实现，太慢了，有C扩展的么？

[ 本帖最后由 mageguoshi 于 2008-3-24 19:38 编辑 ]

文库|博客

jigloo

稍有积蓄

论坛徽章:: 0

2楼 [报告]

发表于 2008-03-24 19:57 |只看该作者

pycurl又简单又强大又快速。
pycurl.Curl()有getinfo方法。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

mageguoshi

丰衣足食

论坛徽章:: 0

3楼 [报告]

发表于 2008-03-24 23:16 |只看该作者

恩，我看了pycurl库，网络上也有些资料，不过详细的都还是E文的，
下面是一段例子代码

import pycurl
c = pycurl.Curl()
c.setopt(pycurl.URL, "http://www.baidu.com/")
c.setopt(pycurl.HTTPHEADER, ["Accept:"])
import StringIO
b = StringIO.StringIO()
c.setopt(pycurl.WRITEFUNCTION, b.write)
c.setopt(pycurl.FOLLOWLOCATION, 1)
c.setopt(pycurl.MAXREDIRS, 5)
c.perform()
c.getinfo(pycurl.CONTENT_LENGTH_DOWNLOAD)

CONTENT_LENGTH_DOWNLOAD就是可以得到Content-Length的头信息，可是getinfo()没有Etag的变量啊！如何获得
还有c.setopt(pycurl.HTTPHEADER, ["Accept:"]) 这段什么意思，文档上是这么解释的，不过不大理解：
CURLOPT_HEADER

A non-zero parameter tells the library to include the header in the body output. This is only relevant for protocols that actually have headers preceding the data (like HTTP).

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

mageguoshi

丰衣足食

论坛徽章:: 0

4楼 [报告]

发表于 2008-03-25 14:27 |只看该作者

pycurl能不能象urllib2一样以字典的方式返回所有http头信息啊！？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

gucuiwen

家境小康

论坛徽章:: 0

5楼 [报告]

发表于 2008-03-25 16:42 |只看该作者

import httplib

conn=httplib.HTTPConnection("www.sina.com")
conn.request("GET", "/")
r=conn.getresponse()
r.getheaders() #获取所有的http头
r.getheader("content-length") #获取特定的头

>>> conn=httplib.HTTPConnection("www.sina.com.cn")
>>> conn.request("GET", "/")
>>> r=conn.getresponse()
>>> r.getheaders()
[('x-cache', 'HIT from sh-9.sina.com.cn'), ('x-powered-by', 'mod_xlayout_jh/0.0.
1vhs.markII.remix'), ('accept-ranges', 'bytes'), ('expires', 'Tue, 25 Mar 2008 0
8:43:33 GMT'), ('vary', 'Accept-Encoding'), ('server', 'Apache/2.0.54 (Unix)'),
('last-modified', 'Tue, 25 Mar 2008 08:32:57 GMT'), ('connection', 'close'), ('e
tag', '"b177fb-48d9a-cca4e040"'), ('cache-control', 'max-age=60'), ('date', 'Tue
, 25 Mar 2008 08:42:33 GMT'), ('content-type', 'text/html'), ('age', '54')]
>>> r.getheader("content-length")
>>>

[ 本帖最后由 gucuiwen 于 2008-3-25 16:45 编辑 ]