Chinaunix

标题: 如何用python采集百度下拉框搜索数据 [打印本页]

作者: alexkh 时间: 2013-09-22 17:49
标题: 如何用python采集百度下拉框搜索数据
如题，知道百度下拉框搜索的关键词数据是这样的URL：http://suggestion.baidu.com/su?wd={关键词}，但使用requests库的get时，却返回为空，也伪装了UA，请问怎么处理？
我的代码如下：

#coding=utf-8
import requests
def get_box(word):
url = 'http://suggestion.baidu.com/su?wd=%s&p=3&cb=window.bdsug.sug&from=superpage' % word
headers = {
'User-Agent': 'Mozilla/4.0+(compatible;+MSIE+8.0;+Windows+NT+5.1;+Trident/4.0;+GTB7.1;+.NET+CLR+2.0.50727)'
}
r = requests.post(url, headers = headers)
print r.status_code
print r.content
get_box('途牛')

复制代码

在网上搜索时发现了PHP版，但不了解，仅供参考：

复制代码

欢迎光临 Chinaunix (http://bbs.chinaunix.net/)

Powered by Discuz! X3.2