免费注册	查看新帖 \|


平台论坛博客文库

› 论坛 › 程序设计 › Python › python获取页面html代码的问题

最近访问板块

发新帖

查看: 8246 | 回复: 3

上一主题

下一主题

python获取页面html代码的问题 [复制链接]

论坛徽章:: 0

电梯直达

跳转到指定楼层

1楼 [收藏(0)] [报告]

发表于 2010-10-14 22:25 |只看该作者 |倒序浏览

def getPage():
url = 'http://topic.csdn.net/u/20101007/17/C17A944B-806B-4C78-9D20-EF4CF33F99AA.html'
page = urllib.urlopen(url)
html = page.readlines();
return html

复制代码

代码如上，其他地方的html都能获取。就是csdn论坛的不行。
老是返回

'<html>\r\n', '<head><title>403 Forbidden</title></head>\r\n', '<body bgcolor="white">\r\n', '<center><h1>403 Forbidden</h1></center>\r\n', '<hr><center>nginx/0.7.65</center>\r\n', '</body>\r\n', '</html>\r\n'

复制代码

403错误，各位有什么办法解决么？

本来是想简单获取下html，找几个图片地址，太多了。自己一个一个下太麻烦。谁知遇到这样的问题，晕啊。

HTML, python, 代码, 获取, 页面, HTML, python, 代码, 获取, 页面

文库|博客

论坛徽章:: 0

2楼 [报告]

发表于 2010-10-14 22:51 |只看该作者

你用浏览器打开试试，看会不会出现 403 Forbidden 这种问题

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

3楼 [报告]

发表于 2010-10-14 23:32 |只看该作者

谢谢楼上的关注，用浏览器当然能打开了。

问题解决了，加个头信息就行。csdn好像对那个做了验证。

def getPage(url):
'''下载文件html代码，找出一楼的核心代码'''
opener = urllib2.build_opener()
#不加头信息则出现403错误和乱码
opener.addheaders = [('User-agent', 'Mozilla/5.0')];
htmlAll = opener.open( url ).read()
reg1Floor = '<div class="msgfont">(.*?)</div>'
html = re.search(reg1Floor,htmlAll)
html = html.group()
#文件保存编码和文件编辑编码都是utf-8，所以decode一次，不然会出现乱码，但是不影响结果。
return html.decode('utf-8')

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

4楼 [报告]

发表于 2010-10-15 22:39 |只看该作者

哦，记下，以后可能用到。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

发新帖

Chinaunix › 论坛 › 程序设计 › Python › python获取页面html代码的问题

北京盛拓优讯信息技术有限公司. 版权所有京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号：11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员联系我们：huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP