免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3787 | 回复: 2
打印 上一主题 下一主题

python获取网页内容比浏览器查看源码少? [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-02-20 15:44 |只看该作者 |倒序浏览
本帖最后由 chuanjiesun 于 2014-02-20 15:45 编辑

我使用python3.3,来获取网页内容,但是发现浏览器显示有的内容,在python的urlopen返回里没有,这是什么原因导致?
from bs4 import BeautifulSoup as beautifulsoup
from urllib import request

url = 'http://cirt.net/passwords?vendor=Huawei Technologies Co'

req = request.urlopen(url)
resp = req.read()
resp_decode = resp.decode()
print(resp_decode)
我在浏览器源码里可以看到<tr><td align=left valign=top width=300><b>Password</b></td><td align=left width=85%>admin</td></tr>
这样的内容,但是在resp响应里面没有了,这是什么原因导致的,请大家一起想个办法解决。

论坛徽章:
11
技术图书徽章
日期:2014-03-01 14:44:34天蝎座
日期:2014-05-21 22:11:59金牛座
日期:2014-05-30 17:06:14
2 [报告]
发表于 2014-02-20 17:07 |只看该作者
回复 1# chuanjiesun
URL需要转义,浏览器会自动转,Python不管这事。
  1. >>> from urllib import request, parse
  2. >>> parse.quote('Huawei Technologies Co')
  3. 'Huawei%20Technologies%20Co'
  4. >>> url = 'http://cirt.net/passwords?vendor=' + parse.quote('Huawei Technologies Co')
  5. >>> req = request.urlopen(url)
  6. >>> resp = req.read()
  7. >>> resp.find(b'<td align=left width=85%>admin</td>')
  8. 10611
  9. >>> resp[10500:11000]
  10. b'</b></td><td align=left width=100%>admin</td></tr>\n<tr><td align=left valign=top width=300><b>Password</b></td><td align=left width=85%>admin</td></tr>\n<tr><td align=left valign=top width=300><b>Level</b></td><td align=left width=100%>Administrator</td></tr>\n<tr><td align=left valign=top width=300><b>Notes</b></td><td align=left width=100%>Also: Admin/admin</td></tr></table>\n<br><table border=0 width=95%>\n        <tr><td colspan=2 bgcolor="#E6E6E6"><a name="1823"></a><h3><b>2. &nbsp;Huawei Techn'
  11. >>>
复制代码

论坛徽章:
0
3 [报告]
发表于 2014-02-21 10:06 |只看该作者
果然是的,谢谢啊回复 2# timespace


   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP