免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 7432 | 回复: 5
打印 上一主题 下一主题

python爬网页---百度旅游 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-09-17 16:39 |只看该作者 |倒序浏览
想爬取 百度旅游上用户旅游日记
以这篇为例:
http://lvyou.baidu.com/notes/4a9bafc20606a7048b25831f

  1. urlTra = "http://lvyou.baidu.com/notes/4a9bafc20606a7048b25831f"
  2. urlobj = urllib2.urlopen(urlTra).read()
  3. # print urlobj
  4. soup = BeautifulSoup(urlobj)
  5. section = soup.find('section',attrs={'id':'body'})
  6. print section
复制代码
网页结构如下:


问题:为什么检索不到section呢?返回结果为none

论坛徽章:
9
2015亚冠之阿尔纳斯尔
日期:2015-09-10 16:21:162015亚冠之塔什干火车头
日期:2015-07-01 16:23:022015年亚洲杯之巴勒斯坦
日期:2015-04-20 17:19:46子鼠
日期:2014-11-13 09:51:26未羊
日期:2014-08-28 18:13:36技术图书徽章
日期:2014-02-21 09:30:15酉鸡
日期:2014-01-14 11:12:49天蝎座
日期:2013-12-09 17:56:53平安夜徽章
日期:2015-12-26 00:06:30
2 [报告]
发表于 2013-09-17 17:39 |只看该作者
我这边是正常的
  1. [root@shell python]# python a.py
  2. [<section id="body" class="note_view_page note_page"> </section>]
  3. [root@shell python]# cat a.py
  4. #!/usr/bin/env python
  5. import urllib2
  6. from BeautifulSoup import BeautifulSoup
  7. url="http://lvyou.baidu.com/notes/4a9bafc20606a7048b25831f"
  8. urlobj=urllib2.urlopen(url).read()
  9. soup=BeautifulSoup(urlobj)
  10. section=soup.findAll('section',attrs={'id':'body'})
  11. print section
  12. [root@shell python]#
复制代码

论坛徽章:
0
3 [报告]
发表于 2013-09-18 09:26 |只看该作者
如果真的找不到,那么有2种可能:
1.你浏览器中看到的网页,和你用python代码抓取出来的网页的内容不同 -> 需要你自己打印出来你自己抓取出来的内容是什么,然后再去写对应的BeautifulSoup的规则去提取
2.部分的html的节点,可能期间包含对应的,BeautifulSoup所支持不好的script或其他特殊内容(比如注释等内容)而导致BeautifulSoup无法正常解析,而导致提取不到所需要的内容 -> 如果是这样的情况,那么一种办法是:手动去删除特殊的内容,估计就可以了。

论坛徽章:
0
4 [报告]
发表于 2013-10-14 17:09 |只看该作者
恩恩  这个问题解决了   我用qwebkit 解析网页 能得到动态js内容   
然后直接用beautifulsoup定位到网页的div块(非section)中就可以了。。

论坛徽章:
0
5 [报告]
发表于 2013-10-14 18:50 |只看该作者
回复 4# tina437213


    qwebkit是什么?能介绍下么?

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
6 [报告]
发表于 2013-10-14 23:55 |只看该作者
可以的,没有问题。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP