免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 8728 | 回复: 4
打印 上一主题 下一主题

Python爬取动态生成的网页(框架)需要具备哪些知识或者使用哪些库? [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-04-14 16:19 |只看该作者 |倒序浏览
我想用Python做一个结构大致为”歌手-歌曲名-专辑名-歌曲时长“的数据库,搜索许多网页,发现QQ音乐会显示歌曲时长,比如,许巍的所有单曲:http://y.qq.com/#type=singer&id=3376

但是QQ音乐貌似是用的是某Javascript框架(我对这块儿了解很少),所以无法通过直接读取网页源码的方式进行获取。另外,即使使用Chrome显示的”框架源代码“,也无法获取当前页面所有的歌曲的长度(我的环境下框架源代码中显示的只有12首,而不是整个页面显示的30+首)。

题主对于BeautifulSoup以及Python内置的相关库有初步了解,但是scrape动态网页的经验没有。我通过搜索,知道有一个Ghost.py,但是貌似仍然无法满足我的需求。

希望有类似经验的朋友能指点一下:为了完成这个目标,1. 我需要了解哪些方面的知识?(比如,这个任务对JS要求高吗?题主只看过Mozilla上的一个指南)2. 需要使用哪些外部的库 3. 如果可以的话,能否告知这个库里面与我的目标直接相关的有哪些知识?

如果有比较有帮助的一些文章,也可以贴上来呀。十分感谢!

论坛徽章:
0
2 [报告]
发表于 2013-04-14 22:02 |只看该作者
你看完这个:
详解抓取网站,模拟登陆,抓取动态网页的原理和实现(Python,C#等)
就可以自己写代码实现你要的东西了。

论坛徽章:
0
3 [报告]
发表于 2013-04-15 00:00 |只看该作者
使用python的pyqt里的qiwebkit吧,可以获取js生成的结果,看例子: http://www.lpfrx.com/archives/4396/

论坛徽章:
0
4 [报告]
发表于 2013-04-15 00:10 |只看该作者
回复 3# lastexile


    谢谢,等我好好看下~

论坛徽章:
0
5 [报告]
发表于 2013-04-15 00:12 |只看该作者
回复 2# crifan


    Wow,好详细啊,一定认真看!
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP