论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2013-09-02 10:40 |只看该作者 |倒序浏览

# -*- coding: cp936 -*-
import urllib

page = 1
link = 1
url = ['']*350
while page <= 7:
con = urllib.urlopen('http://blog.sina.com.cn/s/articlelist_1191258123_0_'+str(page)+'.html').read()
title = con.find(r'<a title')
href = con.find(r'href=',title)
html = con.find(r'.html',href)

i = 0
while title != -1 and href != -1 and html != -1 and i<50:
      url[i] = con[href + 6:html + 5]
      print link,'---',url[i]
      title = con.find(r'<a title',html)
      href = con.find(r'href=',title)
      html = con.find(r'.html',href)
      i = i + 1
      link = link + 1
else:
      print '第',page,'页' ,'read finished ......'
page = page + 1
else:
print 'all page find '

j = 0
while j < 350:
content = urllib.urlopen(url[j]).read()
print 'downloading......',url[j],j
open(r'韩寒/'+url[j][-26:],'w+').write(content)
j = j + 1
else :
print 'download finished'

这是下载韩寒博客全部文章的代码，但只能下载到第一页的50篇，后面的都下载不到了，不知道为什么？

错误代码：Traceback (most recent call last):
  File "C:\Python27\blog2.py", line 31, in <module>
content = urllib.urlopen(url[j]).read()
  File "C:\Python27\lib\urllib.py", line 87, in urlopen
return opener.open(url)
  File "C:\Python27\lib\urllib.py", line 208, in open
return getattr(self, name)(url)
  File "C:\Python27\lib\urllib.py", line 463, in open_file
return self.open_local_file(url)
  File "C:\Python27\lib\urllib.py", line 477, in open_local_file
raise IOError(e.errno, e.strerror, e.filename)
IOError: [Errno 2] : ''

求好心人解答，谢谢

文库|博客

crifan

富足长乐

论坛徽章:: 0

2楼 [报告]

发表于 2013-09-03 00:13 |只看该作者

本帖最后由 crifan 于 2013-09-03 00:13 编辑

关于下载和导出新浪博客的帖子，我的BlogsToWordpress，都帮你实现好了对应的功能了。
需要看代码的话，可以去参考：
BlogSina.py

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

返回列表

Chinaunix › 论坛 › 程序设计 › Python › 下载文章的问题？求解答

下载文章的问题？求解答 [复制链接]

浏览过的版块