免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1744 | 回复: 0
打印 上一主题 下一主题

备份百度空间Blog的Python程序 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2006-11-07 16:04 |只看该作者 |倒序浏览

#!/usr/bin/python
#BaiDu Blog Backuper v2
import urllib
import string
import re
def Save2File(url,fn):
    print "Retrieving: ",url;
    print "Save as: ",fn
    try:
        URLFile=urllib.urlopen(url)
    except IOError:
        print "\nCan not retrieve ",url,"!\nThe connection cannot be made!\n"
    else:
        HTMLText=URLFile.read()
        URLFile.close()
        flist=fn.split("/")
        fn=string.join(flist)
        flist=fn.split("\\")
        fn=string.join(flist)
        flist=fn.split(":")
        fn=string.join(flist)
        flist=fn.split("*")
        fn=string.join(flist)
        flist=fn.split("?")
        fn=string.join(flist)
        flist=fn.split("\"")
        fn=string.join(flist)
        flist=fn.split(")
        fn=string.join(flist)
        flist=fn.split(">")
        fn=string.join(flist)
        HTMLFile=open(fn,"w")
        HTMLFile.write(HTMLText)
        HTMLFile.close()
def GetContent (url):
    try:
        URLFile=urllib.urlopen(url)
    except IOError:
        print "\nCan not retrieve ",url,"!\nThe connection cannot be made!\n"
    else:
        HTMLText=URLFile.read()
        URLFile.close()
        return HTMLText
   
if(__name__=="__main__"):
    list_base="http://hi.baidu.com/linxhchina/blog/index/"
    artical_base="http://hi.baidu.com/"
    rexp=re.compile(r'(.*?)')
    queue=[];
    cond=True;
    i=0;
    while cond:
        cond=False
        list_url="%s%d" %(list_base,i)
        i=i+1
        #print list_url
        content=GetContent(list_url)
        #print content
        lines=content.split("\n")
        for line in lines:
            #print line
            a=rexp.search(line)
            if(a):
                cond=True
                queue.append(a.groups())
    print ""
    print ""
    print "Baidu Blog List"
    print ""
    print ""
    print ""
    for q in queue:
        artical_url="%s%s" %(artical_base,q[0])
        fname=q[1]+".html"
        print "%s
" %(artical_url,q[1])
        #Save2File(artical_url,fname)
    print ""
    print ""
    print ""
   


本文来自ChinaUnix博客,如果查看原文请点:http://blog.chinaunix.net/u/8780/showart_196850.html
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP