- 论坛徽章:
- 0
|
- #!/usr/bin/python
- # -*- coding: utf-8 -*-
- #gb2312-utf8
- import sys
- import chardet
- import urllib2
- def blog(blogurl):
- '''
- 检测blog的编码方式
- @param blogurl: 要检测blog的url
- '''
- try:
- fp = urllib2.urlopen(blogurl) #尝试打开给定url
- except Exception, e: #若产生异常,则给出相关提示并返回
- print e
- print 'download exception %s' % blogurl
- return 'hello world'
- blog = fp.read() #读取内容
- codedetect = chardet.detect(blog)["encoding"] #检测得到编码方式
- f=file('index.html','w')
- f.write(blog)
- f.close()
- ting=unicode(blog,'utf-8')
- fp.close()
- if __name__ == "__main__":
- blog('http://blog.chinaunix.net/u4/121053/')
复制代码 上边的代码遇到两个问题,一个是写文件不成功,但是放到main函数中就可以
还有一个是编码问题UnicodeDecodeError: 'utf8' codec can't decode bytes in position 330-331,但是在linux下就没有这个错误,是不是utf8写的有问题? |
|