论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2012-07-30 10:48 |只看该作者 |倒序浏览

请教我的代码错字哪里？

# -*- coding: utf-8 -*-
# 以下是统计程序代码行数的代码
# 我的目的是统计所有的 *.ini,*.bas,*.frm ...... 的文件总行数，
# 但是有一个问题:
# Traceback (most recent call last):
# File "D:\YwMis\tongji.py", line 20, in <module>
# data = f.read()
# File "C:\Python27\lib\codecs.py", line 671, in read
# return self.reader.read(size)
# UnicodeDecodeError: 'gbk' codec can't decode bytes in position 2-3: illegal multibyte sequence
# 不知以上提示是什么意思?
import os
import codecs
lines_count = 0
for roots,dirs,files in os.walk('d:/ywmis/'):
for file in files:
if file[-4:]=='.bas' or file[-4:]=='.frm' or file[-4:]=='.sql' or file[-4:]=='.cls' or file[-4:]=='.txt':
f = codecs.open(os.path.join(roots, file),'r','gbk')
data = f.read()
f.close()
lines_count += data.count('\n')
if not data.endswith('\n'):
lines_count += 1
print ("all lines count:%d" %lines_count)

复制代码

文库|博客

go_hao

稍有积蓄

论坛徽章:: 0

2楼 [报告]

发表于 2012-07-30 12:26 |只看该作者

发现，只要存在 utf-8编码的文件，就会报错

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

cdtits

大富大贵

论坛徽章:: 2

3楼 [报告]

发表于 2012-07-30 13:03 |只看该作者

f = open(os.path.join(roots, file), 'rb')

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

crifan

富足长乐

论坛徽章:: 0

4楼 [报告]

发表于 2012-07-30 13:42 |只看该作者

本帖最后由 crifan 于 2012-07-30 13:45 编辑

由于你之前是：
f = codecs.open(os.path.join(roots, file),'r','gbk')
用gbk编码方式去打开文件，所以，当遇到UTF-8编码文件的时候，就变成：
你是在尝试用GBK编码方式去解码UTF-8编码后的字节，所以自然会出现GBK无法解码UTF-8中的某些位置的字节，出现相应的错误：
UnicodeDecodeError: 'gbk' codec can't decode bytes in position 2-3: illegal multibyte sequence

解决办法是：
可以以3楼的rb模式打开文件，然后再解码对应文件的内容，有多种选择：
1.直接用某种编码，比如GBK，或者UTF-8，去解码，同时添加ignore参数，这样可以忽略不能解码的字符，但是只要文件中的\r \n这类字符都可以正确解码，即可接着统计行数了。
2.尝试用chardet判断对应的文件内容所用编码类型，然后再用对应编码去解码文件，这样一般不会出现解码错误，可确保解析后的内容是完整的，接着再去统计行数即可。

具体如何写代码，自己写吧。
如果不会，等偶有空再帮你写。

另：
1. 对于只用\n去统计换行，严格意义上说，只对Linux来说，这种做法是比较准确的。
对于windows上的文件，应该用 \r \n。
关于回车换行，详情可参考：
【详解】回车换行 0x0D 0x0A CR LF r n的来龙去脉

2.我之前折腾Python过程中，也遇到过很多种UnicodeEncodeError，都一点点解决了。
感兴趣的，可以去看看相关的总结：
Python中的 UnicodeEncodeError

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

返回列表

Chinaunix › 论坛 › 程序设计 › Python › 请教我的代码错字哪里？

请教我的代码错字哪里？ [复制链接]

浏览过的版块