免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 7599 | 回复: 19
打印 上一主题 下一主题

郁闷了,大家帮我看看问题啊:em16: [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2009-05-20 13:16 |只看该作者 |倒序浏览
10可用积分
代码如下:
#! /usr/bin/env python

'collect some file '

import os,sys
def walkdir(dirname):
    try:
        ls=os.listdir(dirname)
    except:
        print("access deny")
    else:
        all=os.path.join(dirname, 'all.docx')
        try:
            dest=open(all,'w')
        except:
            print("create dest failed")
        else:
            dest.write('All infomation as follows:')
            
        
        for filename in ls:
            temp=os.path.join(dirname, filename)
            if(os.path.isdir(temp)):
                walkdir(temp)
            else:
                print(temp)
                try:
                    fobj=open(temp,'r')
                except:
                    print("open file error")
                else:
                    for eachline in fobj:
                        print(eachline)
                    
                fobj.close()
               
if __name__=="__main__":
    dir=input("Type a directory name:")
    walkdir(dir)

就是遍历一个目录,并且把每个文件内容一个一行打印啊,怎么加黑那行for eachline in 总是有问题,没这块就好了。。。
错误如下:
Traceback (most recent call last):
  File "C:\Python30\test.py", line 39, in <module>
    walkdir(dir)
  File "C:\Python30\test.py", line 32, in walkdir
    for eachline in fobj:
  File "C:\Python30\lib\io.py", line 1744, in __next__
    line = self.readline()
  File "C:\Python30\lib\io.py", line 1817, in readline
    while self._read_chunk():
  File "C:\Python30\lib\io.py", line 1565, in _read_chunk
    self._set_decoded_chars(self._decoder.decode(input_chunk, eof))
  File "C:\Python30\lib\io.py", line 1299, in decode
    output = self.decoder.decode(input, final=final)
UnicodeDecodeError: 'gbk' codec can't decode bytes in position 5-6: illegal multibyte sequence

咋办呢,我第一次用python做试验就卡住了,郁闷!

最佳答案

查看完整内容

你的代码在py2.5下面没问题,把input改成raw_input中文显示正常。建议别用py3,另外win系统不是utf,只能手动编码解码另外别起test之类的名字,容易跟系统自带冲突,出现莫名的问题

论坛徽章:
0
2 [报告]
发表于 2009-05-20 13:16 |只看该作者
你的代码在py2.5下面没问题,把input改成raw_input
中文显示正常。

建议别用py3,另外win系统不是utf,只能手动编码解码
另外别起test之类的名字,容易跟系统自带冲突,出现莫名的问题

论坛徽章:
0
3 [报告]
发表于 2009-05-20 13:41 |只看该作者

回复 #1 kingsu 的帖子

开发笔记:Python的转码

字符串内码的转换,是开发中经常遇到的问题。
在Java中,我们可以先对某个String调用getByte(),由结果生成新String的办法来转码,也可以用NIO包里面的Charset来实现。
在Python中,可以对String调用decode和encode方法来实现转码。
比如,若要将某个String对象s从gbk内码转换为UTF-8,可以如下操作
s.decode('gbk').encode('utf-8')

可是,在实际开发中,我发现,这种办法经常会出现异常:
UnicodeDecodeError: 'gbk' codec can't decode bytes in position 30664-30665: illegal multibyte sequence

这是因为遇到了非法字符——尤其是在某些用C/C++编写的程序中,全角空格往往有多种不同的实现方式,比如\xa3\xa0,或者\xa4\x57,这些字符,看起来都是全角空格,但它们并不是“合法”的全角空格(真正的全角空格是\xa1\xa1),因此在转码的过程中出现了异常。

这样的问题很让人头疼,因为只要字符串中出现了一个非法字符,整个字符串——有时候,就是整篇文章——就都无法转码。

幸运的是,tiny找到了完美的解决办法(我因此被批评看文档不仔细,汗啊……)
s.decode('gbk', 'ignore').encode('utf-8')

因为decode的函数原型是decode([encoding], [errors='strict']),可以用第二个参数控制错误处理的策略,默认的参数就是strict,代表遇到非法字符时抛出异常;
如果设置为ignore,则会忽略非法字符;
如果设置为replace,则会用?取代非法字符;
如果设置为xmlcharrefreplace,则使用XML的字符引用。
http://blog.donews.com/maverick/archive/2006/07.aspx

论坛徽章:
0
4 [报告]
发表于 2009-05-20 14:15 |只看该作者

回复 #2 ziggler 的帖子

decode是个字符串方法啊,问题我连文件内容都读不出来啊,还怎么对这个字符串操作呢?

请直接告诉我这行插到哪里吧。。。。

论坛徽章:
0
5 [报告]
发表于 2009-05-20 15:13 |只看该作者

回复 #3 kingsu 的帖子

io.py这个代码是 你写的还是库?
文件名有哪些字符?汉字、数字、字母?

[ 本帖最后由 ziggler 于 2009-5-20 15:14 编辑 ]

论坛徽章:
0
6 [报告]
发表于 2009-05-20 15:16 |只看该作者

回复 #4 ziggler 的帖子

哪里有io.py。。。没看到啊
代码是我写的

论坛徽章:
0
7 [报告]
发表于 2009-05-20 15:20 |只看该作者

回复 #4 ziggler 的帖子

我试了一下,路径名全英文的,文件内容也都是英文和数字的,同样的错误

问题就是加粗的那一块,没那一块肯定没错的,就是对遍历的文件进行操作就有问题了。。。

论坛徽章:
0
8 [报告]
发表于 2009-05-20 17:07 |只看该作者
原帖由 kingsu 于 2009-5-20 13:16 发表
代码如下:
#! /usr/bin/env python

'collect some file '

import os,sys
def walkdir(dirname):
    try:
        ls=os.listdir(dirname)
    except:
        print("access deny")
    else:
...



python 3 读取文件以后不用readline了都? 直接就for 循环?
没用过. 不知道是不是这个问题...

论坛徽章:
0
9 [报告]
发表于 2009-05-20 17:08 |只看该作者

回复 #7 xiaoyu9805119 的帖子

啊,我的是py3.0,这个不是最强大么。。。。。我是下2.5的先

论坛徽章:
0
10 [报告]
发表于 2009-05-20 17:11 |只看该作者

回复 #8 jihaiming 的帖子

貌似不是这个问题,用for xx in xx 也是错误..
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP