论坛徽章:: 18

电梯直达

1楼 [收藏(0)] [报告]

发表于 2014-10-18 15:01 |只看该作者 |倒序浏览

本帖最后由 bikkuri 于 2014-10-18 16:18 编辑

大家好！
我有一个中文文本编码转换的问题向大家请教。
有一个从Linux的MySQL数据库导出来的csv文件，MySQL编码应该是gbk，反正在Linux环境下用more命令直接可以看到中文不乱码。

[root@shinagawa test]# file $file
data_in_chinese.csv: Non-ISO extended-ASCII text, with CRLF line terminators
[root@shinagawa test]#

复制代码

把这个csv文件下载到本地电脑上以后，用notepad打开也可以看到中文不乱码，但是如果用excel直接打开中文会乱码。
这个时候用notepad打开这个csv文件，选择另存为，可以看到原来的编码方式为ANSI，改成UTF-8以后保存为另外一个csv文件，
再用excel打开这个csv文件就可以看到中文不乱码了。

但是我希望能在Linux下用命令直接生成或者转换成可以用excel直接打开不乱码的csv文件，我试了用iconv命令，选择从GBK或者
GB2312或者ASCII转换到UTF-8，但是用excel打开生成的文件以后中文还是乱码。
于是，索性我用以下命令尝试把所有iconv支持的编码方式都试了一遍：

file=data_in_chinese.csv
for c in $(iconv --list); do iconv -f ${c%%/*} -t UTF8 $file -o ${file%.*}_from_${c%%/*}_to_utf-8.${file#*.};done

复制代码

然后再刨去那些转换后文件长度比原文件还小的文件（转换中途失败的）：

org_file_length=$(ls -l $file|awk '{print$5}')
ls -l |awk -v l=$org_file_length '{if($5<l)print$9}'|xargs -r rm -f

复制代码

最后得到507个csv文件。
然后我把这507个文件全部下载到本地，用excel打开，却发现所有的这些csv文件中中文依然是乱码的。
那么也就是说用iconv没有办法达到象Windows下用notepad进行ANSI转UTF-8的效果吗？
请大家帮忙想想办法！谢谢了！

文库|博客

Buring__

家境小康

论坛徽章:: 9

2楼 [报告]

发表于 2014-10-18 15:36 |只看该作者

用 file 命令能看文件编码，你看看从mysql倒出来的csv文件到底是什么格式，如果是gbk，用excel 打开应该能正常显示的，

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

爻易

家境小康

论坛徽章:: 6

3楼 [报告]

发表于 2014-10-18 17:29 |只看该作者

类似WINDOWS自带的记事本等软件，在保存一个以UTF-8编码的文件时，会在文件开始的地方插入三个不可见的字符（0xEF 0xBB 0xBF，即BOM）。它是一串隐藏的字符，用于让记事本等软件识别这个文件是否以UTF-8编码。

你的文件可能就是缺这个标记。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

爻易

家境小康

论坛徽章:: 6

4楼 [报告]

发表于 2014-10-18 17:33 |只看该作者

windos假定用户不知道文件编码，所以文件需要自己说明自己。

lunix假定用户总知道文件编码，所以提供工具让用户自己指定编码打开文件。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

bikkuri

家境小康

论坛徽章:: 18

5楼 [报告]

发表于 2014-10-19 10:04 |只看该作者

那应该怎么办呢？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

bikkuri

家境小康

论坛徽章:: 18

6楼 [报告]

发表于 2014-10-19 10:55 |只看该作者

本帖最后由 bikkuri 于 2014-10-19 11:27 编辑

谢谢您的指点！
我对比在Windows下用notepad生成的文件和在Linux下用iconv生成的文件，发现前者确实比后者在文件开头多了三个BOM字节（ef bb bf），其他部分都是一样的。
[root@hp8 test]# ls -l *.csv
-rw-r--r-- 1 root root 1172052 Oct 19 01:27 data_in_chinese_utf-8_notepad.csv
-rw-r--r-- 1 root root 1172049 Oct 19 10:41 data_in_chinese_utf-8_iconv.csv
[root@hp8 test]# cat data_in_chinese_utf-8_notepad.csv|hexdump -C|head -n 1
00000000 ef bb bf 22 e6 9d 8e e5 bf 97 e7 a7 80 22 2c 22 |...".........","|
[root@hp8 test]# cat data_in_chinese_utf-8_iconv.csv|hexdump -C|head -n 2
00000000 22 e6 9d 8e e5 bf 97 e7 a7 80 22 2c 22 31 35 32 |".........","152|

爻易发表于 2014-10-18 17:29
类似WINDOWS自带的记事本等软件，在保存一个以UTF-8编码的文件时，会在文件开始的地方插入三个不可见的字符（0xEF 0xBB 0xBF，即BOM）。它是一串隐藏的字符，用于让记事本等软件识别这个文件是否以UTF-8编码。

你的文件可能就是缺这个标记。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

李满满

小富即安

论坛徽章:: 3

7楼 [报告]

发表于 2014-10-19 11:41 |只看该作者

学生党:飘过~试试python,注意原始编码和目标编码一定要写对了...不然会出问题的

#!/usr/bin/env python
# -*- coding: gbk -*-
"""
@author:白头发
@copyright: just for fun!
"""
import os
import glob
class FEncoding(object):
def __init__(self):
self.extension='.*'
self.srcsencod=None
self.dessencod=None
def setsrcencod(self,srcsencod):
self.srcsencod=srcsencod
print self.srcsencod
def setdesencod(self,dessencod):
self.dessencod=dessencod
print self.dessencod
def setentenson(self,extension):
if not extension.startswith('.'):
self.extension=''.join(['.',extension])
else:
self.extension=extension
def convertcode(self,content):
return content.decode(self.srcsencod).encode(self.dessencod)
def file222file(self,f_name):
try:
f_d=open(f_name,'rb')
f_c=f_d.read()
f_d.close()
print f_c
f2d=open(f_name,'wb')
f2d.write(self.convertcode(f_c))
f2d.close()
print '{}-转码成功'.format(f_name)
except Exception as e:
print e
def processdirs(self,root,dirs,files):
for x in files:
if x.endswith(self.extension) or self.extension=='.*':
self.file222file(os.path.join(dirs,x))
if __name__=='__main__':
trans=FEncoding()
trans.setentenson(raw_input('文件类型:'))
trans.setsrcencod(raw_input('原始编码:'))
trans.setdesencod(raw_input('目标编码:'))
topdr=raw_input('指定目录:')
os.path.walk(topdr,trans.processdirs,None)

复制代码

测试:
$ ./www.yhsafe.net.py
文件类型:.csv
原始编码:GB2312
GB2312
目标编码:UTF-8
UTF-8
指定目录:./
1,2,3,小满
./data_in_chinese.csv-转码成功
$ file data_in_chinese.csv
data_in_chinese.csv: UTF-8 Unicode text, with no line terminators

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

返回列表

Chinaunix › 论坛 › 程序设计 › Shell › 中文文本编码转换求助

[文本处理] 中文文本编码转换求助 [复制链接]