- 论坛徽章:
- 39
|
本帖最后由 关阴月飞 于 2014-05-16 14:12 编辑
楼主这个坑挺大的:原文件编码是gb2312
先用iconv 转码,再用col命令过滤一下控制字符就OK, 具体用法都自己百度一下吧。
处理过程如下:- [root@ awktest]# cat tmp
-
- 4ַ
- [root@ awktest]# file tmp
- tmp: ISO-8859 text
- [root@ awktest]# iconv -f gb2312 -t UTF8 tmp -o tmp2
- [root@ awktest]# cat tmp2
- 北京市
- 广州市
- 杭州市
- 上海市
- 4、地址
- [root@ awktest]# cat tmp2 -A
- M-cM-^@M-^@^IM-eM-^LM-^WM-dM-:M-,M-eM-8M-^B$
- M-cM-^@M-^@^IM-eM-9M-?M-eM-7M-^^M-eM-8M-^B$
- M-cM-^@M-^@^IM-fM-^]M--M-eM-7M-^^M-eM-8M-^B$
- M-cM-^@M-^@^IM-dM-8M-^JM-fM-5M-7M-eM-8M-^B$
- M-cM-^@M-^@M-cM-^@M-^@4M-cM-^@M-^AM-eM-^\M-0M-eM-^]M-^@$
- [root@ awktest]# col < tmp2 |cat -A
- ^IM-eM-^LM-^WM-dM-:M-,M-eM-8M-^B$
- ^IM-eM-9M-?M-eM-7M-^^M-eM-8M-^B$
- ^IM-fM-^]M--M-eM-7M-^^M-eM-8M-^B$
- ^IM-dM-8M-^JM-fM-5M-7M-eM-8M-^B$
- 4M-cM-^@M-^AM-eM-^\M-0M-eM-^]M-^@$
复制代码 |
|