免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 12168 | 回复: 14
打印 上一主题 下一主题

awk分隔符与中文编码重复问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2010-02-04 02:50 |只看该作者 |倒序浏览
请问,awk能不能处理中文字符?例如对于数据“ a | 和珅ab| ” 用awk -F "|" '{print NF}' file时,返回4,原因是 珅的中文编码为 AB7C。请问有什么方法可以让awk能认出中文来?我在debian环境下尝试设置LC_ALL=zh_CN.GB18030(我确认过我已经安装上这个字符集),但还是不生效,而且不只是awk,像cat,more这些程序也无法正常显示。

论坛徽章:
0
2 [报告]
发表于 2010-02-04 06:08 |只看该作者
中文这个问题我以前琢磨过一段时间。在Shell命令行本身是不支持中文的。就算你有字符或者设置了/etc/sysconfig/i18n的配置也是没用的。一般显示中文有两种方法。一种是通过SHH这样的远程登录。他本身就可以帮你在命令行实现显示中文。还有一种就是安装一些中文接口软件比如zhcon这个软件就可以实现显示中文。 当然以上只是我的总结。可能还有更好的方法。希望知道更好方法的大侠们分享~

论坛徽章:
1
巨蟹座
日期:2014-06-04 13:33:30
3 [报告]
发表于 2010-02-04 11:55 |只看该作者
设置你的locales
运行 dpkg-reconfigure locales
把gb2312跟utf8选上
  1. root@debian:~/php# echo "a | 和珅ab|"|awk -F '' '{print length($0)}'
  2. 9
复制代码

论坛徽章:
0
4 [报告]
发表于 2010-02-04 13:04 |只看该作者
回三楼,这个我之前就设置过了,但还是一样,请问你的locale是这么设置的?

论坛徽章:
1
巨蟹座
日期:2014-06-04 13:33:30
5 [报告]
发表于 2010-02-04 14:08 |只看该作者
终端还是ssh过去?ssh的话工具也要设置utf-8
我就选了3个:
en_US.UTF-8 UTF-8
zh_CN GB2312
zh_CN.UTF-8 UTF-8

论坛徽章:
0
6 [报告]
发表于 2010-02-04 14:43 |只看该作者
不太对吧,珅的GBK编码是ab7c,是不在GB2312的编码里,而UTF-8的编码与GBK编码不一样啊,我的那些文件是GBK或GB18030编码的,在做awk处理时,刚好就跟分隔符“|”(7c)重叠了,就把珅的一半当成是分隔符,另一半当成是乱码了。为什么你的结果能正确,我想是因为你当前的locale设置为UTF-8,所以你echo的结果是以UTF-8编码的,因此不会有字符内容与分隔符重叠的现象。楼上你说的方法我之前就试过了,还是不行啊~~~!

论坛徽章:
0
7 [报告]
发表于 2010-02-04 14:59 |只看该作者
如果不是用SHH登陆的话,无论怎么修改配置文件都是没用的。我以前试过。那种修改/etc/sysconfig/i18n文件的方法必须在SHH登陆的情况下才起作用。LZ不要在浪费宝贵的时间了。

论坛徽章:
0
8 [报告]
发表于 2010-02-04 15:07 |只看该作者
sorry,我没讲清楚。实际工作用是telnet到AIX上,我自己测试的环境是用vmware装个Debian测试上面的问题。因为AIX上的locale没装GB18030(好像是叫Zh_CN.GB18030),我没有权限去安装新的字符集。所以我在虚拟机上做测试。

论坛徽章:
0
9 [报告]
发表于 2010-02-04 15:10 |只看该作者
最好用SHH进行远程登录~ TELNET各个方面都不如SHH。难道是AIX没有SHH这个服务吗?我没用过AIX呵呵

论坛徽章:
0
10 [报告]
发表于 2010-02-04 15:20 |只看该作者
客户只允许我们用telnet
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP