免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 4361 | 回复: 4
打印 上一主题 下一主题

awk的substr如何强制按"字节数"而不是按"文字数"来截取? [复制链接]

论坛徽章:
2
IT运维版块每日发帖之星
日期:2016-04-15 06:20:0015-16赛季CBA联赛之福建
日期:2016-08-08 13:37:03
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2010-10-30 00:46 |只看该作者 |倒序浏览
substr(str,start,len)
start和len都是以文字数来算的。
对于双字节字符(如汉字),会算成1。
如何强制按"字节数"截取?

已知设定环境变量LC_CTYPE="C"可以解决。
有没有别的方法?

论坛徽章:
0
2 [报告]
发表于 2010-10-31 22:07 |只看该作者
start和len都是以文字数来算的

出处?

论坛徽章:
2
IT运维版块每日发帖之星
日期:2016-04-15 06:20:0015-16赛季CBA联赛之福建
日期:2016-08-08 13:37:03
3 [报告]
发表于 2010-10-31 22:59 |只看该作者
我的系统是HP-UX,日文
文本文件的列是定长的。

我想取出的数据是在第80byte开始的4byte
item=substr($0, 80, 4)

但由于前面有汉字(双字节字符)
结果上面语句取出的不是第80列。
所以我认为awk把双字节字符算作1个文字,
substr是以文字来计算。

论坛徽章:
0
4 [报告]
发表于 2010-11-01 08:36 |只看该作者

  1. LC_CTYPE="C"  awk .....

  2. 看看

  3. 我的是linux,直接用 LANG=C 就可以让awk按照字节来处理
复制代码

论坛徽章:
0
5 [报告]
发表于 2010-11-01 09:52 |只看该作者
不会吧,偶刚好跟你说的相反
偶是WINDOWS XP + KSH
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP