免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1973 | 回复: 7
打印 上一主题 下一主题

[文本处理] 关于如何处理半个汉字的问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2017-03-08 10:34 |只看该作者 |倒序浏览
在linux环境下经常会遇到半个汉字的问题,

echo "你好|中国|人民|"|awk -F'|' '{print $1"|"substr($2,1,3)"|"$3"|"}'


这样生成的文件在Linux环境下还可以继续处理(如按分隔符处理),但在windows环境就无能为力了,如何能自动识别这种半个汉字的情况并提前处理

论坛徽章:
54
2015亚冠之德黑兰石油
日期:2015-07-07 13:00:1615-16赛季CBA联赛之深圳
日期:2016-03-31 09:03:5415-16赛季CBA联赛之辽宁
日期:2016-05-09 20:38:15程序设计版块每日发帖之星
日期:2016-05-12 06:20:0015-16赛季CBA联赛之四川
日期:2016-05-13 15:19:4715-16赛季CBA联赛之福建
日期:2016-05-15 20:24:34每日论坛发贴之星
日期:2016-05-16 06:20:0015-16赛季CBA联赛之吉林
日期:2016-05-26 11:49:4715-16赛季CBA联赛之广东
日期:2016-05-26 13:49:18极客徽章
日期:2016-12-07 14:05:2315-16赛季CBA联赛之广夏
日期:2016-12-20 17:33:532017金鸡报晓
日期:2017-01-10 15:19:56
2 [报告]
发表于 2017-03-08 10:44 |只看该作者
  1. cyg@win /tmp$ echo "你好|中国|人民|"|awk -F'|' '{print $1"|"substr($2,1,3)"|"$3"|"}'
  2. 你好|中国|人民|
复制代码


win7 cygwin

论坛徽章:
0
3 [报告]
发表于 2017-03-08 11:20 |只看该作者
回复 2# haooooaaa

谢谢,但我这里的工作方式一般是linux生成格式文本,用户再用excel导入,所以我希望能在linux环境下进行提前判断和处理

论坛徽章:
0
4 [报告]
发表于 2017-03-08 12:51 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
0
5 [报告]
发表于 2017-03-08 17:34 |只看该作者
回复 3# ruifox

powershell对我真是个新东东,第一次听说微软还有这么强大的shell,是我孤陋寡闻了,不知哪里有学习资料

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
6 [报告]
发表于 2017-03-09 09:18 |只看该作者
回复 1# ruifox

$ echo "你好|中国|人民|" | LANG=zh_CN.UTF-8 awk -F'|' '{OFS="|";$2=substr($2,1,3);print}'
你好|中国|人民|

$ echo "你好|中国|人民|" | LANG=en_US.UTF-8 awk -F'|' '{OFS="|";$2=substr($2,1,3);print}'
你好|中国|人民|

$ echo "你好|中国|人民|" | LANG=C awk -F'|' '{OFS="|";$2=substr($2,1,3);print}'
你好||人民|

论坛徽章:
0
7 [报告]
发表于 2017-03-09 11:14 |只看该作者
本帖最后由 ruifox 于 2017-03-09 11:20 编辑

回复 6# jason680

谢谢答复,我觉得对于定长的要求来说,半个汉字的问题其实很难避免,如果取值时将一个汉字当成一个字符处理(如:LANG=zh_CN.UTF-8),则最后取到的字符串可能已经超出定长的要求(因为实际上一个汉字是两个字符的长度),如果取值时将一个汉字当成一个字符处理,则必然会出现半个汉字的问题;

我测试了一下,如果LANG设置为C,Cygwin环境下一个汉字是三个字符的长度,这样的话
LANG=C
echo "中国"|awk '{print length($0),"["substr($0,1,3)"]","["substr($0,1,4)"]"}'


显示结果:

6 [中] [中▒]

我的想法是如果能判断出最后一个字符是半个汉字的话,则自动去掉这半个汉字




论坛徽章:
0
8 [报告]
发表于 2017-03-10 15:22 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP