免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2363 | 回复: 8
打印 上一主题 下一主题

[文本处理] shell 能否区分 单字节双字节 [复制链接]

求职 : 项目经理
论坛徽章:
22
狮子座
日期:2014-01-14 08:42:1615-16赛季CBA联赛之八一
日期:2016-12-15 16:11:1315-16赛季CBA联赛之佛山
日期:2016-12-19 08:58:1315-16赛季CBA联赛之佛山
日期:2017-01-12 11:34:1415-16赛季CBA联赛之福建
日期:2017-02-22 14:05:4415-16赛季CBA联赛之福建
日期:2017-06-09 08:59:4015-16赛季CBA联赛之深圳
日期:2017-07-17 11:19:3615-16赛季CBA联赛之新疆
日期:2018-03-09 09:36:5115-16赛季CBA联赛之江苏
日期:2018-07-18 10:44:4615-16赛季CBA联赛之山西
日期:2018-09-19 09:09:2615-16赛季CBA联赛之浙江
日期:2016-11-18 15:14:1615-16赛季CBA联赛之四川
日期:2016-06-27 11:43:31
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2012-09-24 11:06 |只看该作者 |倒序浏览
试图找出文本中的中文英文字符,有无好办法?
或者通过区分单双字节来判断?shell如何实现?
请大侠给点思路。谢谢!

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
2 [报告]
发表于 2012-09-24 11:16 |只看该作者
  1. sed "s/[\x21-\x7E][\x80-\xFF]\|[\x80-\xFF][\x21-\x7E]//g" a.txt >b.txt
复制代码

求职 : 项目经理
论坛徽章:
22
狮子座
日期:2014-01-14 08:42:1615-16赛季CBA联赛之八一
日期:2016-12-15 16:11:1315-16赛季CBA联赛之佛山
日期:2016-12-19 08:58:1315-16赛季CBA联赛之佛山
日期:2017-01-12 11:34:1415-16赛季CBA联赛之福建
日期:2017-02-22 14:05:4415-16赛季CBA联赛之福建
日期:2017-06-09 08:59:4015-16赛季CBA联赛之深圳
日期:2017-07-17 11:19:3615-16赛季CBA联赛之新疆
日期:2018-03-09 09:36:5115-16赛季CBA联赛之江苏
日期:2018-07-18 10:44:4615-16赛季CBA联赛之山西
日期:2018-09-19 09:09:2615-16赛季CBA联赛之浙江
日期:2016-11-18 15:14:1615-16赛季CBA联赛之四川
日期:2016-06-27 11:43:31
3 [报告]
发表于 2012-09-24 11:33 |只看该作者
回复 2# Shell_HAT

vi test.txt

asdfksadfasdf王

sed "s/[\x21-\x7E][\x80-\xFF]\|[\x80-\xFF][\x21-\x7E]//g" test.txt > 1.txt
sed: -e expression #1, char 51: Invalid collation character


报错啊!!!!
   

求职 : 项目经理
论坛徽章:
22
狮子座
日期:2014-01-14 08:42:1615-16赛季CBA联赛之八一
日期:2016-12-15 16:11:1315-16赛季CBA联赛之佛山
日期:2016-12-19 08:58:1315-16赛季CBA联赛之佛山
日期:2017-01-12 11:34:1415-16赛季CBA联赛之福建
日期:2017-02-22 14:05:4415-16赛季CBA联赛之福建
日期:2017-06-09 08:59:4015-16赛季CBA联赛之深圳
日期:2017-07-17 11:19:3615-16赛季CBA联赛之新疆
日期:2018-03-09 09:36:5115-16赛季CBA联赛之江苏
日期:2018-07-18 10:44:4615-16赛季CBA联赛之山西
日期:2018-09-19 09:09:2615-16赛季CBA联赛之浙江
日期:2016-11-18 15:14:1615-16赛季CBA联赛之四川
日期:2016-06-27 11:43:31
4 [报告]
发表于 2012-09-26 10:40 |只看该作者
继续求教!1!!

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
5 [报告]
发表于 2012-09-26 11:16 |只看该作者
回复 3# chichushanren

# cat test.txt
asdfksadfasdf王小明abc

# perl -F'/\b/' -lane '{print join ",",@F}' test.txt
asdfksadfasdf,王小明,abc

# perl -F'/\b/' -lane '{print join "\n",@F}' test.txt
asdfksadfasdf
王小明
abc

   

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
6 [报告]
发表于 2012-09-26 11:46 |只看该作者
回复 3# chichushanren

# cat test.txt
asdf王小明abc

# awk -vFS="" '{N=split($0,a,//);for(n=1;n<=N;n++)print length(a[n]),a[n]}' test.txt
1 a
1 s
1 d
1 f
3 王
3 小
3 明

1 a
1 b
1 c

Note: length = 3 for unicode chinese word

求职 : 项目经理
论坛徽章:
22
狮子座
日期:2014-01-14 08:42:1615-16赛季CBA联赛之八一
日期:2016-12-15 16:11:1315-16赛季CBA联赛之佛山
日期:2016-12-19 08:58:1315-16赛季CBA联赛之佛山
日期:2017-01-12 11:34:1415-16赛季CBA联赛之福建
日期:2017-02-22 14:05:4415-16赛季CBA联赛之福建
日期:2017-06-09 08:59:4015-16赛季CBA联赛之深圳
日期:2017-07-17 11:19:3615-16赛季CBA联赛之新疆
日期:2018-03-09 09:36:5115-16赛季CBA联赛之江苏
日期:2018-07-18 10:44:4615-16赛季CBA联赛之山西
日期:2018-09-19 09:09:2615-16赛季CBA联赛之浙江
日期:2016-11-18 15:14:1615-16赛季CBA联赛之四川
日期:2016-06-27 11:43:31
7 [报告]
发表于 2012-09-26 12:07 |只看该作者
回复 6# jason680

不行啊!!!!
more test1.txt
asdf王小明abc

awk -vFS="" '{N=split($0,a,//);for(n=1;n<=N;n++)print length(a[n]),a[n]}' test1.txt
1 a
1 s
1 d
1 f
1 王
1 小
1 明
1 a
1 b
1 c

论坛徽章:
15
2015年辞旧岁徽章
日期:2015-03-03 16:54:15双鱼座
日期:2015-01-15 17:29:44午马
日期:2015-01-06 17:06:51子鼠
日期:2014-11-24 10:11:13寅虎
日期:2014-08-18 07:10:55酉鸡
日期:2014-04-02 12:24:51双子座
日期:2014-04-02 12:19:44天秤座
日期:2014-03-17 11:43:36亥猪
日期:2014-03-13 08:13:51未羊
日期:2014-03-11 12:42:03白羊座
日期:2013-11-20 10:15:18CU大牛徽章
日期:2013-04-17 11:48:45
8 [报告]
发表于 2012-09-26 12:08 |只看该作者
jason680 发表于 2012-09-26 13:46
回复 3# chichushanren

# cat test.txt


$ awk -V |head -1
GNU Awk 4.0.1

$ awk -vFS="" '{N=split($0,a,//);for(n=1;n<=N;n++)print length(a[n]),a[n]}' test.txt
1 a
1 s
1 d
1 f
1 王
1 小
1 明
1 a
1 b
1 c

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
9 [报告]
发表于 2012-09-26 13:11 |只看该作者
本帖最后由 jason680 于 2012-09-26 13:15 编辑

@chichushanren
@rdcwayx

awk version issue

man gawk
       As of version 3.1.5, gawk is multibyte aware.  This means that index(),
       length(),  substr()  and  match()  all work in terms of characters, not
       bytes.

awk use other way to identify, or use perl command easily

$ gawk  '{N=split($0,a,"");for(n=1;n<=N;n++)print length(a[n]),a[n]}' test.txt
1 a
1 s
1 d
1 f
1 王
1 小
1 明
1 a
1 b
1 c

$ gawk  '{N=split($0,a,"");for(n=1;n<=N;n++)if(a[n]~/[a-z]/)print "w="a[n];else print "CN="a[n]}' test.txt
w=a
w=s
w=d
w=f
CN=王
CN=小
CN=明

w=a
w=b
w=c
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP