免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 3560 | 回复: 11
打印 上一主题 下一主题

[文本处理] awk问题,大神速来 [复制链接]

论坛徽章:
1
CU十四周年纪念徽章
日期:2015-12-16 18:25:16
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2015-11-25 16:53 |只看该作者 |倒序浏览
[root@localhost nagios]# awk 'BEGIN{a="the UNIX operating system";match(a, /[[:upper:]]+/);print substr(a,RSTART,RLENGTH)}'      
UNIX
[root@localhost nagios]# awk 'BEGIN{a="the UNIX operating system";match(a, /[A-Z]+/);print substr(a,RSTART,RLENGTH)}'            
the

为啥第2个命令获取的结果是the而不是UNIX???

论坛徽章:
1
CU十四周年纪念徽章
日期:2015-12-16 18:25:16
2 [报告]
发表于 2015-11-25 17:01 |只看该作者
没人知道么

QQ截图20151125170305.png (12.44 KB, 下载次数: 51)

QQ截图20151125170305.png

论坛徽章:
1
天蝎座
日期:2014-01-15 16:44:29
3 [报告]
发表于 2015-11-25 17:12 |只看该作者
$ awk 'BEGIN{a="the UNIX operating system";match(a, / [A-Z]+ /);print substr(a,RSTART,RLENGTH)}'
UNIX
匹配式前后加空格

论坛徽章:
1
天蝎座
日期:2014-01-15 16:44:29
4 [报告]
发表于 2015-11-25 17:33 |只看该作者
$ echo $LANG
C
$ awk 'BEGIN{a="the UNIX operating system";match(a, /[A-Z]+/);print substr(a,RSTART,RLENGTH)}'
UNIX

论坛徽章:
12
IT运维版块每日发帖之星
日期:2015-11-17 06:20:00程序设计版块每日发帖之星
日期:2016-01-19 06:20:0015-16赛季CBA联赛之江苏
日期:2016-01-17 15:31:3915-16赛季CBA联赛之上海
日期:2016-01-16 15:44:3015-16赛季CBA联赛之浙江
日期:2016-01-15 20:38:1815-16赛季CBA联赛之北京
日期:2016-01-09 14:30:15CU十四周年纪念徽章
日期:2016-01-07 12:31:5115-16赛季CBA联赛之四川
日期:2016-01-01 11:49:1515-16赛季CBA联赛之深圳
日期:2015-12-24 14:23:4115-16赛季CBA联赛之山西
日期:2015-12-15 16:22:31技术图书徽章
日期:2015-12-10 17:41:0015-16赛季CBA联赛之北控
日期:2016-02-03 10:03:24
5 [报告]
发表于 2015-11-25 18:05 |只看该作者
好诡异。。
我测试在awk 4.0.2 和awk 3.1.6 均为UNIX
但是awk 3.1.7 为the

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
6 [报告]
发表于 2015-11-25 20:18 |只看该作者
回复 1# 423497786

IGNORECASE

$ awk 'BEGIN{IGNORECASE=1;a="the UNIX operating system";match(a, /[A-Z]+/);print substr(a,RSTART,RLENGTH)}'
the
$ awk 'BEGIN{IGNORECASE=0;a="the UNIX operating system";match(a, /[A-Z]+/);print substr(a,RSTART,RLENGTH)}'
UNIX

   

论坛徽章:
20
卯兔
日期:2015-01-26 22:05:142015亚冠之萨济拖拉机
日期:2015-09-10 15:15:282015亚冠之阿尔希拉尔
日期:2015-09-25 17:37:53程序设计版块每日发帖之星
日期:2015-10-03 06:20:00程序设计版块每日发帖之星
日期:2015-12-09 06:20:00CU十四周年纪念徽章
日期:2015-12-17 09:07:15程序设计版块每日发帖之星
日期:2015-12-25 06:20:34程序设计版块每日发帖之星
日期:2015-12-25 06:20:34程序设计版块每日发帖之星
日期:2015-12-25 06:20:342015亚冠之广州富力
日期:2015-08-27 19:29:56每日论坛发贴之星
日期:2015-08-26 06:20:002015亚冠之阿尔希拉尔
日期:2015-05-18 17:26:27
7 [报告]
发表于 2015-11-25 21:19 |只看该作者
回复 1# 423497786
  1. export LANG=C;awk 'BEGIN{a="the UNIX operating system";match(a, /[A-Z]+/);print substr(a,RSTART,RLENGTH)}'
  2. UNIX
复制代码

论坛徽章:
12
IT运维版块每日发帖之星
日期:2015-11-17 06:20:00程序设计版块每日发帖之星
日期:2016-01-19 06:20:0015-16赛季CBA联赛之江苏
日期:2016-01-17 15:31:3915-16赛季CBA联赛之上海
日期:2016-01-16 15:44:3015-16赛季CBA联赛之浙江
日期:2016-01-15 20:38:1815-16赛季CBA联赛之北京
日期:2016-01-09 14:30:15CU十四周年纪念徽章
日期:2016-01-07 12:31:5115-16赛季CBA联赛之四川
日期:2016-01-01 11:49:1515-16赛季CBA联赛之深圳
日期:2015-12-24 14:23:4115-16赛季CBA联赛之山西
日期:2015-12-15 16:22:31技术图书徽章
日期:2015-12-10 17:41:0015-16赛季CBA联赛之北控
日期:2016-02-03 10:03:24
8 [报告]
发表于 2015-11-26 09:56 |只看该作者
回复 7# songyc_2015
求解释。。


   

论坛徽章:
12
IT运维版块每日发帖之星
日期:2015-11-17 06:20:00程序设计版块每日发帖之星
日期:2016-01-19 06:20:0015-16赛季CBA联赛之江苏
日期:2016-01-17 15:31:3915-16赛季CBA联赛之上海
日期:2016-01-16 15:44:3015-16赛季CBA联赛之浙江
日期:2016-01-15 20:38:1815-16赛季CBA联赛之北京
日期:2016-01-09 14:30:15CU十四周年纪念徽章
日期:2016-01-07 12:31:5115-16赛季CBA联赛之四川
日期:2016-01-01 11:49:1515-16赛季CBA联赛之深圳
日期:2015-12-24 14:23:4115-16赛季CBA联赛之山西
日期:2015-12-15 16:22:31技术图书徽章
日期:2015-12-10 17:41:0015-16赛季CBA联赛之北控
日期:2016-02-03 10:03:24
9 [报告]
发表于 2015-11-26 10:10 |只看该作者
百度到了

我們在第零章計算機概論的文字編碼系統裡面談到,檔案其實記錄的僅有 0 與 1,我們看到的字元文字與數字都是透過編碼表轉換來的。由於不同語系的編碼資料並不相同,所以就會造成資料擷取結果的差異了。 舉例來說,在英文大小寫的編碼順序中,zh_TW.big5 及 C 這兩種語系的輸出結果分別如下:

LANG=C     時:0 1 2 3 4 ... A B C D ... Z a b c d ...z
LANG=zh_TW 時:0 1 2 3 4 ... a A b B c C d D ... z Z
上面的順序是編碼的順序,我們可以很清楚的發現這兩種語系明顯就是不一樣!如果你想要擷取大寫字元而使用 [A-Z] 時, 會發現 LANG=C 確實可以僅捉到大寫字元 (因為是連續的) ,但是如果 LANG=zh_TW.big5 時,就會發現到, 連同小寫的 b-z 也會被擷取出來!因為就編碼的順序來看, big5 語系可以擷取到『 A b B c C ... z Z 』這一堆字元哩! 所以,使用正規表示法時,需要特別留意當時環境的語系為何, 否則可能會發現與別人不相同的擷取結果喔!

由於一般我們在練習正規表示法時,使用的是相容於 POSIX 的標準,因此就使用『 C 』這個語系(註1)! 因此,底下的很多練習都是使用『 LANG=C 』這個語系資料來進行的喔!

论坛徽章:
20
卯兔
日期:2015-01-26 22:05:142015亚冠之萨济拖拉机
日期:2015-09-10 15:15:282015亚冠之阿尔希拉尔
日期:2015-09-25 17:37:53程序设计版块每日发帖之星
日期:2015-10-03 06:20:00程序设计版块每日发帖之星
日期:2015-12-09 06:20:00CU十四周年纪念徽章
日期:2015-12-17 09:07:15程序设计版块每日发帖之星
日期:2015-12-25 06:20:34程序设计版块每日发帖之星
日期:2015-12-25 06:20:34程序设计版块每日发帖之星
日期:2015-12-25 06:20:342015亚冠之广州富力
日期:2015-08-27 19:29:56每日论坛发贴之星
日期:2015-08-26 06:20:002015亚冠之阿尔希拉尔
日期:2015-05-18 17:26:27
10 [报告]
发表于 2015-11-26 16:33 |只看该作者
回复 9# sync_1521
其实我也不太懂,只知道个大概,学习了!~~~~
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP