免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: seesea2517
打印 上一主题 下一主题

[文本处理] awk小写替换的问题 [复制链接]

论坛徽章:
8
双子座
日期:2013-08-31 07:37:12金牛座
日期:2013-09-09 18:49:12处女座
日期:2013-09-23 11:43:14处女座
日期:2013-10-09 19:48:21狮子座
日期:2014-03-24 18:22:12丑牛
日期:2014-04-22 22:07:51申猴
日期:2014-06-12 21:54:13双鱼座
日期:2014-06-13 21:52:31
11 [报告]
发表于 2013-01-24 09:46 |只看该作者
哪个群,我也加一下,
回复 5# yestreenstars


   

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
12 [报告]
发表于 2013-01-24 10:02 |只看该作者
回复 11# kernel69


    shell awk sed

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
13 [报告]
发表于 2013-01-24 10:12 |只看该作者
回复 10# V_客


    不是这个问题 @blackold

论坛徽章:
0
14 [报告]
发表于 2013-01-24 10:16 |只看该作者
回复 13# Shell_HAT


    我想到就是编码是en 或者zh啥的 这个影响到a-z 顺序的,请教下别的情况 谢谢

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
15 [报告]
发表于 2013-01-24 10:23 |只看该作者
回复 13# Shell_HAT


    我还没碰到过这种问题,只是按照逻辑,应该是locale的原因。

http://www.gnu.org/software/gawk ... #Ranges-and-Locales

在你的环境下 LC_ALL=C 也不行?

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
16 [报告]
发表于 2013-01-24 10:33 |只看该作者
回复 13# Shell_HAT
@Shell_HAT@V_客
grep man
   
       Within  a  bracket  expression,  a  range  expression  consists  of two
       characters separated by a hyphen.  It matches any single character that
       sorts  between  the  two  characters,  inclusive,  using  the  locale's
       collating sequence and character set.  For example, in  the  default  C
       locale, [a-d] is equivalent to [abcd].  Many locales sort characters in
       dictionary  order,  and  in  these  locales  [a-d]  is  typically   not
       equivalent to [abcd]; it might be equivalent to [aBbCcDd], for example.
       To obtain the traditional interpretation of  bracket  expressions,  you
       can  use the C locale by setting the LC_ALL environment variable to the
       value C.

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
17 [报告]
发表于 2013-01-24 10:51 |只看该作者
本帖最后由 blackold 于 2013-01-24 10:52 编辑

awk man:
Within a character list, a "range expression" consists of two
characters separated by a hyphen.  It matches any single character that
sorts between the two characters, using the locale's collating sequence
and character set.  For example, in the default C locale, `[a-dx-z]' is
equivalent to `[abcdxyz]'.  Many locales sort characters in dictionary
order, and in these locales, `[a-dx-z]' is typically not equivalent to
`[abcdxyz]'; instead it might be equivalent to `[aBbCcDdxXyYz]', for
example.  To obtain the traditional interpretation of bracket
expressions, you can use the C locale by setting the `LC_ALL'
environment variable to the value `C'.

论坛徽章:
93
2015年辞旧岁徽章
日期:2019-10-10 10:51:15CU大牛徽章
日期:2014-02-21 14:21:56CU十二周年纪念徽章
日期:2020-10-15 16:55:55CU大牛徽章
日期:2014-02-21 14:22:07羊年新春福章
日期:2019-10-10 10:51:39CU大牛徽章
日期:2019-10-10 10:55:38季节之章:春
日期:2020-10-15 16:57:40ChinaUnix元老
日期:2019-10-10 10:54:42季节之章:冬
日期:2019-10-10 10:57:17CU大牛徽章
日期:2014-02-21 14:22:52CU大牛徽章
日期:2014-03-13 10:40:30CU大牛徽章
日期:2014-02-21 14:23:15
18 [报告]
发表于 2013-01-24 10:58 |只看该作者
回复 17# blackold

啊啊啊……疯狂的 awk
  1. [seesea@UC ~]$ LC_ALL=C; echo abcABC | awk '{print IGNORECASE ":" gensub(/([a-z])/, "x", "g");}'
  2. 0:xxxxxx
  3. [seesea@UC ~]$ echo $LC_ALL
  4. C
复制代码

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
19 [报告]
发表于 2013-01-24 11:04 |只看该作者
本帖最后由 blackold 于 2013-01-24 11:05 编辑

回复 18# seesea2517
locale 输出是啥?


什么系统?

论坛徽章:
93
2015年辞旧岁徽章
日期:2019-10-10 10:51:15CU大牛徽章
日期:2014-02-21 14:21:56CU十二周年纪念徽章
日期:2020-10-15 16:55:55CU大牛徽章
日期:2014-02-21 14:22:07羊年新春福章
日期:2019-10-10 10:51:39CU大牛徽章
日期:2019-10-10 10:55:38季节之章:春
日期:2020-10-15 16:57:40ChinaUnix元老
日期:2019-10-10 10:54:42季节之章:冬
日期:2019-10-10 10:57:17CU大牛徽章
日期:2014-02-21 14:22:52CU大牛徽章
日期:2014-03-13 10:40:30CU大牛徽章
日期:2014-02-21 14:23:15
20 [报告]
发表于 2013-01-24 11:22 |只看该作者
嘿嘿没事了……
这个 export 还真是必须的好像:
  1. [seesea@UC ~]$ LC_ALL=C; echo abcABC | awk '{print IGNORECASE ":" gensub(/([a-z])/, "x", "g");}'
  2. 0:xxxxxx
  3. [seesea@UC ~]$ echo $LC_ALL
  4. C
  5. [seesea@UC ~]$ locale
  6. LANG=zh_CN
  7. LC_CTYPE="zh_CN"
  8. LC_NUMERIC="zh_CN"
  9. LC_TIME="zh_CN"
  10. LC_COLLATE="zh_CN"
  11. LC_MONETARY="zh_CN"
  12. LC_MESSAGES="zh_CN"
  13. LC_PAPER="zh_CN"
  14. LC_NAME="zh_CN"
  15. LC_ADDRESS="zh_CN"
  16. LC_TELEPHONE="zh_CN"
  17. LC_MEASUREMENT="zh_CN"
  18. LC_IDENTIFICATION="zh_CN"
  19. LC_ALL=
  20. [seesea@UC ~]$ uname -a
  21. Linux p01coding 2.6.18-128.2.1.el5 #1 SMP Tue Jul 14 06:39:56 EDT 2009 i686 i686 i386 GNU/Linux
  22. [seesea@UC ~]$ export LC_ALL=C
  23. [seesea@UC ~]$ locale         
  24. LANG=zh_CN
  25. LC_CTYPE="C"
  26. LC_NUMERIC="C"
  27. LC_TIME="C"
  28. LC_COLLATE="C"
  29. LC_MONETARY="C"
  30. LC_MESSAGES="C"
  31. LC_PAPER="C"
  32. LC_NAME="C"
  33. LC_ADDRESS="C"
  34. LC_TELEPHONE="C"
  35. LC_MEASUREMENT="C"
  36. LC_IDENTIFICATION="C"
  37. LC_ALL=C
  38. [seesea@UC ~]$ echo abcABC | awk '{print IGNORECASE ":" gensub(/([a-z])/, "x", "g");}'         
  39. 0:xxxABC
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP