免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 3037 | 回复: 14

[文本处理] awk中的c<=b和c-b<=0的区别 [复制链接]

论坛徽章:
1
丑牛
日期:2014-02-14 17:07:04
发表于 2014-02-12 10:21 |显示全部楼层
本帖最后由 ace_fei 于 2014-02-12 11:38 编辑

原始文本
3076931 3076733 AA
3076738 3076739 BB
3076130 3076131 CC
3071127 3071127 CC
需要得到文本
3076931 3076731 AA
3076732 3076732 AA
3076933 3076733 AA
3076738 3076738 BB
3076739 3076739 BB
3076130 3076130 CC
3076131 3076131 CC
3071127 3071127 CC

我现在用awk来处理,可以得到结果。
$awk '{a=substr($1,7,1);b=substr($2,7,1);for(c=a;c-b<=0;c++){x=substr($1,1,6)c;y=substr($2,1,6)c;print x,y,$3}}' 1.txt
3076931 3076731 AA
3076932 3076732 AA
3076933 3076733 AA
3076738 3076738 BB
3076739 3076739 BB
3076130 3076130 CC
3076131 3076131 CC
3071127 3071127 CC

但是我发现我要是把for循环中的 c-b<=0,改为c<=b,结果就不同了,请问大家知道是什么原因吗?
$awk '{a=substr($1,7,1);b=substr($2,7,1);for(c=a;c<=b;c++){x=substr($1,1,6)c;y=substr($2,1,6)c;print x,y,$3}}' 1.txt
3076931 3076731 AA
3076932 3076732 AA
3076933 3076733 AA
3076738 3076738 BB
3076739 3076739 BB
30767310 30767310 BB
30767311 30767311 BB
... ...
30767389 30767389 BB
3076130 3076130 CC
3076131 3076131 CC
3071127 3071127 CC

如果是比较ascii码,为什么就BB那行数据有异常,是'8'跟'9'对应的ascii码做比较吗?

进展:
我修改了一下原始文本BB那列的数据,发现只有当末位数是9的时候(即b=9),才会出异常,判断c<=b时,会自动变成c<=90。

论坛徽章:
742
金牛座
日期:2014-02-26 17:49:58水瓶座
日期:2014-02-26 18:10:15白羊座
日期:2014-04-15 19:29:52寅虎
日期:2014-04-17 19:43:21酉鸡
日期:2014-04-19 21:24:10子鼠
日期:2014-04-22 13:55:24卯兔
日期:2014-04-22 14:20:58亥猪
日期:2014-04-22 16:13:09狮子座
日期:2014-05-05 22:31:17摩羯座
日期:2014-05-06 10:32:53处女座
日期:2014-05-12 09:23:11子鼠
日期:2014-05-21 18:21:27
发表于 2014-02-12 10:31 |显示全部楼层
回复 1# ace_fei
猜一个,b,c都是字符串,
c-b比的是数值大小, c<=b字符串比较。


   

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
发表于 2014-02-12 10:33 |显示全部楼层
c<=b 是做的ASCII比较

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
发表于 2014-02-12 10:41 |显示全部楼层
回复 1# ace_fei

c <= b
  didn't change b to be a number and it will compare with string

there are many way can work fine
1. c-b <= 0 , your solution
2. c <= b+0
3. c <= b*1
4. c <= +b
5. c <= int(b)

论坛徽章:
1
丑牛
日期:2014-02-14 17:07:04
发表于 2014-02-12 10:51 |显示全部楼层
回复 4# jason680
谢谢大家,看来以后记得用a-b<=0来做数字比较就没错了。

   

论坛徽章:
1
丑牛
日期:2014-02-14 17:07:04
发表于 2014-02-12 10:53 |显示全部楼层
回复 3# Shell_HAT
比如上面的例子,是拿“8”跟“9”的ascii来比较?

   

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
发表于 2014-02-12 11:10 |显示全部楼层
如果用c<=b的话,awk默认会以ACSII码的顺序来比较,而不是以数值的大小比较。

论坛徽章:
1
丑牛
日期:2014-02-14 17:07:04
发表于 2014-02-12 11:15 |显示全部楼层
本帖最后由 ace_fei 于 2014-02-12 11:16 编辑

回复 7# yestreenstars
比如上面的例子,取BB那行的数据,c<=b是“8”跟“9”的ascii比较吗,那也不至于比到89吧,89对应的是Z。

   

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
发表于 2014-02-12 11:21 |显示全部楼层
回复 8# ace_fei


    不是把89看成一个整体,而是先看这个字符串的第一个字符8的ASCII

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
发表于 2014-02-12 12:13 |显示全部楼层
回复 8# ace_fei

你是用substr来截取数字的,得到的是字符串,而不是数字,所以如果用c<=b的方式比较的话是这样的:
1.c=a="8",b="9",c<=b为真,c++,c=9;
2.9>="9"为真,c++,c=10;
3.10>="9"为真,c++,c=11;
……
直到c=90时,90>="9"才为假。

这么说,你应该能理解吧?
   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP