免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2128 | 回复: 7

[文本处理] 急,如何去掉日志指定列中的空格 [复制链接]

论坛徽章:
0
发表于 2015-10-08 18:43 |显示全部楼层
从web的日志中取数时,因为各种原因,导致日志的列中有一些空格,有的是一个空格,有的是多个空格

如下面的b.txt
网址|ip|时间
163.com|21.10.12.22 |17:10
163.com@12a|21.10.12.22  |17:10
163.com|21.10.12.22|17:10
163.com |21.10.12.22 |17:10
163.com |21.10.12.22|17:10
163.com  |21.10.12.22|17:10

    1、想要的结果是有多少个ip,我是这样的:awk -F'|' '{if(!a[$2]++) ++b}END{print b}' b.txt
结果是3,但我知道结果应该是1,因为第二列有空格,有时是一个,有时是多个空格,
请教下这个去掉空格的操作(相当于trim())的shell是怎么写的,要去掉前后多个空格

2、对第一列和第二列去掉空格,然后计算每个ip下去重的网址有多少(计算时要去掉结尾“@12a”,比如163.com@12a,去掉后是163.com)
  想要的结果是21.10.12.22|1

论坛徽章:
54
2015亚冠之德黑兰石油
日期:2015-07-07 13:00:1615-16赛季CBA联赛之深圳
日期:2016-03-31 09:03:5415-16赛季CBA联赛之辽宁
日期:2016-05-09 20:38:15程序设计版块每日发帖之星
日期:2016-05-12 06:20:0015-16赛季CBA联赛之四川
日期:2016-05-13 15:19:4715-16赛季CBA联赛之福建
日期:2016-05-15 20:24:34每日论坛发贴之星
日期:2016-05-16 06:20:0015-16赛季CBA联赛之吉林
日期:2016-05-26 11:49:4715-16赛季CBA联赛之广东
日期:2016-05-26 13:49:18极客徽章
日期:2016-12-07 14:05:2315-16赛季CBA联赛之广夏
日期:2016-12-20 17:33:532017金鸡报晓
日期:2017-01-10 15:19:56
发表于 2015-10-08 19:19 |显示全部楼层
  1. awk -F '|' '{gsub(" ","");sub("@.*$","",$1);!a[$1$2]}END{print length(a)}' a  
复制代码

论坛徽章:
16
CU十二周年纪念徽章
日期:2013-10-24 15:41:3415-16赛季CBA联赛之广东
日期:2015-12-23 21:21:55青铜圣斗士
日期:2015-12-05 10:35:30黄金圣斗士
日期:2015-11-26 20:42:16神斗士
日期:2015-11-19 12:47:50每日论坛发贴之星
日期:2015-11-18 06:20:00程序设计版块每日发帖之星
日期:2015-11-18 06:20:002015亚冠之城南
日期:2015-11-10 19:10:492015亚冠之萨济拖拉机
日期:2015-10-28 18:47:282015亚冠之柏太阳神
日期:2015-08-30 17:21:492015亚冠之山东鲁能
日期:2015-07-07 18:48:39摩羯座
日期:2014-08-29 23:01:42
发表于 2015-10-08 20:24 |显示全部楼层
  1. awk -F '|' '{a=gsub(/\s+/,"",$2);if (!b[$2]++) c++}END{print c}' file
复制代码

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
发表于 2015-10-08 20:47 |显示全部楼层
回复 1# wzl189189

What You Want Is What You Code(WYWIWYC)

>> 有时是一个,有时是多个空格...
163.com |21.10.12.22 |17:10


$ awk -F'[ \t]*\\|[ \t]*' '{print "<"$1">,<"$2">,<"$3">"}' b.txt
<网址>,<ip>,<时间>
<163.com>,<21.10.12.22>,<17:10>
<163.com@12a>,<21.10.12.22>,<17:10>
<163.com>,<21.10.12.22>,<17:10>
<163.com>,<21.10.12.22>,<17:10>
<163.com>,<21.10.12.22>,<17:10>
<163.com>,<21.10.12.22>,<17:10>


>> ...去掉结尾“@12a”...

$ awk -F'[ \t]*\\|[ \t]*' '{sub(/@.*$/,"",$1);print "<"$1">,<"$2">,<"$3">"}' b.txt
<网址>,<ip>,<时间>
<163.com>,<21.10.12.22>,<17:10>
<163.com>,<21.10.12.22>,<17:10>
<163.com>,<21.10.12.22>,<17:10>
<163.com>,<21.10.12.22>,<17:10>
<163.com>,<21.10.12.22>,<17:10>
<163.com>,<21.10.12.22>,<17:10>

   

论坛徽章:
16
CU十二周年纪念徽章
日期:2013-10-24 15:41:3415-16赛季CBA联赛之广东
日期:2015-12-23 21:21:55青铜圣斗士
日期:2015-12-05 10:35:30黄金圣斗士
日期:2015-11-26 20:42:16神斗士
日期:2015-11-19 12:47:50每日论坛发贴之星
日期:2015-11-18 06:20:00程序设计版块每日发帖之星
日期:2015-11-18 06:20:002015亚冠之城南
日期:2015-11-10 19:10:492015亚冠之萨济拖拉机
日期:2015-10-28 18:47:282015亚冠之柏太阳神
日期:2015-08-30 17:21:492015亚冠之山东鲁能
日期:2015-07-07 18:48:39摩羯座
日期:2014-08-29 23:01:42
发表于 2015-10-08 20:57 |显示全部楼层
  1. awk -F '|' '{gsub(/\s+/,"",$2);gsub(/\s+/,"",$1);split($1,a,/@/);if(!b[$2";"a[1]])b[$2";"a[1]]++}END{for (c in b){split(c,a,";");d[a[1]] += b[c]} for (c in d){print c"|"d[c]}}' file
复制代码

论坛徽章:
0
发表于 2015-10-09 12:30 |显示全部楼层
回复 2# haooooaaa

sub("@.*$","",$1);  --------    替换时 ,为啥是“@.*$" , 为什么不是”@*$" 啊,即为什么要加个”."


   

论坛徽章:
0
发表于 2015-10-09 16:17 |显示全部楼层
回复 4# jason680

{sub(/@.*$/,"",$1);================  诚心请教,@后有个”." ,这个是什么语法? 我看了好久没有找到啊
   

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
发表于 2015-10-09 16:28 |显示全部楼层
回复 7# wzl189189

正则 Regular Expression(RE)


http://bbs.chinaunix.net/thread-218853-1-1.html
shell 十三問?
Part-II: Regular Expression
   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP