免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2068 | 回复: 5
打印 上一主题 下一主题

[文本处理] awk 分隔方括号,空值当列问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-11-13 11:15 |只看该作者 |倒序浏览
本帖最后由 skypeleo 于 2014-11-13 11:17 编辑

2014-11-11 09:39:48: ip[192.168.10.15] uid[585721] msg[get cache userinfo]
2014-11-05 09:58:33: ip[192.168.10.14] uid[585721] msg[get cache userinfo] uid[] word[555]
2014-11-06 09:58:33: ip[192.168.10.15] uid[585721] msg[get cache userinfo] key[we]
2014-11-12 09:58:34: ip[192.168.10.16] uid[585721] msg[get cache userinfo] uid[]
2014-11-05 09:58:34: ip[192.168.10.17] uid[] msg[get cache userinfo] search[you]

1.去除第2列后面的冒号:
2.如果这个列有方括号,取方括号内的内容
3.用“|”分隔
4.前5列一样且一定有,后面可追加自定义的列
5.遇到某些列方括号里面为空 也要当成列
6.文件大小2-4G


结果为
2014-11-11|09:39:48|192.168.10.15|585721|get cache userinfo
2014-11-05|09:58:33|192.168.10.14|585721|get cache userinfo||555
2014-11-06|09:58:33|192.168.10.15|585721|get cache userinfo|we
2014-11-12|09:58:34|192.168.10.16|585721|get cache userinfo||
2014-11-05|09:58:34|192.168.10.17||get cache userinfo|you

论坛徽章:
23
15-16赛季CBA联赛之吉林
日期:2017-12-21 16:39:27白羊座
日期:2014-10-27 11:14:37申猴
日期:2014-10-23 08:36:23金牛座
日期:2014-09-30 08:26:49午马
日期:2014-09-29 09:40:16射手座
日期:2014-11-25 08:56:112015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:49:0315-16赛季CBA联赛之山东
日期:2017-12-21 16:39:1915-16赛季CBA联赛之广东
日期:2016-01-19 13:33:372015亚冠之山东鲁能
日期:2015-10-13 09:39:062015亚冠之西悉尼流浪者
日期:2015-09-21 08:27:57
2 [报告]
发表于 2014-11-13 11:37 |只看该作者
回复 1# skypeleo


try:
  1. awk -F '[][]' '{printf gensub(/(.*) (.*):[^:]*$/,"\\1|\\2",1,$1);for(i=2;i<NF;i+=2)printf "|"$i;print ""}' file
复制代码

论坛徽章:
0
3 [报告]
发表于 2014-11-13 11:51 |只看该作者
回复 2# ly5066113

秒杀  谢谢哒哒


   

论坛徽章:
60
20周年集字徽章-20	
日期:2020-10-28 14:04:3015-16赛季CBA联赛之北京
日期:2016-07-06 15:42:0715-16赛季CBA联赛之同曦
日期:2016-06-12 10:38:0915-16赛季CBA联赛之佛山
日期:2016-05-27 11:54:56黄金圣斗士
日期:2015-12-02 11:44:35白银圣斗士
日期:2015-11-25 14:32:43白银圣斗士
日期:2015-11-23 12:53:352015亚冠之布里斯班狮吼
日期:2015-10-21 16:55:482015亚冠之首尔
日期:2015-09-01 16:46:052015亚冠之德黑兰石油
日期:2015-08-31 11:39:192015亚冠之萨济拖拉机
日期:2015-08-28 21:06:5315-16赛季CBA联赛之广东
日期:2016-07-12 14:58:53
4 [报告]
发表于 2014-11-13 12:09 |只看该作者
  1. #!/usr/bin/python
  2. # -*- coding: utf-8 -*-

  3. import fileinput, sys, re
  4. for line in fileinput.input(sys.argv[1]):
  5.     l = []
  6.     record = re.findall('(\d+-\d+-\d+ \d+:\d+:\d+)|\[(.*?)\]',line)
  7.     try:
  8.         l.append(record[0][0])
  9.         for t in record[1:]:
  10.             l.append(t[1])
  11.     except Exception, e:
  12.         pass
  13.     print '|'.join(l)
复制代码
也可用于你之前的那个贴: http://bbs.chinaunix.net/thread-4160126-1-1.html

论坛徽章:
24
申猴
日期:2014-10-10 15:56:39射手座
日期:2014-10-10 15:57:18黑曼巴
日期:2018-05-14 11:05:122016科比退役纪念章
日期:2018-05-14 11:05:0715-16赛季CBA联赛之北控
日期:2018-05-14 11:05:0015-16赛季CBA联赛之江苏
日期:2017-02-27 18:11:0715-16赛季CBA联赛之上海
日期:2018-08-15 09:48:5415-16赛季CBA联赛之佛山
日期:2018-07-20 17:14:2315-16赛季CBA联赛之佛山
日期:2019-09-10 18:08:4615-16赛季CBA联赛之山西
日期:2020-03-26 09:40:5115-16赛季CBA联赛之佛山
日期:2020-05-08 09:03:54
5 [报告]
发表于 2014-11-13 14:26 |只看该作者
本帖最后由 chengchow 于 2014-11-13 14:27 编辑
  1. sed -r 's/(^\S+)\s+(\S+):/\1|\2|/g;s/(\s+)\S+\[([^]]*)\]\S*/\1\2|/g' file
  2. 2014-11-11|09:39:48| 192.168.10.15| 585721| get cache userinfo|
  3. 2014-11-05|09:58:33| 192.168.10.14| 585721| get cache userinfo| | 555|
  4. 2014-11-06|09:58:33| 192.168.10.15| 585721| get cache userinfo| we|
  5. 2014-11-12|09:58:34| 192.168.10.16| 585721| get cache userinfo| |
  6. 2014-11-05|09:58:34| 192.168.10.17| | get cache userinfo| you|
复制代码

论坛徽章:
1
2015年辞旧岁徽章
日期:2015-03-03 16:54:15
6 [报告]
发表于 2014-11-13 17:14 |只看该作者
gawk 'BEGIN{FS="[]:] +[a-z]+\\[|] *";OFS="|"}{sub(" ","|",$1);NF=NF-1}1'
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP