免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 3343 | 回复: 10

[文本处理] awk问题请教 [复制链接]

论坛徽章:
7
数据库技术版块每日发帖之星
日期:2015-08-08 06:20:00数据库技术版块每日发帖之星
日期:2015-08-29 06:20:00数据库技术版块每日发帖之星
日期:2015-08-29 06:20:00数据库技术版块每日发帖之星
日期:2015-09-18 06:20:00数据库技术版块每周发帖之星
日期:2015-11-06 19:56:51数据库技术版块每日发帖之星
日期:2016-01-22 06:20:00数据库技术版块每日发帖之星
日期:2016-02-05 06:20:00
发表于 2013-11-26 13:37 |显示全部楼层
本帖最后由 asdf2110 于 2013-11-26 14:04 编辑

文本格式如下
casename:sql.txt:-T tb1:partition1:1.dmp

期望 : 这个串以冒号 : 分隔,输出每个域的值
但是 -T tb1:partition1 这部分要作为一个整体输出,求 awk 写法,多谢

补充:
1. 可能包含 多个 -T
2. 不是每个 -T 后面都是 a:b 的格式

是不是没法处理啊,要不行就让改文件格式 了

论坛徽章:
15
2015年辞旧岁徽章
日期:2015-03-03 16:54:15双鱼座
日期:2015-01-15 17:29:44午马
日期:2015-01-06 17:06:51子鼠
日期:2014-11-24 10:11:13寅虎
日期:2014-08-18 07:10:55酉鸡
日期:2014-04-02 12:24:51双子座
日期:2014-04-02 12:19:44天秤座
日期:2014-03-17 11:43:36亥猪
日期:2014-03-13 08:13:51未羊
日期:2014-03-11 12:42:03白羊座
日期:2013-11-20 10:15:18CU大牛徽章
日期:2013-04-17 11:48:45
发表于 2013-11-26 13:45 |显示全部楼层
自己先想一下啊,碰到有"-" 的字段做个判断即可。

论坛徽章:
39
辰龙
日期:2013-08-21 15:45:192015亚冠之广州富力
日期:2015-05-12 16:34:52亥猪
日期:2015-03-03 17:22:00申猴
日期:2015-03-03 17:21:37未羊
日期:2014-10-10 13:45:41戌狗
日期:2014-06-17 09:53:29巨蟹座
日期:2014-06-12 23:17:17双鱼座
日期:2014-06-10 12:42:44寅虎
日期:2014-06-09 12:52:172015亚冠之卡尔希纳萨夫
日期:2015-05-24 15:24:35黄金圣斗士
日期:2015-12-02 17:25:0815-16赛季CBA联赛之吉林
日期:2017-06-24 16:43:52
发表于 2013-11-26 13:53 |显示全部楼层
回复 1# asdf2110


    是不是真这么简单:
  1. awk -F: '{print $1,$2,$3":"$4,$5}'
复制代码

论坛徽章:
7
数据库技术版块每日发帖之星
日期:2015-08-08 06:20:00数据库技术版块每日发帖之星
日期:2015-08-29 06:20:00数据库技术版块每日发帖之星
日期:2015-08-29 06:20:00数据库技术版块每日发帖之星
日期:2015-09-18 06:20:00数据库技术版块每周发帖之星
日期:2015-11-06 19:56:51数据库技术版块每日发帖之星
日期:2016-01-22 06:20:00数据库技术版块每日发帖之星
日期:2016-02-05 06:20:00
发表于 2013-11-26 14:05 |显示全部楼层
多谢回复
补充:
1. 可能包含 多个 -T
2. 不是每个 -T 后面都是 a:b 的格式

是不是没法处理啊,要不行就让改文件格式 了

回复 3# 关阴月飞


   

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
发表于 2013-11-26 14:14 |显示全部楼层
不是每个 -T 后面都是 a:b 的格式
还有什么情况?不说清楚点很难帮你

论坛徽章:
7
数据库技术版块每日发帖之星
日期:2015-08-08 06:20:00数据库技术版块每日发帖之星
日期:2015-08-29 06:20:00数据库技术版块每日发帖之星
日期:2015-08-29 06:20:00数据库技术版块每日发帖之星
日期:2015-09-18 06:20:00数据库技术版块每周发帖之星
日期:2015-11-06 19:56:51数据库技术版块每日发帖之星
日期:2016-01-22 06:20:00数据库技术版块每日发帖之星
日期:2016-02-05 06:20:00
发表于 2013-11-26 14:17 |显示全部楼层
本帖最后由 asdf2110 于 2013-11-26 14:18 编辑

没了,但这样感觉会有歧义

如果我在 -T 部分加双引号,有办法处理吗?

比如:casename:sql.txt:"-T tb1:partition1""-T tab2":1.dmp

期望结果是:
casename
sql.txt
-T tb1:partition1
-T tab2
1.dmp

回复 5# yestreenstars


   

论坛徽章:
1
摩羯座
日期:2014-12-29 15:59:36
发表于 2013-11-26 14:28 |显示全部楼层
能不能换个标准的格式 比如csv  比如json

论坛徽章:
5
未羊
日期:2014-08-04 16:15:21天秤座
日期:2014-08-13 13:52:372015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:56:112015亚冠之浦和红钻
日期:2015-06-29 15:30:48
发表于 2013-11-26 14:46 |显示全部楼层
回复 6# asdf2110


    变相处理下吧
  1. tr "\"" "\n" < file|sed -r '/^:|:$/s/:/\n/g'
复制代码

论坛徽章:
130
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
发表于 2013-11-26 14:52 |显示全部楼层
回复 1# asdf2110

try this one

$ echo "casename:sql.txt:-T tb1:partition1:1.dmp" | awk -F: '{for(n=0;n++<NF;){if(match($n,"-T")){printf("%s:",$n)}else{print $n}}}'
casename
sql.txt
-T tb1:partition1
1.dmp


   

论坛徽章:
6
处女座
日期:2014-04-02 16:07:17酉鸡
日期:2014-04-14 10:09:22子鼠
日期:2014-04-17 11:57:30辰龙
日期:2014-09-01 17:14:08戌狗
日期:2014-10-28 12:25:54未羊
日期:2014-11-14 11:31:58
发表于 2013-11-26 15:27 |显示全部楼层
echo "casename:sql.txt:-T tb1:partition1:1.dmp:abcd:ppp:\"-T paslkkww 2ddw d3-asd:ad\"" | awk -F: '{for(i=1;i<=NF;i++){if($i~/-T/){print $i":"}else{print $i}}}' | sed -n '1{:1;N;$!b1 s/\n/ /gp}' | sed 's/: /:/g'
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

DTCC2020中国数据库技术大会

【架构革新 高效可控】2020年12月21日-23日第十一届中国数据库技术大会将在北京隆重召开。

大会设置2大主会场,20+技术专场,将邀请超百位行业专家,重点围绕数据架构、AI与大数据、传统企业数据库实践和国产开源数据库等内容展开分享和探讨,为广大数据领域从业人士提供一场年度盛会和交流平台。

http://dtcc.it168.com


大会官网>>
  

北京盛拓优讯信息技术有限公司. 版权所有 16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122
中国互联网协会会员  联系我们:huangweiwei@it168.com
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP