免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 2745 | 回复: 15
打印 上一主题 下一主题

[文本处理] shell文本处理,求助 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2015-05-07 18:38 |只看该作者 |倒序浏览
一直在隔三差五的学习shell命令,碰到问题了还是没思路,希望坛子里的大神帮忙,个人感觉不是很难,就是写不出来。。。。。。
文本:
[bes@testdb ~]$ more test.txt
dn: bbsubid=33271471, bbloginname=IP0020014591, cn=broadbanduser, uporgcode=03
20, cn=organization, dc=hbradius,dc=com
bbexpiredate: 20901230235959
bbonlinesum: 1
bbproduct: 0303010012
bbrealservice: DG0101
bbservice: 0801
bbstopstatus: normal
bbsubid: 33271471
bbsubstatus: active
bbvaliddate: 20141228001954
objectClass: BossBroadBandSubscription
objectClass: top

dn: bbsubid=39367911, bbloginname=IP0020014591, cn=broadbanduser, uporgcode=03
20, cn=organization, dc=hbradius,dc=com
bbexpiredate: 20901230235959
bbonlinesum: 1
bbproduct: 0303010001
bbrealservice: DG0101
bbservice: 4512
bbstopstatus: normal
bbsubid: 39367911
bbsubstatus: active
bbvaliddate: 20150504141856
objectClass: BossBroadBandSubscription
objectClass: top
想要加工成的格式:
IP0020014591,0801
IP0020014591,4512
就是bbloginname=的值和bbservice的值,
awk -vRS='dn:' -vFS='\n' '($1~/33271471/){split($1,a,/[=,]/);n=a[4]}($6~/bbservice/){split($1,b,":");n=b[2]}{print n,m}' test.txt
自己写了个半成品,有点问题,因为dn下面各个节点出现的顺序可能不同,$6~/bbservice/这里的数字无法写死。

论坛徽章:
39
辰龙
日期:2013-08-21 15:45:192015亚冠之广州富力
日期:2015-05-12 16:34:52亥猪
日期:2015-03-03 17:22:00申猴
日期:2015-03-03 17:21:37未羊
日期:2014-10-10 13:45:41戌狗
日期:2014-06-17 09:53:29巨蟹座
日期:2014-06-12 23:17:17双鱼座
日期:2014-06-10 12:42:44寅虎
日期:2014-06-09 12:52:172015亚冠之卡尔希纳萨夫
日期:2015-05-24 15:24:35黄金圣斗士
日期:2015-12-02 17:25:0815-16赛季CBA联赛之吉林
日期:2017-06-24 16:43:52
2 [报告]
发表于 2015-05-07 18:52 |只看该作者
本帖最后由 关阴月飞 于 2015-05-07 19:20 编辑

回复 1# qpengf
  1. grep -Po '(?<=bbloginname=)[^ ]+|(?<=bbservice: ).+' urfile |paste - -
  2. awk -vRS='bbloginname=|bbservice: ' 'NR>1{printf n++%2?$1"\n":$1 FS}'  urifle
  3. awk -F 'bbloginname=|bbservice: ' 'NF==2{printf (split($2,a," ")>1)?a[1]" ":a[1]"\n"}' urfile
  4. awk  '/bbloginname=/{split($3,a,"=")}/bbservice:/{print a[2],$2}' urfile
复制代码

论坛徽章:
10
天蝎座
日期:2013-09-22 22:32:23程序设计版块每日发帖之星
日期:2016-08-07 06:20:00lufei
日期:2016-06-17 17:38:40程序设计版块每日发帖之星
日期:2016-06-12 06:20:002016科比退役纪念章
日期:2016-05-31 15:47:20CU十四周年纪念徽章
日期:2016-05-27 12:24:562015年亚洲杯之阿曼
日期:2015-05-03 21:01:352015年辞旧岁徽章
日期:2015-03-03 16:54:15天蝎座
日期:2013-10-20 21:05:24程序设计版块每日发帖之星
日期:2016-08-11 06:20:00
3 [报告]
发表于 2015-05-07 18:54 |只看该作者
回复 1# qpengf
  1. sed -nr 's/.*bbloginname=([^,]*).*/\1, /;th;s/bbservice: (.*)/\1/;tH;d;:h;h;d;:H;H;g;s/\n//p'
复制代码

论坛徽章:
10
天蝎座
日期:2013-09-22 22:32:23程序设计版块每日发帖之星
日期:2016-08-07 06:20:00lufei
日期:2016-06-17 17:38:40程序设计版块每日发帖之星
日期:2016-06-12 06:20:002016科比退役纪念章
日期:2016-05-31 15:47:20CU十四周年纪念徽章
日期:2016-05-27 12:24:562015年亚洲杯之阿曼
日期:2015-05-03 21:01:352015年辞旧岁徽章
日期:2015-03-03 16:54:15天蝎座
日期:2013-10-20 21:05:24程序设计版块每日发帖之星
日期:2016-08-11 06:20:00
4 [报告]
发表于 2015-05-07 19:03 |只看该作者
  1. awk -F"[,:]" '$0~/bbloginname=/{for(i=1; i<=NF; i++)if($i~/bbloginname=/){sub(" bbloginname=", "", $i);printf("%s,", $i)}}$0~/bbservice:/{print $2}'
复制代码
回复 1# qpengf


   

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
5 [报告]
发表于 2015-05-07 19:04 |只看该作者
回复 1# qpengf

$ awk -vs="bbloginname bbservice" -F' *[:=,] *' 'function p(n,m){for(n=1;n<=t;n++)m=m  a[k[n]]" ";print m;delete a}BEGIN{t=split(s,k," ")}sub(/^dn: */,""){if(P)p();P=1}{for(n=1;n<NF;n+=2)a[$n]=$(n+1)}END{p()}' FILE
IP0020014591 0801
IP0020014591 4512

   

论坛徽章:
30
申猴
日期:2014-04-10 09:43:532015年亚洲杯纪念徽章
日期:2015-03-20 14:40:232015亚冠之阿尔纳斯尔
日期:2015-06-02 18:59:042015亚冠之阿尔希拉尔
日期:2015-06-30 15:22:572015亚冠之大阪钢巴
日期:2015-07-20 10:44:332015亚冠之阿尔纳斯尔
日期:2015-10-28 14:57:5215-16赛季CBA联赛之新疆
日期:2015-12-25 10:18:45黑曼巴
日期:2016-06-26 21:39:5315-16赛季CBA联赛之山西
日期:2016-07-25 21:54:2715-16赛季CBA联赛之北京
日期:2016-10-27 12:07:2315-16赛季CBA联赛之八一
日期:2017-07-07 16:39:0915-16赛季CBA联赛之吉林
日期:2017-09-04 12:14:43
6 [报告]
发表于 2015-05-07 19:44 |只看该作者
  1. awk '{if(match($0,"bbloginname=([^,]+)",a)) printf a[1]",";if(match($0,"bbservice: (.*)",b)) print b[1]}' file
  2. IP0020014591,0801
  3. IP0020014591,4512
复制代码
回复 1# qpengf


   

求职 : 机器学习
论坛徽章:
79
2015年亚洲杯纪念徽章
日期:2015-05-06 19:18:572015七夕节徽章
日期:2015-08-21 11:06:172015亚冠之阿尔纳斯尔
日期:2015-09-07 09:30:232015亚冠之萨济拖拉机
日期:2015-10-21 08:26:3915-16赛季CBA联赛之浙江
日期:2015-12-30 09:59:1815-16赛季CBA联赛之浙江
日期:2016-01-10 12:35:21技术图书徽章
日期:2016-01-15 11:07:2015-16赛季CBA联赛之新疆
日期:2016-02-24 13:46:0215-16赛季CBA联赛之吉林
日期:2016-06-26 01:07:172015-2016NBA季后赛纪念章
日期:2016-06-28 17:44:45黑曼巴
日期:2016-06-28 17:44:4515-16赛季CBA联赛之浙江
日期:2017-07-18 13:41:54
7 [报告]
发表于 2015-05-07 21:09 |只看该作者
本帖最后由 zsszss0000 于 2015-05-07 21:09 编辑
  1. sed -n 's/.*bbloginname=\([^,]\+\).*/\1/p;s/bbservice: \(.*\)/\1/p' file | sed 'N;s/\n/,/'
复制代码
整个流程分为两段,通过增加过程来化简对技巧的需要

论坛徽章:
20
卯兔
日期:2015-01-26 22:05:142015亚冠之萨济拖拉机
日期:2015-09-10 15:15:282015亚冠之阿尔希拉尔
日期:2015-09-25 17:37:53程序设计版块每日发帖之星
日期:2015-10-03 06:20:00程序设计版块每日发帖之星
日期:2015-12-09 06:20:00CU十四周年纪念徽章
日期:2015-12-17 09:07:15程序设计版块每日发帖之星
日期:2015-12-25 06:20:34程序设计版块每日发帖之星
日期:2015-12-25 06:20:34程序设计版块每日发帖之星
日期:2015-12-25 06:20:342015亚冠之广州富力
日期:2015-08-27 19:29:56每日论坛发贴之星
日期:2015-08-26 06:20:002015亚冠之阿尔希拉尔
日期:2015-05-18 17:26:27
8 [报告]
发表于 2015-05-08 01:44 |只看该作者
本帖最后由 songyc_2015 于 2015-05-08 02:23 编辑
  1. awk -F'[\n=: ,]+' -vRS= '{for(i=1;i<=NF;i++){if($i~/bbloginname|bbservice/)s=length(s)>0?s","$(i+1):$(i+1)}print s;s=""}' e.txt
  2. awk -F'[=: ,]+' '/bbloginname/{s=$5}/bbservice/{s=s","$2;print s;s=""}' e.txt
  3. sed -nr '/^dn/{:a;$bb;N;/top\n/!ba;:b;s#.*bbloginname=([^,]+).*bbservice: ([^\n]+).*#\1,\2#p;}' e.txt
  4. sed -nr '/bbloginname/{s#.*bbloginname=([^,]+).*#\1#;h};/bbservice: /{s###;H;g;s#\n#,#p}' e.txt
复制代码
回复 1# qpengf


   

论坛徽章:
0
9 [报告]
发表于 2015-05-08 09:44 |只看该作者
回复 2# 关阴月飞


     awk  'function x(){if(id)print id,n;id=n=""}/bbloginname=/{split($3,a,"=");id=a[2]}/bbservice/{n=$2}/^dn/{x()}END{x()}' test.txt
IP0020014591,
IP0020014591, 0801
你好,感谢你的帮忙,为什么我这样写出来的是这个结果呢?

论坛徽章:
0
10 [报告]
发表于 2015-05-08 09:51 |只看该作者
回复 2# 关阴月飞


    awk  '/bbloginname=/{split($3,a,"=")}/bbservice:/{b=$2}/^dn/{print a[2],b;delete a;b=""}' test.txt
这样子改之后的结果也是
IP0020014591,
IP0020014591, 0801
我这样子改是担心文本中数据不完整,这样子改之后,遇到dn开头,就把打印变量的值清空一次,这样保证打印出的每行信息在原始文本中对应一个dn节点的信息。

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP