免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: ccie307
打印 上一主题 下一主题

请教个文本处理问题 [复制链接]

论坛徽章:
0
21 [报告]
发表于 2009-03-06 11:20 |只看该作者
原帖由 飞鸿无痕 于 2009-3-6 11:09 发表


sed -r 's/&/\n1\n2\n3\n4\n5&/;:a;s/\n(.)(.*)&\1=([^&]+)/\t\3\2/;ta;s/\n.\b/\t0/g' urfile
谁能解释下红色部分??为什么是1呢???


tim 对每一行分三步走:
1)产生1,2,3,4,5的"坐标"
2)对每天"有坐标的赋值"中的值代入坐标
3)对没有"赋值的坐标"代入0

红色的\1代表"(.)(.*)&\1..."中的第一个括号,表示"坐标"

以上用的到"坐标",是我形象的比喻.
要分析,可看楼上的.

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
22 [报告]
发表于 2009-03-06 11:22 |只看该作者
lookup-table data structure

论坛徽章:
0
23 [报告]
发表于 2009-03-06 11:30 |只看该作者
经楼上两位说了一下,然后拿纸划了一下,就明白了。

论坛徽章:
0
24 [报告]
发表于 2009-03-06 11:32 |只看该作者
谁能详细解释一下代码吗?? 还是有点迷惑!!!

论坛徽章:
0
25 [报告]
发表于 2009-03-06 11:38 |只看该作者
恩 同问

论坛徽章:
0
26 [报告]
发表于 2009-03-06 11:40 |只看该作者
另外  如果我把日志改成这个样子
ee aa 172.27.38.0&1=99&2=100
ff bb 192.168.9.2&1=100&3=111
ff cc 202.96.64.68&1=99&2=1&3=111
cc dd 202.96.69.38&1=99&3=111&4=110
ee aa 172.27.38.0&1=99&2=100
ff bb 192.168.9.2&1=100&3=111
ff cc 202.96.64.68&1=99&2=1&3=111
cc dd 202.96.69.38&1=99&3=111&4=110
aa ee 202.77.88.99&1=99&2=111&3=66&4=100&5=44

打印出的结果就会发正变化了

ee      0a      9972.27.38.0    0       100     0       0       0
ff      0b      10092.168.9.2   0       0       111     0       0
ff      0c      102.96.64.68    99      0       111     0       0
cc      0d      002.96.69.38    99      0       111     110     0
aa      0e      11102.77.88.99  99      0       66      100     44


也就并不是通过 &  来分割的  可以这么理解吗?

sed -r 's/&/\n1\n2\n3\n4\n5&/

第一步就变了,可不可以移到后面呢

论坛徽章:
0
27 [报告]
发表于 2009-03-06 11:45 |只看该作者

回复 #26 ccie307 的帖子

使用了lookup -table技术。
&后面的数字就是索引

论坛徽章:
0
28 [报告]
发表于 2009-03-06 11:59 |只看该作者

回复 #26 ccie307 的帖子

你试试我的,以&为分隔,你前面怎么变都没关系

论坛徽章:
0
29 [报告]
发表于 2009-03-06 12:17 |只看该作者

回复 #28 ywlscpl 的帖子

嗯 ywlscpl 你的我试了
但是效率有些低  呵呵
40w条的数据大概要3-4分钟,瓶颈是在awk 取数组循环的位置
所以TIM给了一个sed直接5次循环之内就能搞定的
能快很多,但是格式有匹配不上
人家都给写到这份上了,看不懂又不会用真是郁闷啊

论坛徽章:
0
30 [报告]
发表于 2009-03-06 12:25 |只看该作者
原格式 基本上是这个样子
60.191.60.0  19:13:24.661 &1=99&2=100
192.168.9.2  19:13:24.661 &1=100&3=111
202.96.64.68  19:13:24.661 &1=99&2=1&3=111
202.96.64.68  19:13:24.661 &1=99&3=111&4=110
192.168.9.2  19:13:24.661 &1=99&2=100
60.191.60.0  19:13:24.661 &1=100&3=111
202.77.88.99  19:13:24.661 &3=111&4=110
60.191.60.0  19:13:24.661 &3=66&4=100&5=44

60.191.60.0  19:13:24.661  99 100 0 0   0
192.168.9.2  19:13:24.661  10 0 111 0   0
202.96.64.68  19:13:24.661 99 1 111 0   0
202.96.64.68  19:13:24.661 99 111 0 10  0
192.168.9.2  19:13:24.661  99 100 0 0   0
60.191.60.0  19:13:24.661  10 0 111 0   0
202.77.88.99  19:13:24.661 0  0 111 110 0
60.191.60.0  19:13:24.661  0  0 66 100 44

sed -r 's/&/\n1\n2\n3\n4\n5\&/;:a;s/\n(.)(.*)&\1=([^&]+)/\t\3\2/;ta;s/\n.\b/\t0/g   通过这个可以打印出来 呵呵

[ 本帖最后由 ccie307 于 2009-3-6 12:34 编辑 ]
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP