免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1470 | 回复: 1
打印 上一主题 下一主题

[文本处理] 这题做的人都晕了 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2015-09-16 01:15 |只看该作者 |倒序浏览
之前通过awk的mktime和substr 对某日志服务器做了规范化,现在得出的日志格式如下:
1.1.1.1 1441900800 filenamea 200 100
2.2.2.2 1441900900 filenamea 200 800
3.3.3.3 1441901000 filenamea 200 200
1.1.1.1 1441901800 filenamea 206 300
1.1.1.1 1441910800 filenamea 200 400
3.3.3.3 1441920800 filenamea 206 500
。。。。
第一列是ip,第二列是timestamp时间戳,第三列是文件名,第四列是code 码,第5列是文件字节数
文件所有列已经按照时间排序,code码的规则是只有200和206,
a.现在有几个判断条件:
a.1当返回code= 200,且文件字节数>=800,则表示该文件下载完整,记录下该行,并加一列 success(去除日期列和code 列);
a.2当返回code= 200,且文件字节数<800,则在该行下面继续read line的操作,又分为几种情况:
   x.1.如果出现的这个具有相同ip地址的行的返回码为200,则将上一个具有相同ip且返回码为200的行添加一列failed(去除日期和code列),然后对这行跳会a这一步进行重新判断。
   x.2 如果该行下没有再次出现任何具有相同ip地址的行,则将上一个具有相同ip且返回码为200的行添加一列failed(去除日期和code列)
   x.3 如果该行下直到文件结束或出现下一个具有同样ip,且返回值为200的行前,当中出现了具有相同ip且返回码为206的值的时候,将该行和这些206返回值的行的自己数合并,如果合并行>=800,则标记success,如果合并行< 800,则标记failed.
大家是不是已经晕了。。原题是别人口述的,我把能想到的几种情况都列了下来,然后现在已经晕了
要得到的效果,比如上面那个文件,匹配或得到的格式是:
1.1.1.1 filenamea 400 failed
2.2.2.2 filenamea 800 success
3.3.3.3 filenamea 800 success
1.1.1.1 filenamea 400 failed

这样。就是循环套循环,然后还要在循环中添加文字处理。我已经想疯了,感觉用perl会好点,shell试着写了几个直接死循环了。。。

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
2 [报告]
发表于 2015-09-16 08:54 |只看该作者
本帖最后由 jason680 于 2015-09-16 08:54 编辑

回复 1# 钟大發

$ awk '
function p(n){
  if(ip[n])
    print ip[n],fn[n],sz[n],(sz[n]>=800)?"success":"failed";
}
{
  if($4==206)
    sz[$1] += $5;
  if($4==200){
    p($1);
    ip[$1] = $1;
    fn[$1] = $3;
    sz[$1] = $5;
  }
}
END{
  for(n in ip)
    p(n)
}' FILE
1.1.1.1 filenamea 400 failed
1.1.1.1 filenamea 400 failed
2.2.2.2 filenamea 800 success
3.3.3.3 filenamea 700 failed

   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP