免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2636 | 回复: 6
打印 上一主题 下一主题

awk 新手求助 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2011-08-23 18:17 |只看该作者 |倒序浏览
怎么将 几个G的文件中
[tc134] 2011-08-22 14:25:18,511 remoteIp:61.172.201.133,uri:/users/show.json,source:2400730949webError---httpCode:403,errorCode:40302,msg:Error: auth faild!

[tc134] 2011-08-22 14:25:18,521 remoteIp:202.106.182.237,uri:/friendships/show.json,source:957828114webError---httpCode:400,errorCode:40033,msg:Error: source_user or ta
rget_user does not exists!

[tc134] 2011-08-22 14:25:18,562 remoteIp:116.226.43.208,uri:/account/verify_credentials.json,source:1224861115webError---httpCode:403,errorCode:40302,msg:Error: auth fa
ild!

[tc134] 2011-08-22 14:25:18,611 remoteIp:113.71.16.72,uri:/oauth/access_tokenwebError---httpCode:403,errorCode:40313,msg:Error: invalid weibo user!

[tc134] 2011-08-22 14:25:18,630 remoteIp:182.115.232.173,uri:/account/verify_credentials.json,source:1224861115webError---httpCode:403,errorCode:40302,msg:Error: auth f
aild!

[tc134] 2011-08-22 14:25:18,632 remoteIp:220.181.136.229,uri:/emotions.jsonwebError---httpCode:400,errorCode:40022,msg:Error: source paramter(appkey) is missing

统计 errorCode 数量 效率比较高的 程序

论坛徽章:
0
2 [报告]
发表于 2011-08-23 18:27 |只看该作者
sed -rn 's/errorCode.+)/\1/'

论坛徽章:
0
3 [报告]
发表于 2011-08-23 18:43 |只看该作者
回复 2# mpstat


    这个  sed -rn 's/errorCode.+)/\1/'   是都替换成 1 ?? 是计数吗?

论坛徽章:
0
4 [报告]
发表于 2011-08-23 19:01 |只看该作者
置顶

论坛徽章:
0
5 [报告]
发表于 2011-08-23 19:29 |只看该作者
本帖最后由 mpstat 于 2011-08-23 19:38 编辑

回复 3# lcqlegend


    不好意思写错了,没看清楚
    sed -rn 's/.+errorCode.+),.+/\1/p'

   但是这个速度会非常慢,正则表达式效率不够高
   egrep -o 'errorCode:[0-9]{5}' file  可能效率会高点,但grep好像不支持否定肯定还视,不知道怎么去掉那个errorCode

论坛徽章:
0
6 [报告]
发表于 2011-08-23 19:55 |只看该作者
回复 5# mpstat


    哦,感谢 ,我再研究研究,谢谢!!

论坛徽章:
15
2015年辞旧岁徽章
日期:2015-03-03 16:54:15双鱼座
日期:2015-01-15 17:29:44午马
日期:2015-01-06 17:06:51子鼠
日期:2014-11-24 10:11:13寅虎
日期:2014-08-18 07:10:55酉鸡
日期:2014-04-02 12:24:51双子座
日期:2014-04-02 12:19:44天秤座
日期:2014-03-17 11:43:36亥猪
日期:2014-03-13 08:13:51未羊
日期:2014-03-11 12:42:03白羊座
日期:2013-11-20 10:15:18CU大牛徽章
日期:2013-04-17 11:48:45
7 [报告]
发表于 2011-08-24 07:58 |只看该作者
顺着上面的思路,要知道数量的话:

sed -rn 's/.+errorCode.+),.+/\1/p' infile |sort |uniq -c |sort -n
或者
grep -Eo 'errorCode:[0-9]+' infile |sort |uniq -c |sort -n

当然这个可以用awk一次搞定, 效率应该算是高的
awk -v RS="," '/^errorCode/{a[$1]++}END{for (i in a) print a[i],i |"sort -n"}' infile
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP