免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 3562 | 回复: 13
打印 上一主题 下一主题

[文本处理] 请大神指导从大日志文件中统计关键字次数的办法 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2015-04-08 09:14 |只看该作者 |倒序浏览
需求如下:
文件A中有若干行数据,每行为一个关键字
文件B为大日志文件,大小为10G以下

想着能够统计出文件A中每个关键字在B中的出现次数,例如
行1,3
行2,10
行3,100
。。。。。

最笨的办法是逐行读入后用grep,但是太费时间,有没有只打开一次B文件,就能把A中所有行都统计出来的办法呢?
请大神指导

求职 : 机器学习
论坛徽章:
79
2015年亚洲杯纪念徽章
日期:2015-05-06 19:18:572015七夕节徽章
日期:2015-08-21 11:06:172015亚冠之阿尔纳斯尔
日期:2015-09-07 09:30:232015亚冠之萨济拖拉机
日期:2015-10-21 08:26:3915-16赛季CBA联赛之浙江
日期:2015-12-30 09:59:1815-16赛季CBA联赛之浙江
日期:2016-01-10 12:35:21技术图书徽章
日期:2016-01-15 11:07:2015-16赛季CBA联赛之新疆
日期:2016-02-24 13:46:0215-16赛季CBA联赛之吉林
日期:2016-06-26 01:07:172015-2016NBA季后赛纪念章
日期:2016-06-28 17:44:45黑曼巴
日期:2016-06-28 17:44:4515-16赛季CBA联赛之浙江
日期:2017-07-18 13:41:54
2 [报告]
发表于 2015-04-08 09:20 |只看该作者
本帖最后由 zsszss0000 于 2015-04-08 09:28 编辑

filea
  1. aaa
  2. bbb
  3. ccc
  4. ddd
  5. eee
  6. fff
复制代码
fileb
  1. aaa
  2. aaa
  3. aaa
  4. bbb
  5. bbb
  6. bbb
  7. ccc
  8. ccc
  9. ccc
  10. ccc
  11. ddd
  12. ddd
复制代码
  1. awk 'NR==FNR{a[$0]=1;next}{if($0 in a)b[$0]++}END{for (i in b)print i,b[i]}' filea fileb | sort
复制代码
  1. aaa 3
  2. bbb 3
  3. ccc 4
  4. ddd 2
复制代码

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
3 [报告]
发表于 2015-04-08 09:24 |只看该作者
给个大概的思路你,因为不知道你的文本时怎样的,所以没考虑边界问题,自己根据实际情况改一下吧~
  1. awk 'ARGIND==1{a[$0]}ARGIND==2{for(i in a)if($0~i)a[i]++}ARGIND==3{printf "%s,%d\n",$0,a[$0]}' a b a
复制代码

论坛徽章:
36
摩羯座
日期:2013-09-23 16:37:312015年亚洲杯之沙特阿拉伯
日期:2015-04-14 09:10:172015亚冠之柏太阳神
日期:2015-06-25 08:48:212015亚冠之武里南联
日期:2015-07-28 09:01:082015亚冠之莱赫维亚
日期:2015-07-28 15:44:172015亚冠之柏斯波利斯
日期:2015-09-06 14:08:52白银圣斗士
日期:2015-11-25 17:06:2815-16赛季CBA联赛之吉林
日期:2015-12-09 16:59:072016猴年福章徽章
日期:2016-02-18 15:30:3415-16赛季CBA联赛之辽宁
日期:2016-04-14 09:29:04luobin
日期:2016-06-17 17:46:3615-16赛季CBA联赛之天津
日期:2016-08-16 14:11:01
4 [报告]
发表于 2015-04-08 09:30 |只看该作者
回复 2# zsszss0000

日志找关键字, b文本每行的数据应该比a文本多,你这个就不好用了。
   

求职 : 机器学习
论坛徽章:
79
2015年亚洲杯纪念徽章
日期:2015-05-06 19:18:572015七夕节徽章
日期:2015-08-21 11:06:172015亚冠之阿尔纳斯尔
日期:2015-09-07 09:30:232015亚冠之萨济拖拉机
日期:2015-10-21 08:26:3915-16赛季CBA联赛之浙江
日期:2015-12-30 09:59:1815-16赛季CBA联赛之浙江
日期:2016-01-10 12:35:21技术图书徽章
日期:2016-01-15 11:07:2015-16赛季CBA联赛之新疆
日期:2016-02-24 13:46:0215-16赛季CBA联赛之吉林
日期:2016-06-26 01:07:172015-2016NBA季后赛纪念章
日期:2016-06-28 17:44:45黑曼巴
日期:2016-06-28 17:44:4515-16赛季CBA联赛之浙江
日期:2017-07-18 13:41:54
5 [报告]
发表于 2015-04-08 09:35 |只看该作者
本帖最后由 zsszss0000 于 2015-04-08 09:38 编辑
  1. awk 'NR==FNR{a[$0]=1;next}{for(i in a ){if($0~i)b[$0]++}}END{for (i in b)print i,b[i] }' filea fileb | sort
复制代码

for(i in a ){if($0~i)b[$0]++}

论坛徽章:
0
6 [报告]
发表于 2015-04-08 10:16 |只看该作者
zsszss0000 发表于 2015-04-08 09:35
for(i in a ){if($0~i)b[$0]++}


filea:
#backup
aaa,1
bb,0
ccc,1
ddd,1

fileb:
08-Apr-2015 10:09:27.859 queries: client 180.95.168.249#51658 (aaa): view any-user: query: aaa IN AAAA + (9.9.9.9)
08-Apr-2015 10:09:27.859 queries: client 180.95.168.249#51658 (bb): view any-user: query: bb IN AAAA + (9.9.9.9)
08-Apr-2015 10:09:27.859 queries: client 180.95.168.249#51658 (aaa): view any-user: query: aaa IN AAAA + (9.9.9.9)
08-Apr-2015 10:09:27.859 queries: client 180.95.168.249#51658 (aaa): view any-user: query: aaa IN AAAA + (9.9.9.9)
08-Apr-2015 10:09:27.859 queries: client 180.95.168.249#51658 (ddd): view any-user: query: ddd IN AAAA + (9.9.9.9)

类似这样的
filea里面的关键字指的是不带#备注的行的逗号之前的,例如是
aaa
bb
ccc
ddd

结果想得到的是:
aaa,3
bb,1
ccc,0
ddd,1
这种结果,请指点

论坛徽章:
28
2015年迎新春徽章
日期:2015-03-04 10:16:53午马
日期:2015-03-20 17:11:07亥猪
日期:2015-03-20 17:11:23戌狗
日期:2015-03-20 17:11:33酉鸡
日期:2015-03-20 17:11:47申猴
日期:2015-03-20 17:11:58未羊
日期:2015-03-20 17:12:10子鼠
日期:2015-03-20 17:12:23丑牛
日期:2015-03-20 17:12:40卯兔
日期:2015-03-20 17:12:51辰龙
日期:2015-03-20 17:13:00巳蛇
日期:2015-03-20 17:13:12
7 [报告]
发表于 2015-04-08 10:18 |只看该作者
  1. awk 'function m(x){for(i in a){x~a[i]?b[i]++:1}}NR==FNR{a[NR]=$0;next}{m($0)}END{for(j in b) print "Row "j" String "a[j]" Count "b[j]}' inputfile1 inputfile2
复制代码

求职 : 机器学习
论坛徽章:
79
2015年亚洲杯纪念徽章
日期:2015-05-06 19:18:572015七夕节徽章
日期:2015-08-21 11:06:172015亚冠之阿尔纳斯尔
日期:2015-09-07 09:30:232015亚冠之萨济拖拉机
日期:2015-10-21 08:26:3915-16赛季CBA联赛之浙江
日期:2015-12-30 09:59:1815-16赛季CBA联赛之浙江
日期:2016-01-10 12:35:21技术图书徽章
日期:2016-01-15 11:07:2015-16赛季CBA联赛之新疆
日期:2016-02-24 13:46:0215-16赛季CBA联赛之吉林
日期:2016-06-26 01:07:172015-2016NBA季后赛纪念章
日期:2016-06-28 17:44:45黑曼巴
日期:2016-06-28 17:44:4515-16赛季CBA联赛之浙江
日期:2017-07-18 13:41:54
8 [报告]
发表于 2015-04-08 10:18 |只看该作者
本帖最后由 zsszss0000 于 2015-04-08 10:19 编辑
  1. awk -vFS=","' NR==FNR{a[$1]=1;next}{for(i in a ){if($0~i)b[$0]++}}END{for (i in b)print i,b[i] }' filea fileb | sort
复制代码
回复 6# zbs168


awk -vFS=","' NR==FNR{a[$1]=1;next}


   

论坛徽章:
28
2015年迎新春徽章
日期:2015-03-04 10:16:53午马
日期:2015-03-20 17:11:07亥猪
日期:2015-03-20 17:11:23戌狗
日期:2015-03-20 17:11:33酉鸡
日期:2015-03-20 17:11:47申猴
日期:2015-03-20 17:11:58未羊
日期:2015-03-20 17:12:10子鼠
日期:2015-03-20 17:12:23丑牛
日期:2015-03-20 17:12:40卯兔
日期:2015-03-20 17:12:51辰龙
日期:2015-03-20 17:13:00巳蛇
日期:2015-03-20 17:13:12
9 [报告]
发表于 2015-04-08 10:30 |只看该作者
回复 6# zbs168
  1. awk -F'[(),]' 'NR==FNR{a[$1]=NR;next}{($2 in a)?b[$2]++:1}END{for(i in b)print i,b[i]}' inputfile1 inputfile2
复制代码

论坛徽章:
22
处女座
日期:2014-10-11 13:33:292015亚冠之塔什干火车头
日期:2015-07-20 19:59:042015亚冠之塔什干火车头
日期:2015-07-26 10:59:31程序设计版块每日发帖之星
日期:2015-08-05 06:20:00每日论坛发贴之星
日期:2015-08-05 06:20:00程序设计版块每日发帖之星
日期:2015-08-07 06:20:00每日论坛发贴之星
日期:2015-08-07 06:20:002015亚冠之阿尔纳斯尔
日期:2015-10-01 15:23:28白银圣斗士
日期:2015-12-07 17:17:06操作系统版块每日发帖之星
日期:2015-12-27 06:20:002015亚冠之广州富力
日期:2015-07-08 15:48:31程序设计版块每日发帖之星
日期:2015-06-11 22:20:00
10 [报告]
发表于 2015-04-08 14:40 |只看该作者
回复 9# 我是一隻羊
($2 in a)?b[$2]++:1
这是啥意思


   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP