免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
123下一页
最近访问板块 发新帖
查看: 5140 | 回复: 23
打印 上一主题 下一主题

特殊格式的大文本文件处理 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2009-02-05 00:11 |只看该作者 |倒序浏览
有一个大文本文件log,格式如下:
IP:1.1.1.1
DNS:2.2.2.2
PAGE:http://a.com/q?pl=xxx
{
........
不同内容,行数不定,各个记录互不相同
........
}
IP:1.1.1.1
DNS:2.2.2.2
PAGE:http://ab.com/q?pl=xxx
{
........
不同内容,行数不定,各个记录互不相同
........
}
对此,我们称从IP到}截止为一个记录,该文件有多个这样的记录组成(可能达到百万级),其中xxx为数字。
现在需要将所有形如PAGE:http://a.com/q?pl=XXX且xxx出现重复的记录提取出来(例如,PAGE:http://a.com/q?pl=123这样的记录出现了2次,则将这两条记录提取出来)。如何高效的完成?

琢磨了一天也没有得到结果,将自己的做的描述一下,当作抛砖。
grep 'PAGE:http://a.com/q?pl=' log>tmp#此步得到所有形如PAGE:http://a.com/q?pl=xxx的url
uniq -D tmp>tmp2#此步得到所有xxx出现重复的url(大概有2K个左右)
设置$/="}",然后一个记录一个记录的去匹配出现重复的url。但是这样实在是太慢了,每个url要扫描整个文件,2K个就要扫描2K次。。。。

求助各位大虾,如何高效的完成该工作?谢谢啦!

论坛徽章:
0
2 [报告]
发表于 2009-02-05 00:43 |只看该作者
awk -F \= '{
        #匹配记录开始
        if($0 ~ "IP:" && !begin) {begin=1;record[count=1]=$0;next;}
       
        #将记录缓存到record
        record[++count]=$0;
        if($0 ~ "PAGE:http://ab.com/q?pl")
        {
                filename=$2;
                #将xxxx作为文件名
                urls[filename]++;
        }
        begin=1;
       
        #匹配记录结束
        if($0 ~ "}")
        {
                #将记录存到文件
                for(i = 1; i <= count)
                {
                        print record >> filename;
                }
                begin=0;
        }
}
END{
        #把所有出现过两次的xxxx输出到另一个文件
        for(i in urls)
        {
                system("cat "$i" >> res.txt");
        }
}'

论坛徽章:
0
3 [报告]
发表于 2009-02-05 00:46 |只看该作者
基本思路是先扫描一条记录,并将该记录追加到一个以xxxx为命名的文件
同时将xxxx出现的次数加1

最后把所有出现过两次的xxxx对应的文件保存到res.txt

可能生成较多临时文件,可以在END里面删除

论坛徽章:
0
4 [报告]
发表于 2009-02-05 00:46 |只看该作者
另: 你原来的方法只需扫描两次文件即可,而不是你说的扫描2k次

论坛徽章:
3
戌狗
日期:2014-09-10 17:07:162015年辞旧岁徽章
日期:2015-03-03 16:54:15wusuopu
日期:2016-06-17 17:43:45
5 [报告]
发表于 2009-02-05 01:11 |只看该作者
原帖由 皇家救星 于 2009-2-5 00:46 发表
另: 你原来的方法只需扫描两次文件即可,而不是你说的扫描2k次

不是两次吧

论坛徽章:
3
戌狗
日期:2014-09-10 17:07:162015年辞旧岁徽章
日期:2015-03-03 16:54:15wusuopu
日期:2016-06-17 17:43:45
6 [报告]
发表于 2009-02-05 01:36 |只看该作者
原帖由 皇家救星 于 2009-2-5 00:46 发表
基本思路是先扫描一条记录,并将该记录追加到一个以xxxx为命名的文件
同时将xxxx出现的次数加1

最后把所有出现过两次的xxxx对应的文件保存到res.txt

可能生成较多临时文件,可以在END里面删除

记录多了,只能借助临时文件了

论坛徽章:
23
15-16赛季CBA联赛之吉林
日期:2017-12-21 16:39:27白羊座
日期:2014-10-27 11:14:37申猴
日期:2014-10-23 08:36:23金牛座
日期:2014-09-30 08:26:49午马
日期:2014-09-29 09:40:16射手座
日期:2014-11-25 08:56:112015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:49:0315-16赛季CBA联赛之山东
日期:2017-12-21 16:39:1915-16赛季CBA联赛之广东
日期:2016-01-19 13:33:372015亚冠之山东鲁能
日期:2015-10-13 09:39:062015亚冠之西悉尼流浪者
日期:2015-09-21 08:27:57
7 [报告]
发表于 2009-02-05 09:06 |只看该作者

回复 #1 lifeistrue 的帖子

这个意思?
  1. awk '/^PAGE/{a[$0]++}END{for(i in a) if(a[i]>1) print i}' log
复制代码

论坛徽章:
0
8 [报告]
发表于 2009-02-05 09:14 |只看该作者

回复 #7 ly5066113 的帖子

应该是这样。

论坛徽章:
0
9 [报告]
发表于 2009-02-05 09:32 |只看该作者
tim 你输出的只是 page 这个一行吧,我觉得楼主的意思是如果 page 这行重复要输出整个信息段 就是  IP 开始 .... } 截至的。

  1. awk 'BEGIN{FS="\n";RS="}\n";IGNORECASE=1;}{for(i=1;i<NF;i++){if($i~/^page/){A[$i]++}}for(a in A){if(A[a]>1){A[a]=0;print $0"}\n"}}}' ./log
复制代码

[ 本帖最后由 xinyv 于 2009-2-5 09:43 编辑 ]

论坛徽章:
3
戌狗
日期:2014-09-10 17:07:162015年辞旧岁徽章
日期:2015-03-03 16:54:15wusuopu
日期:2016-06-17 17:43:45
10 [报告]
发表于 2009-02-05 09:33 |只看该作者
原帖由 ly5066113 于 2009-2-5 09:06 发表
这个意思?
awk '/^PAGE/{a[$0]++}END{for(i in a) if(a>1) print i}' log

记录很多,而且要打印的好像是
IP
...
..
{
..
}
这样的记录
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP