- 论坛徽章:
- 0
|
本帖最后由 mudfr0g 于 2017-06-01 14:47 编辑
请教一个问题原始数据是这样,是日志类型的,但是生成的格式不规范,前期做了一些格式化处理。
处理之后
可以看到
TAG111 TAG 222 TAG333 TAG444 来做区分,这部分用相同的区分也没问题,前期格式化的时候可以改。TAG999表示一行结束。
然后看数据内容
TAG111第一列里面是时间,没见过这种时间,就是日期精确到毫秒后面一堆的
TAG222第二列是类型,有的001 ,有的002 ,其他还有可能是003 004这样
TAG333第三列是类似域名的,有不同的主机头
TAG444第四列是URL地址的
TAG111:Tue Apr 18 13:54:14.808748 2017,TAG222:001,TAG333:a.abc.com,TAG444:url /front/themes/blueTAG999
TAG111:Tue Apr 18 13:54:14.809118 2017,TAG222:001,TAG333:a.abc.com,TAG444:url /front/themes/blueTAG999
TAG111:Tue Apr 18 13:54:14.810626 2017,TAG222:001,TAG333:a.abc.com,TAG444:url /front/themes/blueTAG999
TAG111:Tue Apr 18 14:34:13.850987 2017,TAG222:002,TAG333:b.abc.com,TAG444:url /front/themes/redTAG999
TAG111:Tue Apr 18 14:34:13.851459 2017,TAG222:002,TAG333:b.abc.com,TAG444:url /front/themes/redTAG999
TAG111:Tue Apr 18 14:34:13.851687 2017,TAG222:001,TAG333:c.abc.com,TAG444:url /front/themes/blueTAG999
TAG111:Tue Apr 18 14:34:13.851987 2017,TAG222:001,TAG333:c.abc.com,TAG444:url /front/themes/blueTAG999
TAG111:Tue Apr 18 14:34:13.890156 2017,TAG222:001,TAG333:b.abc.com,TAG444:url /front/themes/blueTAG999
TAG111:Tue Apr 18 14:34:13.901537 2017,TAG222:001,TAG333:b.abc.com,TAG444:url /front/themes/blueTAG999
现在想达到的目标是 做成 1分钟内
类型相同(TAG222)同时主机名相同(TAG333)同时URL相同(TAG444)的只保留一条(时间细节不敏感,哪个都可以)
不知道这么复杂的能不能做到,谢谢各位大神
|
|