- 论坛徽章:
- 0
|
回复 2# seesea2517
谢谢你,结果有点不对,不好意思,可能我没表达清楚,先过滤一下文件
######################
000013 11:43:51.092 Status Snapshot Response
ESN: 219321219, IMSI_S1: 15933270, IMSI_S2: 987, IMSI_S: 16575045462, IMSI_11_12: 92
000014 11:43:51.092 Status Snapshot Response
ESN: 219321219, IMSI_S1: 15933270, IMSI_S2: 987, IMSI_S: 16575045462, IMSI_11_12: 92
014334 11:47:56.625 Status Snapshot Response
ESN: 219321219, IMSI_S1: 15933270, IMSI_S2: 987, IMSI_S: 16575045462, IMSI_11_12: 92
022078 11:48:52.530 Status Snapshot Response
ESN: 219321219, IMSI_S1: 15933270, IMSI_S2: 987, IMSI_S: 16575045462, IMSI_11_12: 92
022117 11:48:52.811 Status Snapshot Response
ESN: 219321219, IMSI_S1: 15933270, IMSI_S2: 987, IMSI_S: 16575045462, IMSI_11_12: 92
#######################
再说一下文件格式,如第一行,第一个字段000033是系统编号,11:43:51.092是时间戳,格式是时:分:秒,后面为内容
第二行为详细内容
第三行第一个字段000036同第一行一样,系统编号,时间戳,后面还有很多内容,只不过这里为表述清楚,将其详细内容过滤掉了
后面的一样的情况,一个编号一条记录,一个时间戳,内容有多行
现在想按时间戳进行分段,现在假设为1分钟,
上面如果分段得到的结果应该是
#1
000013 11:43:51.092 Status Snapshot Response
ESN: 219321219, IMSI_S1: 15933270, IMSI_S2: 987, IMSI_S: 16575045462, IMSI_11_12: 92
000014 11:43:51.092 Status Snapshot Response
ESN: 219321219, IMSI_S1: 15933270, IMSI_S2: 987, IMSI_S: 16575045462, IMSI_11_12: 92
#2
014334 11:47:56.625 Status Snapshot Response
ESN: 219321219, IMSI_S1: 15933270, IMSI_S2: 987, IMSI_S: 16575045462, IMSI_11_12: 92
022078 11:48:52.530 Status Snapshot Response
ESN: 219321219, IMSI_S1: 15933270, IMSI_S2: 987, IMSI_S: 16575045462, IMSI_11_12: 92
022117 11:48:52.811 Status Snapshot Response
ESN: 219321219, IMSI_S1: 15933270, IMSI_S2: 987, IMSI_S: 16575045462, IMSI_11_12: 92
整个处理思路就是,将文本按时间片进行分段处理,也就是将大数据化整为零进行分析
下面是个处理例子,很简洁,有所不同是我希望按时间进行分片
http://bbs.chinaunix.net/forum.php?mod=viewthread&tid=3769801
看简洁的代码,真是好看
|
|