免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: titansword2000
打印 上一主题 下一主题

天量数据如何处理? [复制链接]

论坛徽章:
0
21 [报告]
发表于 2012-02-24 16:14 |只看该作者
主要是三角函数方面的运算

论坛徽章:
0
22 [报告]
发表于 2012-02-24 16:18 |只看该作者
如何计算?分记录不?分字段不?字段/记录间是什么关系?别挤牙膏行不?

论坛徽章:
0
23 [报告]
发表于 2012-02-24 16:23 |只看该作者
如果记录之间无关,那么512K内存都太多了;如果记录间有关但无须回溯、或者可以通过设计算法避免回溯,那么512K内存可能还是太多了。

不要挤牙膏,说清楚问题,或许就是几行脚本的问题。这样遮遮掩掩的,谁知道该怎么做。你还是自己回去研究hadoop/hbase吧,需要技术支持的话和我联系,可以卖你个配好的集群

论坛徽章:
0
24 [报告]
发表于 2012-02-24 16:39 |只看该作者
本帖最后由 titansword2000 于 2012-02-24 17:51 编辑

楼上的兄弟,主要我感觉我描述清楚了这样吧,我将问题再描述下吧。

有n个基站,每个基站进行360度实时扫描,扫描的速度是a分钟内完成b个仰角的扫描,而扫描的一瞬间会产生大约cK的浮点型数据。按扫描速度计算,一秒钟需扫描d个角度,而一个角度的数据是cK,这样一秒内的数据是dK左右,n个基站,这样计算下来,一天的数据量将大约是:(cK/秒*3600秒*24小时)*n个基站=eG。现在需要对两两基站采集的这些数据进行复杂的三角函数运算。

论坛徽章:
12
巳蛇
日期:2013-09-16 15:32:242015年辞旧岁徽章
日期:2015-03-03 16:54:152015年亚洲杯之约旦
日期:2015-02-11 14:38:37双鱼座
日期:2015-01-05 11:05:47戌狗
日期:2014-12-08 09:41:18戌狗
日期:2014-08-15 09:29:29双子座
日期:2014-08-05 09:17:17卯兔
日期:2014-06-08 15:32:18巳蛇
日期:2014-01-27 08:47:08白羊座
日期:2013-11-28 21:04:15巨蟹座
日期:2013-11-13 21:58:012015年亚洲杯之科威特
日期:2015-04-17 16:51:51
25 [报告]
发表于 2012-02-24 16:49 |只看该作者
titansword2000 发表于 2012-02-24 16:39
楼上的兄弟,主要我感觉我描述清楚了这样吧,我将问题再描述下吧。

有10个基站,每个基站对天空进行3 ...


1.一定要采集完一天的数据才能开始处理吗?
2.同时有多少数据参与运算?不可能一整天采集的数据都同时用来进行运算吧?
3.计算产生的结果有多少?

论坛徽章:
0
26 [报告]
发表于 2012-02-24 17:03 |只看该作者
本帖最后由 titansword2000 于 2012-02-24 17:53 编辑
zhaohongjian000 发表于 2012-02-24 16:49
1.一定要采集完一天的数据才能开始处理吗?
2.同时有多少数据参与运算?不可能一整天采集的数据都同时 ...


=======
1:一天的数据只处理一次
2:时间间隔在n分钟内的数据需要参加运算,随时间滑动
3:产生的结果是在空间中水平方向上每隔a米、垂直方向b米左右(垂直方向不均匀,故为b米左右)产生两个浮点型数据

论坛徽章:
0
27 [报告]
发表于 2012-02-24 17:07 |只看该作者
本帖最后由 狗蛋 于 2012-02-24 17:56 编辑
titansword2000 发表于 2012-02-24 16:39


这么说,应该相当于每6分钟完成一次类似星图的3D目标分布图的刷新;并在分布图中做移动目标识别吧?

那么,任务大概是:

1、产生一张目标分布图

2、在目标分布图中识别/标定移动目标

这根本不需要几十G的内存,只要能放下一张3D目标分布数据表就差不多了;然后就是用实时采集的数据更新这张目标分布表。

如果是一天集中算一次,用那些数据做采样过程的回放即可。

论坛徽章:
0
28 [报告]
发表于 2012-02-24 17:16 |只看该作者
本帖最后由 titansword2000 于 2012-02-24 17:57 编辑

问题补充:
1:n个基站的时间不同步
2:需要在数据间进行三角函数计算,更新目标分布表或做采样回放似乎不能做到,还有一点,就是这样做出来的效率有点低。

论坛徽章:
0
29 [报告]
发表于 2012-02-24 17:19 |只看该作者
本帖最后由 狗蛋 于 2012-02-24 17:21 编辑

哦,照26楼,看来每个目标上还要附加一个速度/时间信息,目标及其上的信息淘汰时间(按采样时间算)N分钟。

综合起来,仍然只要能存下那些目标信息即可,数据量至多相当于N分钟的数据采集量。

这个问题最大的难点不是内存占用量,而是大量浮点运算的速度以及优化。

论坛徽章:
0
30 [报告]
发表于 2012-02-24 17:25 |只看该作者
时间不同步问题不大,反正是每个基站采样一个角度,数据上也带有时间。只要以目标识别为中心设计算法,这个问题肯定用不着海量数据处理。

另外,如果项目较敏感的话,这些数字可能不容泄漏。建议楼主把帖子编辑一下,把里面的具体数字通通干掉吧,替换成a、b、c就行。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP