1 234 5 / 5 页下一页

天量数据如何处理？ [复制链接]

titansword2000

稍有积蓄

论坛徽章:: 0

21楼 [报告]

发表于 2012-02-24 16:14 |只看该作者

主要是三角函数方面的运算

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

狗蛋

家境小康

论坛徽章:: 0

22楼 [报告]

发表于 2012-02-24 16:18 |只看该作者

如何计算？分记录不？分字段不？字段/记录间是什么关系？别挤牙膏行不？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

狗蛋

家境小康

论坛徽章:: 0

23楼 [报告]

发表于 2012-02-24 16:23 |只看该作者

如果记录之间无关，那么512K内存都太多了；如果记录间有关但无须回溯、或者可以通过设计算法避免回溯，那么512K内存可能还是太多了。

不要挤牙膏，说清楚问题，或许就是几行脚本的问题。这样遮遮掩掩的，谁知道该怎么做。你还是自己回去研究hadoop/hbase吧，需要技术支持的话和我联系，可以卖你个配好的集群

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

titansword2000

稍有积蓄

论坛徽章:: 0

24楼 [报告]

发表于 2012-02-24 16:39 |只看该作者

本帖最后由 titansword2000 于 2012-02-24 17:51 编辑

楼上的兄弟，主要我感觉我描述清楚了

这样吧，我将问题再描述下吧。

有n个基站，每个基站进行360度实时扫描，扫描的速度是a分钟内完成b个仰角的扫描，而扫描的一瞬间会产生大约cK的浮点型数据。按扫描速度计算，一秒钟需扫描d个角度，而一个角度的数据是cK，这样一秒内的数据是dK左右,n个基站，这样计算下来，一天的数据量将大约是：（cK/秒*3600秒*24小时）*n个基站=eG。现在需要对两两基站采集的这些数据进行复杂的三角函数运算。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

zhaohongjian000

小富即安

论坛徽章:: 12

25楼 [报告]

发表于 2012-02-24 16:49 |只看该作者

titansword2000 发表于 2012-02-24 16:39
楼上的兄弟，主要我感觉我描述清楚了这样吧，我将问题再描述下吧。

有10个基站，每个基站对天空进行3 ...

1.一定要采集完一天的数据才能开始处理吗？
2.同时有多少数据参与运算？不可能一整天采集的数据都同时用来进行运算吧？
3.计算产生的结果有多少？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

titansword2000

稍有积蓄

论坛徽章:: 0

26楼 [报告]

发表于 2012-02-24 17:03 |只看该作者

本帖最后由 titansword2000 于 2012-02-24 17:53 编辑

zhaohongjian000 发表于 2012-02-24 16:49
1.一定要采集完一天的数据才能开始处理吗？
2.同时有多少数据参与运算？不可能一整天采集的数据都同时 ...

=======
1：一天的数据只处理一次
2：时间间隔在n分钟内的数据需要参加运算，随时间滑动
3：产生的结果是在空间中水平方向上每隔a米、垂直方向b米左右(垂直方向不均匀，故为b米左右)产生两个浮点型数据

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

狗蛋

家境小康

论坛徽章:: 0

27楼 [报告]

发表于 2012-02-24 17:07 |只看该作者

本帖最后由狗蛋于 2012-02-24 17:56 编辑

titansword2000 发表于 2012-02-24 16:39

这么说，应该相当于每6分钟完成一次类似星图的3D目标分布图的刷新；并在分布图中做移动目标识别吧？

那么，任务大概是：

1、产生一张目标分布图

2、在目标分布图中识别/标定移动目标

这根本不需要几十G的内存，只要能放下一张3D目标分布数据表就差不多了；然后就是用实时采集的数据更新这张目标分布表。

如果是一天集中算一次，用那些数据做采样过程的回放即可。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

titansword2000

稍有积蓄

论坛徽章:: 0

28楼 [报告]

发表于 2012-02-24 17:16 |只看该作者

本帖最后由 titansword2000 于 2012-02-24 17:57 编辑

问题补充：
1：n个基站的时间不同步
2：需要在数据间进行三角函数计算，更新目标分布表或做采样回放似乎不能做到，还有一点，就是这样做出来的效率有点低。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

狗蛋

家境小康

论坛徽章:: 0

29楼 [报告]

发表于 2012-02-24 17:19 |只看该作者

本帖最后由狗蛋于 2012-02-24 17:21 编辑

哦，照26楼，看来每个目标上还要附加一个速度/时间信息，目标及其上的信息淘汰时间（按采样时间算）N分钟。

综合起来，仍然只要能存下那些目标信息即可，数据量至多相当于N分钟的数据采集量。

这个问题最大的难点不是内存占用量，而是大量浮点运算的速度以及优化。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

狗蛋

家境小康

论坛徽章:: 0

30楼 [报告]

发表于 2012-02-24 17:25 |只看该作者

时间不同步问题不大，反正是每个基站采样一个角度，数据上也带有时间。只要以目标识别为中心设计算法，这个问题肯定用不着海量数据处理。

另外，如果项目较敏感的话，这些数字可能不容泄漏。建议楼主把帖子编辑一下，把里面的具体数字通通干掉吧，替换成a、b、c就行。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

1 234 5 / 5 页下一页

返回列表

Chinaunix › 论坛 › 程序设计 › C/C++ › 天量数据如何处理？

天量数据如何处理？ [复制链接]

浏览过的版块