平台论坛博客文库

› 论坛 › 站务及频道 › CU活动专区 › 【大话IT】海量数据处理最令你心烦的是什么？

【大话IT】海量数据处理最令你心烦的是什么？ [复制链接]

sjf0115

稍有积蓄

论坛徽章:: 8

1楼 [报告]

发表于 2016-07-28 21:11 |显示全部楼层

本帖最后由 sjf0115 于 2016-08-07 17:54 编辑

我们部门最重要的就是数据，通过收集并分析数据，最终实现个性化推荐。这一点实时性要求比较高，因此使用的是spark。
同时，我们没有自己的产品，只能充分挖掘数据的可利用价值，分析用户行为数据，这一点对实时性要求不是很高，我们一般都是hadoop。

1.大家都在哪些场景中需要处理大量的数据？

市场预测、个人化商品推荐、老顾客维护CRM、改善消费者购物体验等应用。在我们这，主要是个性化推荐，通过大数据技术，可以为你量身定制、进行个性化的推荐。因为你的所有需求，都可以被大数据“预测”出来，这种个性化的推荐，能够节省你在原来的生活方式中需要花费大量时间和精力去处理的繁琐工作，从而在提升生活效率的同时，提升你的生活品质。

2.请大家结合自己的实际工作吐槽一下对这些工具有什么不满的地方

（1）Hadoop非常受欢迎的理由在于，我们可以自由的下载、安装并运行。由于它是一个开源项目，所以没有软件成本，这使得它成为一种非常吸引人的解决方案，用于替代Oracle和Teradata。但是一旦进入维护和开发阶段，Hadoop的真实成本就会凸显出来。

（2）人们期望Hadoop可以圆满地解决大数据分析问题，但事实是，对于简单的问题Hadoop尚可，对于复杂的问题，依然需要我们自己开发Map/Reduce代码。这样看起来，Hadoop与使用J2EE编程环境开发商业分析解决方案的方式别无二致！

（3）Pig和Hive都是设计精巧的工具，它们可以让人迅速上手，提高生产力。但它们毕竟只是一种工具，用于将常规的SQL或文本转化成Hadoop环境上的Map/Reduce查询。Pig和Hive受限于Map/Reduce框架的运作性能，尤其是在节点通信的情况下（如排序和连接），效率更为低下。

返回列表

Chinaunix › 论坛 › 站务及频道 › CU活动专区 › 【大话IT】海量数据处理最令你心烦的是什么？