免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: heguangwu

[其他] 由大数据引发的概念潮,关于“大数据”你想聊点啥? [复制链接]

论坛徽章:
0
发表于 2015-08-13 16:25 |显示全部楼层
回复 10# chenxing2

你俩把我搞糊涂了,以前我还以为自己知道大数据是嘛玩意,这一说起来,简直就像虚拟化和云计算的差别。。。。瞬间被你们搞懵了

   

论坛徽章:
15
2015七夕节徽章
日期:2015-08-21 11:06:172017金鸡报晓
日期:2017-01-10 15:19:56极客徽章
日期:2016-12-07 14:07:30shanzhi
日期:2016-06-17 17:59:3115-16赛季CBA联赛之四川
日期:2016-04-13 14:36:562016猴年福章徽章
日期:2016-02-18 15:30:34IT运维版块每日发帖之星
日期:2016-01-28 06:20:0015-16赛季CBA联赛之新疆
日期:2016-01-25 14:01:34IT运维版块每周发帖之星
日期:2016-01-07 23:04:26数据库技术版块每日发帖之星
日期:2016-01-03 06:20:00数据库技术版块每日发帖之星
日期:2015-12-01 06:20:00IT运维版块每日发帖之星
日期:2015-11-10 06:20:00
发表于 2015-08-13 17:55 |显示全部楼层
也不完全是,表面上看你现在还在用传统已经很好的解决问题,但公司数据终究会越来越多,而且要求分析结果会越来越快,又或许新需求要求实时的结果如用于告警之类
到最后慢慢的就会应用到大数据的一些技术,现在即使很多大公司也不是马上全盘采用当前的所有大数据技术,也是一个逐步替代和使用的过程
回复 10# chenxing2


   

论坛徽章:
13
数据库技术版块每日发帖之星
日期:2015-08-06 06:20:002017金鸡报晓
日期:2017-02-08 10:39:422017金鸡报晓
日期:2017-01-10 15:13:29极客徽章
日期:2016-12-07 14:08:02JAVA
日期:2016-10-25 16:01:09luobin
日期:2016-06-17 17:46:362016猴年福章徽章
日期:2016-02-18 15:30:3415-16赛季CBA联赛之天津
日期:2015-12-16 22:35:03黄金圣斗士
日期:2015-11-24 10:43:13IT运维版块每日发帖之星
日期:2015-10-09 06:20:002015亚冠之广州恒大
日期:2015-09-21 21:40:222015七夕节徽章
日期:2015-08-21 11:06:17
发表于 2015-08-13 18:24 |显示全部楼层
回复 12# heguangwu

其实是这样子的,现在单库解决了,数据量再大,后期分表分库、读写分离解决。

当数据量再大时,才考虑大数据上的框架,所以我才说现在绝大数公司实际用不上。

大数据框架啊...

从最开始的Hadoop,及Hadoop的map reduce的问题发展到Spark、Samza、Apache S4、storm等的大行其道

而storm的一些问题又衍生出了,JStorm和Twiter Heron。

再过几年还不知道会发展成啥 ╮(╯▽╰)╭

论坛徽章:
42
19周年集字徽章-周
日期:2019-10-14 14:35:31平安夜徽章
日期:2015-12-26 00:06:30数据库技术版块每日发帖之星
日期:2015-12-01 06:20:002015亚冠之首尔
日期:2015-11-04 22:25:43IT运维版块每日发帖之星
日期:2015-08-17 06:20:00寅虎
日期:2014-06-04 16:25:27狮子座
日期:2014-05-12 11:00:00辰龙
日期:2013-12-20 17:07:19射手座
日期:2013-10-24 21:01:23CU十二周年纪念徽章
日期:2013-10-24 15:41:34IT运维版块每日发帖之星
日期:2016-01-27 06:20:0015-16赛季CBA联赛之新疆
日期:2016-06-07 14:10:01
发表于 2015-08-13 20:40 |显示全部楼层
我现在的需求有两类,感觉都和大数据有关,但是有些区别。
一类是插入为主,例如一天500G的日志分析和查询.  这个目前用的ES
一类是更新为主, 一天1亿次的更新,但总记录数在500w左右。  这个之前用的oracle,后来换成了redis。但是感觉不太好用。
现在用什么框架最合适?
峰值插入/更新速度  5000~10000QPS就可以
查询速度  不用太高。 秒级就行。
spark?elasticsearch?solr?
还是mongodb,mysql+handlesocket?

论坛徽章:
15
2015七夕节徽章
日期:2015-08-21 11:06:172017金鸡报晓
日期:2017-01-10 15:19:56极客徽章
日期:2016-12-07 14:07:30shanzhi
日期:2016-06-17 17:59:3115-16赛季CBA联赛之四川
日期:2016-04-13 14:36:562016猴年福章徽章
日期:2016-02-18 15:30:34IT运维版块每日发帖之星
日期:2016-01-28 06:20:0015-16赛季CBA联赛之新疆
日期:2016-01-25 14:01:34IT运维版块每周发帖之星
日期:2016-01-07 23:04:26数据库技术版块每日发帖之星
日期:2016-01-03 06:20:00数据库技术版块每日发帖之星
日期:2015-12-01 06:20:00IT运维版块每日发帖之星
日期:2015-11-10 06:20:00
发表于 2015-08-13 21:16 |显示全部楼层
一类是插入为主,例如一天500G的日志分析和查询. ES在这种数据量下应该是没有问题的,而且当前查询和分析的语句是什么也不知道所以也不好做其它判断
一类是更新为主, 一天1亿次的更新,但总记录数在500w左右,能说换成了redis感觉不太好用的原因是什么?redis在内存中应该性能不会有太大的问题
从你简单描述是无法说采用哪种解决方案,而且这个还是要在业务上测试才知道,你可以先进行选型,然后用tcpcopy或交换机镜像等方法将在线业务导入到选型系统测试
回复 14# laputa73


   

论坛徽章:
42
19周年集字徽章-周
日期:2019-10-14 14:35:31平安夜徽章
日期:2015-12-26 00:06:30数据库技术版块每日发帖之星
日期:2015-12-01 06:20:002015亚冠之首尔
日期:2015-11-04 22:25:43IT运维版块每日发帖之星
日期:2015-08-17 06:20:00寅虎
日期:2014-06-04 16:25:27狮子座
日期:2014-05-12 11:00:00辰龙
日期:2013-12-20 17:07:19射手座
日期:2013-10-24 21:01:23CU十二周年纪念徽章
日期:2013-10-24 15:41:34IT运维版块每日发帖之星
日期:2016-01-27 06:20:0015-16赛季CBA联赛之新疆
日期:2016-06-07 14:10:01
发表于 2015-08-14 09:28 |显示全部楼层
目前大数据量的查询需求主要是ES实现的。主要遇到的一些问题也是ES的部署使用相关的,比如参数调整,索引规划等,还有就是感觉ES的写入性能没有想象中高。
ES做一个大集群,和分开几个集群,写入性能会不会有不同?

redis的主要问题是它是一个KV型的,不是文档型的,不能使用主键之外的查询。这就需要自己维护多个表。这样相当于降低了性能。
也许用lua做一些类似trigger的操作,能有提升。

论坛徽章:
42
19周年集字徽章-周
日期:2019-10-14 14:35:31平安夜徽章
日期:2015-12-26 00:06:30数据库技术版块每日发帖之星
日期:2015-12-01 06:20:002015亚冠之首尔
日期:2015-11-04 22:25:43IT运维版块每日发帖之星
日期:2015-08-17 06:20:00寅虎
日期:2014-06-04 16:25:27狮子座
日期:2014-05-12 11:00:00辰龙
日期:2013-12-20 17:07:19射手座
日期:2013-10-24 21:01:23CU十二周年纪念徽章
日期:2013-10-24 15:41:34IT运维版块每日发帖之星
日期:2016-01-27 06:20:0015-16赛季CBA联赛之新疆
日期:2016-06-07 14:10:01
发表于 2015-08-14 09:41 |显示全部楼层
还有ES和hadoop的选型问题。
实际项目里,用户经常说已有建好一套hadoop大数据平台了,就不要再搞一套了。
ES使用HDFS有没有实际的使用?性能是不是会差很多?感觉不靠谱。
或者说,基于hadoop平台,现在有没有和ES类似的准实时搜索引擎?

论坛徽章:
221
15-16赛季CBA联赛之吉林
日期:2017-12-11 12:51:59黑曼巴
日期:2019-04-12 13:40:0515-16赛季CBA联赛之广东
日期:2019-04-23 10:41:1215-16赛季CBA联赛之辽宁
日期:2019-05-06 13:03:2815-16赛季CBA联赛之山西
日期:2019-05-09 10:56:5815-16赛季CBA联赛之青岛
日期:2019-05-17 13:57:0515-16赛季CBA联赛之新疆
日期:2019-06-10 13:39:0515-16赛季CBA联赛之天津
日期:2019-07-08 15:04:4519周年集字徽章-19
日期:2019-08-27 13:31:2619周年集字徽章-19
日期:2019-08-27 13:31:2619周年集字徽章-周
日期:2019-09-06 18:46:4715-16赛季CBA联赛之天津
日期:2019-02-27 11:24:07
发表于 2015-08-14 16:05 |显示全部楼层
大数据是个不错的发展方向,后续应当是个热点

论坛徽章:
15
2015七夕节徽章
日期:2015-08-21 11:06:172017金鸡报晓
日期:2017-01-10 15:19:56极客徽章
日期:2016-12-07 14:07:30shanzhi
日期:2016-06-17 17:59:3115-16赛季CBA联赛之四川
日期:2016-04-13 14:36:562016猴年福章徽章
日期:2016-02-18 15:30:34IT运维版块每日发帖之星
日期:2016-01-28 06:20:0015-16赛季CBA联赛之新疆
日期:2016-01-25 14:01:34IT运维版块每周发帖之星
日期:2016-01-07 23:04:26数据库技术版块每日发帖之星
日期:2016-01-03 06:20:00数据库技术版块每日发帖之星
日期:2015-12-01 06:20:00IT运维版块每日发帖之星
日期:2015-11-10 06:20:00
发表于 2015-08-14 18:10 |显示全部楼层
ES在内存维护了一个反转索引表,所以能保证速度,相当于数据库的内存索引
ES怎么使用HDFS? 这个问题说句实话我没看懂,至于替代方案你可以尝试HBase(性能最低)/Cassandra/巨杉(性能应该最高)之类的解决方案,插入速度应该可以,查询就要取决于你的查询方式了
redis确实只支持主键查询,这类你可以试试voltdb,或许能满足你的需求,其也是内存数据库性能高,但好像只能用存储过程(很久没关注这个了)
回复 17# laputa73


   

论坛徽章:
0
发表于 2015-08-14 19:17 |显示全部楼层
学习,我在用redis。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP