马编辑
发表于 2014-12-19 18:03
好活动,支持支持。
yizuwei520
发表于 2014-12-20 09:21
从来没有接触过这东西,也没有听说过,但既然说出来了,也就肯定有存在的价值。
wang290
发表于 2014-12-20 09:48
send_linux 发表于 2014-12-17 14:31 static/image/common/back.gif
大数据技术在近几年发展十分迅速,在互联网公司以及传统公司都得到了广泛的应用。NoSQL一直伴随着大数据技术 ...
NoSQL现在确实很多了,但是不是所有的业务都适合,这个大家都清楚
而且不同的NoSQL解决的问题完全不一样
RDS加NoSQL才是大部分数据库问题的解决之道
wang290
发表于 2014-12-20 09:49
action08 发表于 2014-12-17 18:53 static/image/common/back.gif
建议了解一下,也是互联网技术的一个小变革,以前很火的
对数据库这个行业来说,NoSQL还是很革命性的吧
不是小变革哦,可以说是大数据技术的基础
苏州微信
发表于 2014-12-20 17:21
send_linux
发表于 2014-12-20 23:12
苏州微信 发表于 2014-12-20 17:21 static/image/common/back.gif
NoSql是一个好东西。之前和朋友写了一个nosql的client,感觉nosql真的很强大。
特别处理海量数据和快速访问 ...
兄弟的ID有广告嫌疑哦:curse:
苏州微信
发表于 2014-12-21 00:20
lanni654321
发表于 2014-12-21 00:22
陌路巨额投入
发表于 2014-12-22 10:01
(1)大数据技术有哪些?它们和NoSQL的关系是什么?
以前学习的时候总结过。。个人觉得有四方面:
1.跨粒度计算(In-DatabaseComputing)Z-Suite支持各种常见的汇总,还支持几乎全部的专业统计函数。得益于跨粒度计算技术,寻出最优化的计算方案,继而把所有开销较大的、昂贵的计算都移动到数据存储的地方直接计算,我们称之为库内计算(In-Database)。这一技术大大减少了数据移动,降低了通讯负担,保证了高性能数据分析。
2.并行计算(MPP Computing)能够把计算分布到多个计算节点,再在指定节点将计算结果汇总输出。Z-Suite能够充分利用各种计算和存储资源,不管是服务器还是普通的PC,她对网络条件也没有严苛的要求。。
3.列存储 (Column-Based)Z-Suite是列存储的。基于列存储的数据集市,不读取无关数据,能降低读写开销,同时提高I/O 的效率,从而大大提高查询性能。另外,列存储能够更好地压缩数据,一般压缩比在5 -10倍之间,这样一来,数据占有空间降低到传统存储的1/5到1/10 。良好的数据压缩技术,节省了存储设备和内存的开销,却大大了提升计算性能。
4.内存计算得益于列存储技术和并行计算技术。一般地,内存访问速度比磁盘访问速度要快几百倍甚至上千倍。通过内存计算,CPU直接从内存而非磁盘上读取数据并对数据进行计算。内存计算是对传统数据处理方式的一种加速,是实现大数据分析的关键应用技术。
(2)NoSQL兴起的原因是什么?有哪些主要的类型?这些类型NoSQL的特点是什么?
兴起原因:由于我们需要处理的数据集越来越大,其存储量已经远远超过了单机的容量,数据处理的需求也远远超过了单机CPU的运算能力。所以我们需要分布式的解决方案。对数据提供速度的要求越来越高,很多应用场景需要数据层提供更高的写性能和数据吞吐。比如日志型应用,对写性能的要求可能非常高,当写性能成为瓶颈时,通常我们很难难过升级单机配置来解决。所以分布式的需求在这里变得也很重要。
类型:
1.键-值对数据库
具备高度可扩展性,但却无法帮助开发人员顺畅处理复杂数据集。如果大家需要进行磁盘备份、分布式散列表并通过一致性对数据内容加以检查,那么上述方案既具备良好的规模化能力、又能提供出色的处理速度。
2.列族/大表数据库
以HBase为代表的某些数据库则从开发之初就以列族作为设计思路。这是键-值数据库的一种更为先进的表现形式。数据的产生速度通常非常之快,而且往往一次性来自多个位置、增长幅度惊人,需要出色的写入能力以及以时间片段为基础的高性能读取配。
3.文档数据库
非常适合面向对象型编程。这些数据并不一定都是以报告的形式出现,但MongoDB等方案通常也会包含一定程度的MapReduce功能。至少在MongoDB当中,大家可以对任何内容加以查询,而且即使不借助索引机制也不至于出现我们无法接受的性能问题。
4.图形数据库
不太关注数据规模或者可用性,而主要针对我们的数据之间存在怎样的相关性以及用户需要如何执行计算任务。图形数据库往往与索引机制紧密相连、从而实现更理想的搜索与查找效果,但图形部分必须经过遍历;对于这一点,大家需要在一部分初始节点上加以修正。
jieforest
发表于 2014-12-22 15:37
本帖最后由 jieforest 于 2014-12-22 20:20 编辑
不错的活动
(1)大数据技术有哪些?它们和NoSQL的关系是什么?
先回答第二问。大数据技术指的是对海量的结构化和非结构化的数据进行提取、管理、处理、分析、存储等的技术。所以大数据技术和NoSQL的关系是包含关系。NoSQL技术主要是面向结构化数据和非结构化数据进行存储和管理的技术。所以NoSQL只是大数据的一个方面,大数据技术中,涉及存储的还可以是关系数据库,以及分布式文件系统等。
大数据技术很多,占据主流地位的大数据技术有:Hadoop、Storm、Spark等,它们又是由很多更具体的技术所组成。
比如组成Hadoop大数据平台的技术有:HDFS、YARN、MapReduce、Ambari、Avro、Cassandra、Chukwa、HBase、Hive、Mahout、Pig、Tez、ZooKeeper等。
(2)NoSQL兴起的原因是什么?有哪些主要的类型?这些类型NoSQL的特点是什么?
主要还是因为Web 2.0时代的到来,关系数据库越来越不能满足互联网应用的需求,导致了NoSQL的兴起。这些需求包括:
1)数据的高并发读写
2)数据的高可用性
3)海量数据存储
4)海量数据的实时分析
NoSQL的主要类型包括:
1)文档型数据库
特点:面向集合存储,模式自由,使用高效的二进制数据存储等。
2)键值存储数据库
特点:以键为索引的存储方式,访问速度极快。
3)图数据库
特点:以节点/关系/属性为基础存储数据,善于处理大量复杂、互连接、低结构化的数据。
4)列式数据库
特点:以列相关存储架构进行数据存储,适合于批量数据处理和即席查询。
5)内存数据库
特点:将数据放在内存中直接操作,数据处理速度比传统数据库的数据处理速度要快很多。
(3)每种NoSQL有什么代表性的开源系统?其主要适合什么样的场景?
1)文档型数据库
代表:MongoDB、CouchDB、CouchBase、MarkLogic、Clusterpoint
应用场景:适用于数据变化较少,执行预定义查询,进行数据统计的应用程序。适用于需要提供数据版本支持的应用程序。
2)键值存储数据库
代表:Dynamo、FoundationDB、MemcacheDB、Redis、Riak、Aerospike
应用场景:高读取、快速检索。
3)图数据库
代表:Neo4j、OrientDB、ArangoDB、MapGraph
应用场景:社会关系,公共交通网络,地图及网络拓谱。
4)列式数据库
代表:Cassandra、HBase、Accumulo、Druid、Vertica
应用场景:适合于批量数据处理和即席查询。
5)内存数据库
代表:Redis、Membase
应用场景:适用于数据变化快且数据库大小可遇见(适合内存容量)的应用程序。
(4)如果需要自己构建一个NoSQL系统,主要需要考虑哪些核心问题?
首先确定适用的应用场景,功能大而全是不现实的。
其次根据应用场景确定存储方式。
选择存储引擎,是自行开发还是借用开源引擎。
再次是设计访问协议,一般是基于TCP基础上的自定义协议。
接着是开发管理系统,提供NoSQL数据库的基本管理功能。
再次是编写各种语言的驱动包。
最后是提供客户端GUI工具。