免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2092 | 回复: 0
打印 上一主题 下一主题

[Hadoop&HBase] 基于hadoop大规模数据排序算法-万虎组-第一次报告 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2011-12-23 02:39 |只看该作者 |倒序浏览
<DIV style="TEXT-ALIGN: center">
<DIV style="TEXT-ALIGN: center"><FONT style="COLOR: rgb(240,0,0)" size=5><A href="http://blog.chinaunix.nethttp://blog.chinaunix.net/attachment/201109/25/24677087_1316934395Y66Y.jpg" target=_blank></A><A href="http://blog.chinaunix.nethttp://blog.chinaunix.net/attachment/201109/25/24677087_1316934678MHf0.jpg" target=_blank></A>基于hadoop大规模数据排序算法-万虎组-第一次报告</FONT><BR></DIV><BR><FONT style="FONT-WEIGHT: bold" size=4>有关云计算相关核心技术的初步学习<BR></FONT>
<DIV style="TEXT-ALIGN: left"><BR><FONT size=4><B>组长:</B>万虎<BR><B>成员:</B>万虎、牛庆亚、宋思梦、文滔、胡海砷</FONT><BR><BR><FONT size=4><SPAN style="FONT-WEIGHT: bold">本次提交:</SPAN>牛庆亚</FONT><BR><BR><FONT size=4><SPAN style="FONT-WEIGHT: bold">写在前面:<BR><BR></SPAN></FONT>本次报告将介绍我们小组在这个项目中的前期进展,有关云计算涉及到的相关核心技术(传统)的学习情况。设计的内容是传统的技术,下面的内容仅是粗略的介绍,会在后期将有关的实现实例等陆续进行介绍,以便我们能够更加深入的理解云计算的(技术)基础。<BR><BR>在云计算初期,“云计算”有炒作概念的嫌疑,但是时间过去这么久了,各大商业公司的实际行动证明云计算并不是“虚”的,这些在云计算背后的技术基础上面也可以体现出来。“云计算”并不是一个全新的技术,我感觉它其实就是一种概念的整合,一种商业上的实现。</DIV>
<DIV style="TEXT-ALIGN: left">&nbsp;</DIV>
<DIV style="TEXT-ALIGN: left">&nbsp;</DIV>
<DIV style="TEXT-ALIGN: left"><A href="http://blog.chinaunix.nethttp://blog.chinaunix.net/attachment/201109/25/24677087_1316934395Y66Y.jpg" target=_blank></A><A href="http://blog.chinaunix.nethttp://blog.chinaunix.net/attachment/201109/25/24677087_1316934678MHf0.jpg" target=_blank><IMG border=0 src="http://blog.chinaunix.nethttp://blog.chinaunix.net/attachment/201109/25/24677087_1316934678MHf0.jpg" ; .load="imgResize(this, 650);"></A><BR></DIV>
<P style="TEXT-ALIGN: left; MARGIN-TOP: 0pt; TEXT-INDENT: -42pt; MARGIN-BOTTOM: 0pt; MARGIN-LEFT: 42.15pt" class=p0><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10.5pt; FONT-WEIGHT: bold; mso-spacerun: 'yes'">虚拟技术</SPAN><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10.5pt; FONT-WEIGHT: bold; mso-spacerun: 'yes'"></SPAN></P>
<P style="TEXT-ALIGN: left; MARGIN-TOP: 0pt; TEXT-INDENT: -42pt; MARGIN-BOTTOM: 0pt; MARGIN-LEFT: 42pt" class=p0 align=center><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10.5pt; mso-spacerun: 'yes'">&nbsp;&nbsp;&nbsp;&nbsp;虚拟化技术是指计算任务在虚拟的基础上而不是真实的硬件基础上运行。虚拟化技术可以扩大硬件的</SPAN></P>
<P style="TEXT-ALIGN: left; MARGIN-TOP: 0pt; TEXT-INDENT: -42pt; MARGIN-BOTTOM: 0pt; MARGIN-LEFT: 42pt" class=p0 align=center><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10.5pt; mso-spacerun: 'yes'">容量,简化软件的重新配置过程。CPU的虚拟化技术可以单CPU模拟多CPU并行,允许一个平台同时运行多个</SPAN></P>
<P style="TEXT-ALIGN: left; MARGIN-TOP: 0pt; TEXT-INDENT: -42pt; MARGIN-BOTTOM: 0pt; MARGIN-LEFT: 42pt" class=p0 align=center><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10.5pt; mso-spacerun: 'yes'">操作系统,并且应用程序都可以在相互独立的空间内运行而互不影响,从而显著提高计算机的工作效率。</SPAN><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10.5pt; mso-spacerun: 'yes'"></SPAN></P>
<P style="TEXT-ALIGN: left; MARGIN-TOP: 0pt; TEXT-INDENT: -42pt; MARGIN-BOTTOM: 0pt; MARGIN-LEFT: 42pt" class=p0><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10.5pt; mso-spacerun: 'yes'">完全虚拟化:</SPAN><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10.5pt; mso-spacerun: 'yes'"></SPAN></P>
<P style="TEXT-ALIGN: left; MARGIN-TOP: 0pt; TEXT-INDENT: -42pt; MARGIN-BOTTOM: 0pt; MARGIN-LEFT: 42pt" class=p0 align=left><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10.5pt; mso-spacerun: 'yes'">&nbsp;&nbsp;&nbsp;&nbsp;使用名为hypervisor的一种软件,在虚拟服务器和底层硬件之间建立一个抽象层。VMware和微软的</SPAN></P>
<P style="TEXT-ALIGN: left; MARGIN-TOP: 0pt; TEXT-INDENT: -42pt; MARGIN-BOTTOM: 0pt; MARGIN-LEFT: 42pt" class=p0 align=left><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10.5pt; mso-spacerun: 'yes'">Virtual&nbsp;PC是代表该方法的两个商用产品,而基于核心的虚拟机(KVM)是面向Linux系统的开源产品。</SPAN><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10.5pt; mso-spacerun: 'yes'"></SPAN></P>
<P style="TEXT-ALIGN: left; MARGIN-TOP: 0pt; TEXT-INDENT: -42pt; MARGIN-BOTTOM: 0pt; MARGIN-LEFT: 42pt" class=p0><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10.5pt">准虚拟化:</SPAN></P>
<P style="TEXT-ALIGN: left; MARGIN-TOP: 0pt; TEXT-INDENT: -42pt; MARGIN-BOTTOM: 0pt; MARGIN-LEFT: 42pt" class=p0 align=left><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10.5pt; mso-spacerun: 'yes'">&nbsp;&nbsp;&nbsp; 完全虚拟化是处理密集型技术,因为它要求hypervisor管理各个虚拟服务器,并让它们彼此独立。减</SPAN></P>
<P style="TEXT-ALIGN: left; MARGIN-TOP: 0pt; TEXT-INDENT: -42pt; MARGIN-BOTTOM: 0pt; MARGIN-LEFT: 42pt" class=p0 align=left><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10.5pt; mso-spacerun: 'yes'">轻这种负担的一种方法就是,改动客户操作系统,让它以为自己运行在虚拟环境下,能够与hypervisor协</SPAN></P>
<P style="TEXT-ALIGN: left; MARGIN-TOP: 0pt; TEXT-INDENT: -42pt; MARGIN-BOTTOM: 0pt; MARGIN-LEFT: 42pt" class=p0 align=left><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10.5pt; mso-spacerun: 'yes'">同工作。这种方法就叫准虚拟化(para-virtualization)。</SPAN><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10.5pt; mso-spacerun: 'yes'"></SPAN></P>
<P style="TEXT-ALIGN: left; MARGIN-TOP: 0pt; MARGIN-BOTTOM: 0pt" class=p0><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10.5pt; mso-spacerun: 'yes'">&nbsp;&nbsp;&nbsp; Xen是开源虚拟化技术的一个例子。操作系统作为虚拟服务器在Xen&nbsp;hypervisor上运行之前,它必须在核心层面进行某些改变。因此,Xen适用于BSD、Linux、Solaris及其他开源操作系统,但不适合对&nbsp;像Windows这些专有的操作系统进行虚拟化处理,因为它们无法改动。</SPAN><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10.5pt; mso-spacerun: 'yes'"></SPAN></P>
<P style="TEXT-ALIGN: left; MARGIN-TOP: 0pt; MARGIN-BOTTOM: 0pt" class=p0><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10.5pt; FONT-WEIGHT: bold; mso-spacerun: 'yes'">分布式技术</SPAN><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10.5pt; FONT-WEIGHT: bold; mso-spacerun: 'yes'"></SPAN></P>
<P style="TEXT-ALIGN: left; MARGIN-TOP: 0pt; MARGIN-BOTTOM: 0pt" class=p0><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10pt; mso-spacerun: 'yes'" class=16>分布式计算:</SPAN><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10pt; mso-spacerun: 'yes'" class=16></SPAN></P>
<P style="TEXT-ALIGN: left; MARGIN-TOP: 0pt; TEXT-INDENT: 21pt; MARGIN-BOTTOM: 0pt" class=p0><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10pt; mso-spacerun: 'yes'" class=16>分布式计算是一种把需要进行大量计算的工程数据分割成小块,由多台计算机分别计算,在上传运算结果后,将结果统一合并得出数据结论的科学。分布式计算的概念和内涵上与集群技术有重叠,可参见集群相关技术内容。</SPAN><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10pt; mso-spacerun: 'yes'" class=16></SPAN></P>
<P style="TEXT-ALIGN: left; MARGIN-TOP: 0pt; MARGIN-BOTTOM: 0pt" class=p0><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10pt; mso-spacerun: 'yes'" class=16>分布式数据库:</SPAN><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10pt; mso-spacerun: 'yes'" class=16></SPAN></P>
<P style="TEXT-ALIGN: left; MARGIN-TOP: 0pt; TEXT-INDENT: 21pt; MARGIN-BOTTOM: 0pt" class=p0><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10pt; mso-spacerun: 'yes'" class=16>分布式数据库是用计算机网络将物理上分散的多个数据库单元连接起来组成的一个逻辑上统一的数据库。每个被连接起来的数据库单元称为站点或结点。分布式数据库有一个统一的数据库管理系统来进行管理,称为分布式数据库管理系统。</SPAN><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10pt; mso-spacerun: 'yes'" class=16></SPAN></P>
<P style="TEXT-ALIGN: left; MARGIN-TOP: 0pt; TEXT-INDENT: 14.25pt; MARGIN-BOTTOM: 0pt" class=p0><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10pt; mso-spacerun: 'yes'" class=16>分布式数据库的基本特点包括:物理分布性、逻辑整体性和站点自治性。从这三个基本特点还可以导出的其它特点有:数据分布透明性、集中与自治相结合的控制机制、适当的数据冗余度和事务管理的分布性。</SPAN><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10.5pt; mso-spacerun: 'yes'"></SPAN></P>
<P style="TEXT-ALIGN: left; MARGIN-TOP: 0pt; MARGIN-BOTTOM: 0pt" class=p0><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10pt; mso-spacerun: 'yes'" class=16>分布式文件系统(&nbsp;Distributed&nbsp;File&nbsp;System&nbsp;):</SPAN><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10.5pt; mso-spacerun: 'yes'"></SPAN></P>
<P style="TEXT-ALIGN: left; MARGIN-TOP: 0pt; MARGIN-BOTTOM: 0pt" class=p0><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10pt; mso-spacerun: 'yes'" class=16>&nbsp;&nbsp;&nbsp;&nbsp;分布式文件系统是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。分布式文件系统的设计应满足透明性、并发控制、可伸缩性、容错以及安全需求等。目前活跃的分布式文件系统项目有:Hadoop,GFS,DFS等。</SPAN><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10.5pt; mso-spacerun: 'yes'"></SPAN></P>
<P style="TEXT-ALIGN: left; MARGIN-TOP: 0pt; MARGIN-BOTTOM: 0pt" class=p0><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10pt; FONT-WEIGHT: bold; mso-spacerun: 'yes'" class=15>集群技术</SPAN><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10.5pt; mso-spacerun: 'yes'"></SPAN></P>
<P style="TEXT-ALIGN: left; MARGIN-TOP: 0pt; TEXT-INDENT: 14.25pt; MARGIN-BOTTOM: 0pt" class=p0><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10pt; mso-spacerun: 'yes'" class=16>它通过一组松散集成的计算机软件和/或硬件连&nbsp;接起来高度紧密地协作完成计算工作。在某种意义上,他们可以被看作是一台计算机。集群系统中的单个计算机通常称为节点,通常通过局域网连接,但也有其它的可能连接方式。集群计算机通常用来改进单个计算机的计算速度和/或可靠性。一般情况下集群计算机比单个计算机,比如工作站或超级计算机性能价格比要高得多。</SPAN><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10.5pt; mso-spacerun: 'yes'"></SPAN></P>
<P style="TEXT-ALIGN: left; MARGIN-TOP: 0pt; MARGIN-BOTTOM: 0pt" class=p0><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10pt; mso-spacerun: 'yes'" class=16>高可用性集群:</SPAN><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10.5pt; mso-spacerun: 'yes'"></SPAN></P>
<P style="TEXT-ALIGN: left; MARGIN-TOP: 0pt; MARGIN-BOTTOM: 0pt" class=p0><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10pt; mso-spacerun: 'yes'" class=16>&nbsp;&nbsp;&nbsp;&nbsp;一般是指当集群中有某个节点失效的情况下,其上的任务会自动转移到其他正常的节点上。还指可以将集群中的某节点进行离线维护再上线,该过程并不影响整个集群的运行。这类集群典型的软件是著名的Heartbeat项目。</SPAN><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10.5pt; mso-spacerun: 'yes'"></SPAN></P>
<P style="TEXT-ALIGN: left; MARGIN-TOP: 0pt; MARGIN-BOTTOM: 0pt" class=p0><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10pt; mso-spacerun: 'yes'" class=16>负载均衡集群:</SPAN><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10.5pt; mso-spacerun: 'yes'"></SPAN></P>
<P style="TEXT-ALIGN: left; MARGIN-TOP: 0pt; MARGIN-BOTTOM: 0pt" class=p0><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10pt; mso-spacerun: 'yes'" class=16>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;负载均衡集群运行时,一般通过一个或者多个前端负载均衡器,将工作负载分发到后端的一组服务器上,从而达到整个系统的高性能和高可用性。这样的计算机集群有时也被称为服务器群(Server&nbsp;Farm)。&nbsp;一般高可用性集群和负载均衡集群会使用类似的技术,或同时具有高可用性与负载均衡的特点。</SPAN><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10.5pt; mso-spacerun: 'yes'"></SPAN></P>
<P style="TEXT-ALIGN: left; MARGIN-TOP: 0pt; MARGIN-BOTTOM: 0pt" class=p0><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10pt; mso-spacerun: 'yes'" class=16>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Linux虚拟服务器(LVS)项目在Linux操作系统上提供了最常用的负载均衡软件。</SPAN><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10.5pt; mso-spacerun: 'yes'"></SPAN></P>
<P style="TEXT-ALIGN: left; MARGIN-TOP: 0pt; MARGIN-BOTTOM: 0pt" class=p0><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10pt; FONT-WEIGHT: bold; mso-spacerun: 'yes'" class=15>高性能计算/并行计算</SPAN><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10.5pt; mso-spacerun: 'yes'"><BR></SPAN><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10pt; mso-spacerun: 'yes'" class=16>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;高性能计算集群采用将计算任务分配到集群的不同计算节点提高计算能力,因而主要应用在科学计算领域。比较流行的HPC采用Linux操作系统和其它一些免费软件来完成并行运算。这一集群配置通常被称为Beowulf集群。这类集群通常运行特定的程序以发挥HPC&nbsp;cluster的并行能力。这类程序一般应用特定的运行库,&nbsp;比如专为科学计算设计的MPI库。</SPAN><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10.5pt; mso-spacerun: 'yes'"></SPAN></P>
<P style="TEXT-ALIGN: left; MARGIN-TOP: 0pt; MARGIN-BOTTOM: 0pt" class=p0><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10pt; mso-spacerun: 'yes'" class=16>&nbsp;&nbsp;&nbsp;&nbsp;HPC集群特别适合于在计算中各计算节点之间发生大量数据通讯的计算作业,比如一个节点的中间结果或影响到其它节点计算结果的情况。</SPAN><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10.5pt; mso-spacerun: 'yes'"></SPAN></P>
<P style="TEXT-ALIGN: left; MARGIN-TOP: 0pt; MARGIN-BOTTOM: 0pt" class=p0><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10pt; FONT-WEIGHT: bold; mso-spacerun: 'yes'" class=15>网格计算</SPAN><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10.5pt; mso-spacerun: 'yes'"></SPAN></P>
<P style="TEXT-ALIGN: left; MARGIN-TOP: 0pt; MARGIN-BOTTOM: 0pt" class=p0><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10pt; mso-spacerun: 'yes'" class=16>&nbsp;&nbsp;&nbsp;&nbsp;网格计算或网格集群是一种与集群计算非常相关的技术。网格与传统集群的主要差别是网格是连接一组相关并不信任的计算机,它的运作更像一个计算公共设施而不是一个独立的计算机。还有,网格通常比集群支持更多不同类型的计算机集合。</SPAN><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10.5pt; mso-spacerun: 'yes'"></SPAN></P>
<P style="TEXT-ALIGN: left; MARGIN-TOP: 0pt; MARGIN-BOTTOM: 0pt" class=p0><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10pt; mso-spacerun: 'yes'" class=16>&nbsp;&nbsp;&nbsp;&nbsp;网格计算是针对有许多独立作业的工作任务作优化,在计算过程中作业间无需共享数据。网格主要服务于管理在独立执行工作的计算机间的作业分配。资源如存储可以被所有结点共享,但作业的中间结果不会影响在其他网格结点上作业的进展。</SPAN></P>
<P style="TEXT-ALIGN: left; MARGIN-TOP: 0pt; MARGIN-BOTTOM: 0pt" class=p0><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10pt; mso-spacerun: 'yes'" class=16></SPAN>&nbsp;</P>
<P style="TEXT-ALIGN: left; MARGIN-TOP: 0pt; MARGIN-BOTTOM: 0pt" class=p0><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10pt; mso-spacerun: 'yes'" class=16>&nbsp;&nbsp;&nbsp;除此之外,因为云计算是一种新型的超级计算方式,以数据位中心,我们在学习的过程中,也应该以学习它的数据存储、数据管理、编程模式为主。</SPAN></P>
<P style="TEXT-ALIGN: left; MARGIN-TOP: 0pt; MARGIN-BOTTOM: 0pt" class=p0><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10pt; mso-spacerun: 'yes'" class=16><STRONG>数据存储</STRONG></SPAN></P>
<P style="TEXT-ALIGN: left; MARGIN-TOP: 0pt; MARGIN-BOTTOM: 0pt" class=p0><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10pt; mso-spacerun: 'yes'" class=16>&nbsp;&nbsp;&nbsp; 为保证高可用、高可靠、和经济性,云计算采用分布式存储的方式来存储数据,采用冗余存储的方式来保证存储数据的可靠性,即为同一份数据存储多个副本。另外,云计算系统需同时满足大量永和的需求,它的数据存储技术必须具有较高的吞吐率和传输率的特点。基于这些要求,主要的数据存储技术有谷歌的非开源的GFS(Google File System)和Hadoop 开发团队开发的GFS的开源实现HDFS(Hadoop Distributed File System)。</SPAN></P>
<P style="TEXT-ALIGN: left; MARGIN-TOP: 0pt; MARGIN-BOTTOM: 0pt" class=p0><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10pt; mso-spacerun: 'yes'" class=16><STRONG>数据管理技术</STRONG></SPAN></P>
<P style="TEXT-ALIGN: left; MARGIN-TOP: 0pt; MARGIN-BOTTOM: 0pt" class=p0><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10pt; mso-spacerun: 'yes'" class=16>&nbsp;&nbsp;&nbsp; 鉴于其数据量的巨大,数据管理技术必须能够高效地管理大量数据。其次,如何在海量数据中找到特定数据也是云计算数据管理技术所必须剞劂的问题。由于对数据的读操作的频率远远大于数据的更新操作的频率,所以,云系统采用的是数据库领域中列存储的数据管理模式。将表按列划分后存储。最著名的技术是谷歌提出的BingTable数据管理技术。</SPAN></P>
<P style="TEXT-ALIGN: left; MARGIN-TOP: 0pt; MARGIN-BOTTOM: 0pt" class=p0><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10pt; mso-spacerun: 'yes'" class=16><STRONG>编程模式</STRONG></SPAN></P>
<P style="TEXT-ALIGN: left; MARGIN-TOP: 0pt; MARGIN-BOTTOM: 0pt" class=p0><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10pt; mso-spacerun: 'yes'" class=16>&nbsp;&nbsp;&nbsp; 云计算大部分采用Map-Reduce的编程模式。程序员在map函数中指定对各分块数据的处理过程,在Reduce函数中指定如何对分块数据处理的中间结果进行归约。用户只需指定map和reduce函数来编写分布式的并行程序。当在集群上运行Map-reduce程序是,程序员不需要关心如何将输入的数据分块、分配和调度,同时系统还将处理集群内节点失败以及节点间通信的管理等。如下图</SPAN></P>
<P style="TEXT-ALIGN: left; MARGIN-TOP: 0pt; MARGIN-BOTTOM: 0pt" class=p0><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10pt; mso-spacerun: 'yes'" class=16><A href="http://blog.chinaunix.nethttp://blog.chinaunix.net/attachment/201109/25/24677087_1316934395Y66Y.jpg" target=_blank><IMG border=0 src="http://blog.chinaunix.nethttp://blog.chinaunix.net/attachment/201109/25/24677087_1316934395Y66Y.jpg" ; .load="imgResize(this, 650);"></A></SPAN></P>
<P style="TEXT-ALIGN: left; MARGIN-TOP: 0pt; MARGIN-BOTTOM: 0pt" class=p0>
<P style="MARGIN-TOP: 0pt; MARGIN-BOTTOM: 0pt" class=p0><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10pt; mso-spacerun: 'yes'" class=16></SPAN><SPAN style="FONT-FAMILY: '宋体'; FONT-SIZE: 10.5pt; mso-spacerun: 'yes'"></SPAN></P><BR><FONT size=4><SPAN style="FONT-WEIGHT: bold">下次报告预告</SPAN></FONT><BR>&nbsp;第二次报告会继续按照第零次报告中的规划,继续介绍云计算背后的基础技术。然后会正式转入Hadoop的学习实践。敬请期待。<BR><BR><SPAN style="FONT-WEIGHT: bold">参考资料:</SPAN><BR>
<P></P>
<DIV style="TEXT-ALIGN: left">
<OL>
<LI><A href="http://blog.china.com/u/101019/430683/201010/7082579.html" target=_blank>http://blog.china.com/u/101019/430683/201010/7082579.html</A></LI>
<LI><A href="http://www.cnblogs.com/turingbooks/archive/2011/04/22/2024862.html" target=_blank>http://www.cnblogs.com/turingbooks/archive/2011/04/22/2024862.html</A></LI>
<LI><A href="http://wenku.baidu.com/view/570561a5f524ccbff1218425.html" target=_blank>http://wenku.baidu.com/view/570561a5f524ccbff1218425.html</A>《云计算及其关键技术》陈全、邓倩妮</LI></OL></DIV>由于本次参考的内容比较零乱,未能一一整理。请见谅,会在后期陆续补上。<BR><BR></DIV>
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP