论坛徽章:: 10

11楼 [报告]

发表于 2013-11-06 18:50 |只看该作者

1、业务高可用：web使用集群或者HA，数据库使用HA或者集群，数据库数据挂载至存储；
2、制定完善的备份计划，数据库备份应包含增量备份与全备份方法，并定期在测试环境进行恢复与销毁数据
3、建设同城与异地灾备中心
4、定期模拟不同灾难场景进行演练
5、备份带库介质异地存放
6、网络接入选择至少两家运营商
7、软件与硬件选型及服务应有多家厂商共存，万不可只选择一家，要掌握主动权，做到退可守，进可攻~

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

reyleon

大富大贵

论坛徽章:: 60

12楼 [报告]

发表于 2013-11-06 19:24 |只看该作者

一直想从事高可用架构工作，无奈一直都没机会，所以也没什么可说的，球带

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

xike2002

家境小康

论坛徽章:: 0

13楼 [报告]

发表于 2013-11-06 19:56 |只看该作者

本帖最后由 xike2002 于 2013-11-15 11:11 编辑

好活动，积极参与！

1、说说贵企业IT集群高可用的部署方案以及后续的一些维护经验
答：因为我不是做运维的，所以具体的部署方案我就不谈了。
我主要从技术层面来谈一谈集群的高可用性方案。

一、高可用性集群系统

集群技术(Cluster技术)就是将多台服务器用集群软件连接在一起，组成一个高度透明的大型服务器群的计算机系统，作为一个整体为客户端提供服务，客户端能共享网络上的所有资源，如数据或应用软件等，同时客户端的用户并不关心其应用Server运行在那台服务器上，只关心其应用Server是否能连续工作。当集群系统内某一台服务器出现故障时，其备援服务器便立即接管该故障服务器的应用服务，继续为前端的用户提供服务。

从客户端看来，集群中的所有服务器是一个系统，就像一台大型的计算机系统，其上运行着客户端需要的应用服务。由于集群系统能够保证用户的业务是连续的并且具有持续可用的特性，即具有7x24的可用性。在一年之内可达99．99％可用性时，这样的集群系统我们称为高可用性的集群系统。

在高可用性的集群系统中，由于是多台服务器在高可用性的集群系统软件的管理下为客户端提供服务，故每一个计算机的部件都有冗余备份，如服务器的主板、网卡、网络、电源系统、风扇系统、应用软件、存储设备 (Disk Array)等等，其中最重要的是数据存放的介质要有冗余保护，一旦某个部件出现问题，冗余部件会自动接管故障部件的工作，也就是说某台服务器出现故障，则备份服务器将在集群软件的指挥下自动接管故障服务器的工作，从而消除了此故障对整个系统的影响。

现在常用的双机热备系统仅仅是只有两个节点的、最简单的集群系统，是高可用性集群系统的特例。

高可用性的集群系统主要包括以下几方面硬件组件：

服务器组：在高可用性的集群系统中每个节点的服务器必须有自己的CPU、内存和磁盘。每个服务器节点的磁盘是用于安装操作系统和集群软件程序。

对外提供服务的网路：集群系统中的服务器一般采用TCP／IP网络协议与客户端相连。每个服务器上都有自己的应用服务，客户端必须通过集群服务器中的网络通路来得到自己的服务。心跳信号通路：在高可用性的集群系统中每个节点必须有心跳接口，用于服务器节点之间互相监视和通信，以取得备援服务器的工作状态。常见的心跳信号可分别透过串行通讯线路(RS232)、TCP／IP网络和共享磁盘阵列互相传递信息。心跳线路最好使用二条不同的通迅路径，达到监视线路冗余的效果。

数据共享磁盘：在高可用性的集群系统中由于运行的都是关键业务，故使用的存储服务器都应是企业级的存储服务器，这些存储服务器应具有先进技术来保障其数据安全。一般数据放在企业级的存储服务器的共享磁盘的空间中，它是各服务器节点之间维持数据一致性的桥梁，各服务器节点在集群软件的控制下不会同时访问共享磁盘。

集群系统易与容错系统混淆。容错系统在服务器内部的CPU主板上有单点故障，而集群系统是一个安全、稳定而可靠的系统，集群系统不光有集群软件，还有整个硬件平台的冗余，即整机备份。它是一个高可用、无单点故障的系统。集群系统对于客户端是一个整体，其内部不同的应用运行在不同的服务器中，每台服务器上有自己的CPU和内存来支持应用。而容错系统是一个具有冗余部件的计算机系统，所有的应用都运行在CPU主板上不同CPU上，内存共享。

二、高可用性集群技术的用户群

企业的信息化程度越高，数据的可用性、安全性、可靠性和高效管理就越重要。目前，按照人们对服务器设备的可用性方面的需求，将用户群分为三大类。

第一类用户，使用单个的服务器作为整个网络的中心，他们一般不要求服务器具有高容错性和高可靠性，只要能提供服务即可。

第二类用户，也使用单个的服务器作为整个网络的中心，但对中心服务器的高容错性和高可靠性有一定要求。如中心服务器具有冗余电源、冗余风扇、冗余硬盘等功能，在一定的条件下，能保证服务器的可用性。

第三类用户，对企业的中心主服务器群的要求较高。他们需要自己的业务系统具有7x24的高可靠性及高可用性的保证，由于其业务需要连续可用，使得他们在选择业务服务器群时，要考虑到99．99％的高可用性，这样，他们在采购服务器群时，提出了每台服务器内部所有的部件必须要有冗余的设计，如双CPU或更多的CPU、双网卡、双电源、双风扇、双光纤接口卡等等，也就是服务器要有整机备份。同时，他们还希望多台服务器连接在一起，形成一个集群系统，每台服务器之间又有一种相互备份的关系。如某台服务器运行某个应用，另一台服务器又是它的备份机，同时它又是其他服务器的备份机。这种多台服务器之间协同工作，作为一个整体为前端业务机提供服务的工作模式正是集群系统能解决的问题。

从上面对三类用户的分析中可知，只有企业中运行关键业务的数字化信息系统，并且他们的业务需要7x24的高可用性，如各企业中的主数据库服务器、对外发布信系的服务器等，才需要采用集群技术，以保证数据永不丢失和系统永不停机 (Non-stop)。

三、高可用性集群技术

1．高可用性

可用性：当用户需要数据和服务时，计算机能够根据请求完成响应则定义为可用性。可用性是以百分比形式表示的一种系统正常工作的时间。

高可用性系统： (high availability system)是由集群软件监控、具有多台服务器互相冗余的系统。此系统通过集群软件提供的故障监测和故障处理能力，可提供业务连续性的能力。高可用性系统的主要目的是将计划内及计划外宕机时间减少到最少；其次是减少恢复一个失败系统的时间，即应在最短的时间内恢复系统的运行。高可用性即确保计算机系统的运行时间达到99．999％。

容错系统： (Fauh Tolerance system)是由一台计算机系统采用专用的、昂贵的和有复制功能的设备组成的系统。如计算机内部采用特殊的双主机板、CPU锁步运行、冗余磁盘、专有的操作系统等。它是为防止系统出错、获得较高可用性的一种方法。容错性是整个操作系统统筹设计的一个功能，系统完全自发、自动响应系统故障，并提供不间断服务。

高可用性(high availability)并不等同于容错(Fauh Tolerance)。容错仅仅是设计高可用性系统的一方面，并不能说明恢复系统错误的时间。

单点故障： (Single Points of Failure，简称SPOFs)是当某一个硬件或软件组件出故障时将引起整个系统不能为用户提供服务的故障。

最终的高可用性系统应该是无单点故障的(Single Points of Failure，简称SPOFs)系统。

2．大容量存储服务器

在硬件技术飞速发展的今天，我们现在使用的存储服务器(即硬盘阵列柜)已不是单盘的概念。在存储服务器中我们总是将许多单棵硬盘按照某种原则组织起来，形成一个或多个大的逻辑硬盘来为用户服务。在高可用性集群系统中一定会使用到大容量的存储服务器。

大容量的存储服务器是指将存储服务器中的多棵硬盘通过RAID的技术，按RAID LEVEL组合成更大容量的逻辑硬盘空间(也称为LUN)，一般从100GB、800 GB或到更大的5000 GB(5TB)不等。这样的超大容量的存储服务器(磁盘阵列)系统与服务器相连时，从主机端的操作系统上来看磁盘阵列的容量时，是一棵或多棵超大逻辑硬盘，而不是安装在存储服务器中的物理硬盘的数量和容量。这些逻辑硬盘与单个物理盘一样的可以分成不同的分区。现在用户的需求由目前的Gigabytes(GB)到Terabytes(TB，1TB=1000GB)进而到Petabytes(PB，1PB=1000TB)，相当于10的15次方位元。

3．常用的双机热备的工作方式

一般常见的集群是二个节点，常见的二个节点的工作模式有三种方式：并发访问模式(concurrent)、互备模式(Active／Active)、热备模式(Active／Standby)。

并发访问模式：针对Oracle Parallel Server环境设计，允许多个节点在同一时刻访问同一块数据，不支持AIX的JFS，因此应用必须建立在裸逻辑卷(“raw’’logicalvolumes)上。

互备模式：正常情况下，二台服务器均为前端客户提供各自的应用服务，并互相监视对方的运行情况。当一台服务器出现故障情况，不能对客户端提供正常服务时，另一台服务器将接管对方的应用，继续为客户端提供正常服务，从而保证信息系统的业务不间断。

热备模式：正常情况下，一台服务器是工作机，另一台服务器为备份机。工作机在为信息系统提供服务时，备份机在监视工作机的工作。当工作机出现故障，不能对前端客户提供服务时，备份机接管工作机的应用，继续为客户端提供正常服务，从而保证信息系统的业务不间断。当工作机修复后，可重新接人系统要回自己的应用。

四、高可用性集群技术在信息系统的建设中的重要性

要保证数字信息系统业务连续性，就必须先保证高可用性。而要保证高可用，就必需使用高可用性的集群技术。

业务连续性是高可用性的最高级别，也是系统中最难实现的部分。业务连续性的实现要依赖系统的高可用性和系统的灾难恢复功能的实现，而系统中没有单点故障是保证业务连续性最基本的手段。对于数据的保护，应从数据的安全性和数据的可用性方面进行保护。在保护数据安全存放时，应考虑到我们通常选用的介质是否有很好的安全性，如，一级存储(硬盘介质)，我们常选用具有数据安全保护措施的企业级存储服务器；二级存储就是我们经常使用的光盘、磁带等介质。在数据的可用性方面，我们常采用集群系统来保证数据的高可用性，对于二台的服务器，我们常常使用双机热备系统来保证系统的高可用性。

五、集群技术的结构选择

正是由于现在信息系统建设的飞速发展，数据信息正在以前所未有的速度迅速地积累起来。为了将宝贵的数据信息能安全的存放，同时在需要它的时候，能快速的提取，我们建议集群系统及存放数据的存储服务器使用Open SAN的架构，这样将为今后的扩容提供巨大的空间。同时也为数据的集中管理和存储备份提供便利的条件。图1为某国土局设计的一种Open SAN架构的方案，其中的2台数据库服务器采用了双机热备的集群技术的设计。

在使用的二套集群，一套为Oracle数据库系统的双机热备系统，另一套为Web发布系统的双机热备，这二套双机热备系统都是处于Open SAN．的架构中。

六、常用的高可用性集群技术软件

现在市场上流行的高可用性集群软件的品种比较多，较常见的为：IBM公司出产的IBM HACMP、Legato公司的Legato Automated Availability Manager(LAAM) Engreprise、SUN公司的SUN Cluster、Veritas公司的Veritas Cluster Server、 Microsoft公司的Microsoft Cluster Server(MSCS)、SteelEyeTechnology公司的LifeKeeper等高可用性集群软件和EDI公司的EDI High Availability System双机热备系统等等。

1．IBM HACMP

高可靠性集群系统软件HACMP(High Availability Cluster Multi-Processing)是一种运行在RS／6000服务器上的高可用的集群软件。此集群技术支持并行数据访问，能够帮助提供冗余和容错恢复能力，完全满足关键性商务应用的需求。HACMP包含基于图形用户界面的工具，可以帮助方便有效的管理群集系统，对集群系统进行安装、配置。

HACMP的配置和使用十分灵活。单处理器和对称多处理器(SMP)都可以加入到具有高可用性的群集系统之中。可将不同规模的RS／6000服务器与磁盘阵列的系统混合在一起，以满足各种应用需求。

按照用户所使用的不同的应用，HACMP集群软件可以配置为多种模式，并发访问模式比较适合的环境是所有的处理器必须工作于同一工作负荷并共享数据；互备模式是处理器共享工作负荷并相互备份；热备份模式允许一个节点备份群集中任何其它的节点。无论选择哪种模式，HACMP都将提供数据访问和备份计划，帮助您优化应用程序的执行和扩展性，同时还可避免代价高昂的系统故障和停机时间。HACMP同样支持服务器针对应用恢复／重启进行配置，以便为关键性的商务应用提供保护。

2. HACMP／ES和RS／6000集群技术

总体系统故障时间中有很大一部分是由计划内的故障时间引起的。HACMP可以通过以并行方式执行硬件、软件和其它维护活动，使计划内的故障时间最小化，与此同时应用程序依然持续运作于其它节点上。服务可能会从某一集群节点上转移至另一个节点，当维护活动完成后再转回该节点。

集群软件HACMP能够做到当某台服务器的应用出现故障时立即自动将应用切换到其它服务器，而且能够做到当一台服务器运行的多个应用中的一个出现故障时，只将此应用切换到其它服务器上而其它应用仍可在原服务器上继续运行；同时，要有针对应用系统的实时监测功能，当硬件出现故障时能及时向管理员报告。

通过使用RSCT，HACMP／ES可以对整个软件基础架构提供保护。HACMP／ES可以对这类故障进行监控、检测和响应，使系统具有持续运作的能力。通过对HACMP／ES进行配置，可以响应数以百计的系统事件。除了这种高级保护之外，RSCT还允许HACMP／ES支持多达32个节点的集群系统。

在具有高可用性的环境中，HACMP的并行资源管理器提供多达8路的共享磁盘并行访问能力，可以在接管期间采取不同的设计，可满足不同的应用。

HACMP可与各种并行数据库产品，诸如IB—MDB2、Oracle通用数据库等协同工作，以便建立起松耦合的并行集群，提供高水平的系统可用性。HACMP可创建复杂的并行访问集群，在该集群中，通过使用多达八台有效系统，并运行相同的应用、共享相同的物理资源，故障恢复启动的时间延迟能够达到最小。它可使用户无需中断工作流程，进行系统升级和维护。它可建立灵活的、面向集群的应用，以用于分布式网络，并通过集群管理器工具套件对网络活动进行监控。通过与AIX的逻辑卷管理器磁盘镜像相融合，改进磁盘的可用性。通过使用本地和远程的管理实用工具，对系统级的硬件错误进行检测和补偿。

2、整体的企业IT基础设施的高可用，有什么比较好的方案可以推荐？
答：这个问题和上一个问题的答案有类似之处。下面是以前看到的一些资料，发出来大家可以看一看。
集群系统主要分为两种：
　　高可用性集群和高性能集群。
　　
　　高可用性集群的主要功能就是提供不间断的服务。有许多应用程序都必须一天二十四小时地不停运转，如所有的web服务器、工业控制器、ATM、远程通讯转接器、医学与军事监测仪以及股票处理机等。对这些应用程序而言，暂时的停机都会导致数据的丢失和灾难性的后果。
　　
　　高性能集群通过将多台机器连接起来同时处理复杂的计算问题。模拟星球附近的磁场、预测龙卷风的出现、定位石油资源的储藏地等情况都需要对大量的数据进行处理。传统的处理方法是使用超级计算机来完成计算工作，但是超级计算机的价格比较昂贵，而且可用性和可扩展性不够强，因此集群成为了高性能计算领域瞩目的焦点。
　　
　　集群系统采用的操作系统主要有VMS、UNIX、WindowsNT和Linux。
　　
　　美国DEC公司（Digital
Equipment
Corporation）开发的VMScluster系统开发最早，技术也很成熟，应用也很广泛，但由于VMS操作系统只能在DEC公司的VAX系列和Alpha系列服务器上运行，VMScluster的应用受到很大限制。
　　
　　UNIX是服务器或工作站上普遍使用的操作系统，它运行稳定、安全性也比较好，因此许多大的公司都采用了基于UNIX的集群系统解决方案，如DEC、HP、SUN、IBM、NCR和DG等公司，其中在国内影响比较大的主要是DEC、HP、SUN和IBM。其中DEC公司的Trucluster系统提供了由4台Digital
Alpha
Server组成的集群系统，它集高可靠性、高可用性和易管理性于一身，是关键业务计算机系统的理想解决方案。
　　
　　基于WindowsNT的集群系统解决方案厂商主要有Mircrosoft和DEC。Microsoft于1995年就开始了集群系统的开发工作。Windows
2000中已经增加了集群功能，该高可用性集群叫做WolfPack，也叫做Microsoft Cluster Server
(MCS)。它主要是在企业级对基于Windows
NT服务器的应用程序提供可用性和可升级性。WolfPack现在支持两个服务器，一个用来对用户提供服务，另一个作为备份服务器使用。Microsoft下一步的目标是将WolfPack支持的节点数扩展到16个。Wolfpack的缺陷在于：它只提供了两个节点的失败恢复功能，而没有采用复杂的应用程序资源管理功能，因此在一定程度上影响了系统的高可用性、高可靠性和可升级性。Wolfpack不能支持多种操作系统，而只能运行于Windows
NT操作系统上。由于WindowsNT操作系统本身在稳定性、大型并行计算上与UNIX系统存在较大差距，目前主要在中小型系统上应用。但是随着WindowsNT系统走向成熟，基于WindowsNT的计算机集群系统将获得更广泛的应用。
　　
　　九十年代末期，Linux操作系统不断走向成熟，它的健壮性不断增强，并且提供了GNU软件和标准化的PVM、MPI消息传递机制，最重要的是Linux在普通PC机上提供了对高性能网络的支持，这样就大大推动了基于Linux的集群系统的发展。
　　
　　Turbolinux公司推出了能够显著地提高基于TCP/IP协议的多种网络服务的服务质量的高可用性集群系统Turbocluster。Red
Hat也提供了基于Linux Virtual
Server思想构建的高可用性集群系统Piranha。由Ericsson软件工程研究中心开发的高可用性集群系统Eddie的主要目的是提供一个商业级的，能提供较好的服务质量的web服务器的解决方案。
　　
　　Platform公司开发的高可用性集群系统Lsf提供了分布式集群系统的解决方案，通过将物理上分离的多个集群连接在一起使使多个同构或异构的计算机能够通过局域网或广域网共享计算资源，并能够为用户提供对资源的透明访问。
　　
　　高性能集群系统MOSIX为Linux核心增添了集群计算的功能。在MOSIX集群环境中，用户无需对应用程序进行修改，或将应用程序与库连接起来，或将应用程序分配到不同的节点上运行。MOSIX会自动将这些工作透明地交给别的节点来执行。
　　
　　日本的F5公司开发出了高可用性集群BIG-IP，它是使用于本地网络站点或数据中心的高可用的、智能化的负载平衡产品，它提供了对网络流量的自动和智能的管理。与前几种集群系统不同的是，BIG-IP向用户提供的是一个即插即用设备，而其它的提供的都是软件方法。
　　
　　IBM、Microsoft和Intel于2000年7月联合发布了一种高可用性服务器集群软件及硬件包，这种服务器集群的配置包括32台IBM
Netfinity 8500R及Intel Pentium Ⅲ Xeon处理器，运行IBM的DB2 Universal Database和Microsoft
Windows 2000 Advanced
Server操作系统，每分钟可以执行440879次交易。这套系统面向数据密集的应用，特别是B2B、电子商务和企业资源规划领域。
　　
　　在科学计算领域中，人们开始把注意力投向通过普通PC机或工作站的集群来代替昂贵的超级计算机。比较成功的例子是高性能集群系统Beowulf，它最初是由NASA的Goddard
Flight
Center进行开发的，主要目的是支持大规模的科学计算问题，如地球和太空科学面临的一些计算问题。
　　
　　国内也有不少公司进行了集群系统的研究和开发工作。
　　
　　联想公司在1999年9月推出了用于分布式高性能计算的NS10000高性能集群服务器，该系统是一个四节点的系统，主要基于联想万全4500R服务器，以总体成本相对较低的设备组合，足以替代传统RISC小型机和中型机的工作，而价格仅为市场上同等性能小型机的1/2--1/4。
　　
　　朗新公司也推出了类似于Turbocluster的高可用性集群系统LongShine
Cluster
Server。
　　
　　1999年9月20日，中国第一家专业面向Linux高端应用市场的集群网络有限公司推出了国内首例Linux安全集群系统。它是国内第一个通过公安部认证的安全Linux系统，而其集群技术也已应用于诸多国际著名网站，如Linux的门户www.linux.com、英国国家JANET
Cache网、奥地利的入口站点和瑞士电信等。其核心代码也已被纳入美国Red Hat
Linux发布版的核心。
　　
　　中国自主开发研制的集群式高性能计算机集群系统"自强2000-SUHPCS"于2000年9月在上海大学问世。这一系统的峰值速度达到每秒3000亿次浮点操作。是当前中国国内集群式高性能计算机系统中速度最快的。
　　
　　
　　本文是《基于LINUX的集群系统》系列文章的第一篇。作者就集群系统这一概念进行了概述，介绍了集群系统的发展以及国内外主要的集群系统解决方案。
　　第一台计算机问世已经半个世纪了，在这期间计算机技术经历了五次更新换代。更新换代的标志主要有两个：一个是计算机的器件，另一个是系统体系结构。从第一代到第五代计算机，器件发生了根本的变化：从电子管、晶体管发展到集成电路，而集成电路又经小规模、中规模、大规模、非常大规模等阶段发展到超大规模阶段。系统体系结构的不断改进，许多重要的概念的不断提出并且得到实现，推动计算机技术向更高的层次发展。从早期的变址寄存器、通用寄存器、程序中断和I/O通道等概念，到虚拟存储器、Cache存储器、微程序设计、系列机、基于总线的多CPU系统、向量处理机等概念，发展到64位RISC处理器、基于MPP、NUMA、集群等体系结构的可伸缩并行处理系统，计算机系统技术也取得了突飞猛进的发展。
　　
　　将多台同构或异构的计算机连接起来协同完成特定的任务就构成了集群系统。早在二十世纪七八十年代，Digital
equipment公司和Tandem计算机公司就开始了集群系统的研究与开发工作。
　　
　　集群系统主要分为两种：
　　高可用性集群和高性能集群。
　　
　　高可用性集群的主要功能就是提供不间断的服务。有许多应用程序都必须一天二十四小时地不停运转，如所有的web服务器、工业控制器、ATM、远程通讯转接器、医学与军事监测仪以及股票处理机等。对这些应用程序而言，暂时的停机都会导致数据的丢失和灾难性的后果。
　　
　　高性能集群通过将多台机器连接起来同时处理复杂的计算问题。模拟星球附近的磁场、预测龙卷风的出现、定位石油资源的储藏地等情况都需要对大量的数据进行处理。传统的处理方法是使用超级计算机来完成计算工作，但是超级计算机的价格比较昂贵，而且可用性和可扩展性不够强，因此集群成为了高性能计算领域瞩目的焦点。
　　
　　集群系统采用的操作系统主要有VMS、UNIX、WindowsNT和Linux。
　　
　　美国DEC公司（Digital
Equipment
Corporation）开发的VMScluster系统开发最早，技术也很成熟，应用也很广泛，但由于VMS操作系统只能在DEC公司的VAX系列和Alpha系列服务器上运行，VMScluster的应用受到很大限制。
　　
　　UNIX是服务器或工作站上普遍使用的操作系统，它运行稳定、安全性也比较好，因此许多大的公司都采用了基于UNIX的集群系统解决方案，如DEC、HP、SUN、IBM、NCR和DG等公司，其中在国内影响比较大的主要是DEC、HP、SUN和IBM。其中DEC公司的Trucluster系统提供了由4台Digital
Alpha
Server组成的集群系统，它集高可靠性、高可用性和易管理性于一身，是关键业务计算机系统的理想解决方案。
　　
　　基于WindowsNT的集群系统解决方案厂商主要有Mircrosoft和DEC。Microsoft于1995年就开始了集群系统的开发工作。Windows
2000中已经增加了集群功能，该高可用性集群叫做WolfPack，也叫做Microsoft Cluster Server
(MCS)。它主要是在企业级对基于Windows
NT服务器的应用程序提供可用性和可升级性。WolfPack现在支持两个服务器，一个用来对用户提供服务，另一个作为备份服务器使用。Microsoft下一步的目标是将WolfPack支持的节点数扩展到16个。Wolfpack的缺陷在于：它只提供了两个节点的失败恢复功能，而没有采用复杂的应用程序资源管理功能，因此在一定程度上影响了系统的高可用性、高可靠性和可升级性。Wolfpack不能支持多种操作系统，而只能运行于Windows
NT操作系统上。由于WindowsNT操作系统本身在稳定性、大型并行计算上与UNIX系统存在较大差距，目前主要在中小型系统上应用。但是随着WindowsNT系统走向成熟，基于WindowsNT的计算机集群系统将获得更广泛的应用。
　　
　　九十年代末期，Linux操作系统不断走向成熟，它的健壮性不断增强，并且提供了GNU软件和标准化的PVM、MPI消息传递机制，最重要的是Linux在普通PC机上提供了对高性能网络的支持，这样就大大推动了基于Linux的集群系统的发展。
　　
　　Turbolinux公司推出了能够显著地提高基于TCP/IP协议的多种网络服务的服务质量的高可用性集群系统Turbocluster。Red
Hat也提供了基于Linux Virtual
Server思想构建的高可用性集群系统Piranha。由Ericsson软件工程研究中心开发的高可用性集群系统Eddie的主要目的是提供一个商业级的，能提供较好的服务质量的web服务器的解决方案。
　　
　　Platform公司开发的高可用性集群系统Lsf提供了分布式集群系统的解决方案，通过将物理上分离的多个集群连接在一起使使多个同构或异构的计算机能够通过局域网或广域网共享计算资源，并能够为用户提供对资源的透明访问。
　　
　　高性能集群系统MOSIX为Linux核心增添了集群计算的功能。在MOSIX集群环境中，用户无需对应用程序进行修改，或将应用程序与库连接起来，或将应用程序分配到不同的节点上运行。MOSIX会自动将这些工作透明地交给别的节点来执行。
　　
　　日本的F5公司开发出了高可用性集群BIG-IP，它是使用于本地网络站点或数据中心的高可用的、智能化的负载平衡产品，它提供了对网络流量的自动和智能的管理。与前几种集群系统不同的是，BIG-IP向用户提供的是一个即插即用设备，而其它的提供的都是软件方法。
　　
　　IBM、Microsoft和Intel于2000年7月联合发布了一种高可用性服务器集群软件及硬件包，这种服务器集群的配置包括32台IBM
Netfinity 8500R及Intel Pentium Ⅲ Xeon处理器，运行IBM的DB2 Universal Database和Microsoft
Windows 2000 Advanced
Server操作系统，每分钟可以执行440879次交易。这套系统面向数据密集的应用，特别是B2B、电子商务和企业资源规划领域。
　　
　　在科学计算领域中，人们开始把注意力投向通过普通PC机或工作站的集群来代替昂贵的超级计算机。比较成功的例子是高性能集群系统Beowulf，它最初是由NASA的Goddard
Flight
Center进行开发的，主要目的是支持大规模的科学计算问题，如地球和太空科学面临的一些计算问题。
　　
　　国内也有不少公司进行了集群系统的研究和开发工作。
　　
　　联想公司在1999年9月推出了用于分布式高性能计算的NS10000高性能集群服务器，该系统是一个四节点的系统，主要基于联想万全4500R服务器，以总体成本相对较低的设备组合，足以替代传统RISC小型机和中型机的工作，而价格仅为市场上同等性能小型机的1/2--1/4。
　　
　　朗新公司也推出了类似于Turbocluster的高可用性集群系统LongShine
Cluster
Server。
　　
　　1999年9月20日，中国第一家专业面向Linux高端应用市场的集群网络有限公司推出了国内首例Linux安全集群系统。它是国内第一个通过公安部认证的安全Linux系统，而其集群技术也已应用于诸多国际著名网站，如Linux的门户www.linux.com、英国国家JANET
Cache网、奥地利的入口站点和瑞士电信等。其核心代码也已被纳入美国Red Hat
Linux发布版的核心。
　　
　　中国自主开发研制的集群式高性能计算机集群系统"自强2000-SUHPCS"于2000年9月在上海大学问世。这一系统的峰值速度达到每秒3000亿次浮点操作。是当前中国国内集群式高性能计算机系统中速度最快的。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

wenhq

大富大贵

论坛徽章:: 16

14楼 [报告]

发表于 2013-11-06 20:14 来自手机 |只看该作者

send_linux 发表于 2013-11-06 18:02:04

他又不是老板，哈哈

呵呵。。。。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

fengzhanhai

家境小康

论坛徽章:: 10

15楼 [报告]

发表于 2013-11-07 09:55 |只看该作者

回复 12# reyleon 积累经验，寻求机会，把握机遇

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

guyeh

富足长乐

论坛徽章:: 17

16楼 [报告]

发表于 2013-11-07 13:48 |只看该作者

我们的业务运行环境主要在oracle+linux上，目前的高可用主要是oracle RAC居多，vertas\hacmp那些费用高，也有用ROSE做双机的，不过ROSE的windows版价格比较便宜，LINUX版就贵很多，比较郁闷。

)

集群技术可选的还是很多的，操作系统本身的、第三方软件的都有可选的方案，关键是投资了。ROSE总体来说价位还是可以接受的，在几个项目上接触过这个产品，不过这几个项目的数据量偏小，ROSE的整体表现还是不错的。

我们做教育行业的项目，牛气的用户直接IBM P+HACMP+oracle rac来做双机，还带上同城（或不同建筑物内）异地备份；资金少的用户还是单机环境。不过随着数据安全和可用性要求越来越高。教育行业的高可用性部署需求是越来越高了。目前ORACLE RAC还是挺多的。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

dengbao2001

腰缠万贯

论坛徽章:: 13

17楼 [报告]

发表于 2013-11-07 16:51 |只看该作者

1、说说贵企业IT集群高可用的部署方案以及后续的一些维护经验

高可用主要是从应用，系统，硬件等多个方面来考虑的

首先，系统方面，例如Windows 群集， Vmware的 HA， Redhat的群集，都是为了避免单机故障

应用方面来说，单个应用在其他服务器都有冗余的方案，有些应用程序，在别的服务器一开就行。 Web方面，采用了NLB，部署了多个NLB。

其次，为了避免硬件的单点故障，例如网卡，电源，FC Swith，HBA卡，FC链路，都是冗余的。

不过有点没做到的后端的存储的HA，存储还是存在单点故障

2、整体的企业IT基础设施的高可用，有什么比较好的方案可以推荐？

因为是传统的制造业，所以开源的方案用的比较少。我们还是采用商业化的解决方案

Windows和Linux的群集， Vmware的HA方案，

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

蛛蛛281306

家境小康

论坛徽章:: 2

18楼 [报告]

发表于 2013-11-08 18:21 |只看该作者

我们企业内部的高可用部署方案仍然处在一个我认为是比较初级的水平，核心系统都是HA，比如IBM小型机，就是AIX+HACMP，PCServer就是Linux+RHCS或Windows+MSCS，使用的都是操作系统厂商提供的HA解决方案，这样的好处是成本节省，劣势就是要掌握的技术太多，维护起来麻烦。当然也有一些互联网类的业务，采用的是硬件和软件层面的集群模式，比如采用F5在前端做负载均衡，或者利用中间件的IHS做负载分发，从而起到集群作业的效果，这样的好处就是维护起来相对简便，停机窗口也比较好协调，但是软件层面的分发器如果出了问题，整个集群就会受影响，也难免被动。
我们也曾经考虑过将公司内部的集群部署方案统一梳理，采用一套整体的解决方案来进行实施，比如Symantec的Veritas产品，但结果由从成本方面考虑，最后忍痛放弃。
整体的企业IT基础设施高可用，这个内容涵盖的就多了。
我们从上往下捋。
·应用软件层面，要有严格的测试和质量QA流程和工具，确保bug在上线之初就被发现，降低系统故障率，提升可用性；
·数据库层面，在线库采用集群技术，如RAC或DPF技术，做到无单点。同时，数据库及log备份要有合理的策略，归档日志的保持要及时。
·中间件层面，利用IHS等做负载分发，提升集群健壮性，同时IHS本身也要做HA；
·OS层面，要利用HA软件，做好双机甚至是多机的HA，硬盘要做mirror，LVM下每个lv要有两份copy；
·硬件层面，做好设备的硬件冗余和备件冗余，F5要有active，也要有standby，交换机要至少两台做互联互通，网卡要做绑定，HBA卡要分别接至不同的光纤交换机；
·存储层面，最好能做到存储数据级别的容灾，甚至存储双活，如果做不到，也要考虑快照和克隆，保证生产数据的快速恢复；
·基础设施，双活数据中心、容灾，两地甚至多地三中心或者多中心等就要提上日程。
当然，这些都是需要从公司整体策略层面给予评估，综合考虑成本和风险，慎重考虑，从而得出结论的。
完美的方案永远都只存在于纸面上，实际执行中，要一步一步走，适合自身现状和水平的高可用方案才是最好的方案。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

郑渝蓬

白手起家

论坛徽章:: 0

19楼 [报告]

发表于 2013-11-11 11:23 |只看该作者

本帖最后由郑渝蓬于 2013-11-11 11:24 编辑

回复 16# guyeh

Rose高可用集群和容灾方案，不仅可对常见数据库（Oracle、MSSQL、Sybase等）做容灾保护，也适用于各种不同的业务系统。
本地容灾，同城容灾/异地容灾的互补结合，最大化保护用户的业务系统连续运营和数据安全。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

郑渝蓬

白手起家

论坛徽章:: 0

20楼 [报告]

发表于 2013-11-11 11:31 |只看该作者

回复 17# dengbao2001

"不过有点没做到的后端的存储的HA，存储还是存在单点故障"

后端存储的冗余，我们可以考虑“双机双柜”解决方案，详细介绍请查看以下链接：
http://www.rosedata.com/index.ph ... =lists&catid=88

Rose在高可用集群及容灾方面，相对来说经验较为丰富，可以提供较为完整的高可用和容灾解决方案。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

123 4 5 / 5 页下一页

返回列表

Chinaunix › 论坛 › IT运维 › 集群和高可用 › 企业IT系统高可用和备份--从单点到整体部署后的思考（获 ...

企业IT系统高可用和备份--从单点到整体部署后的思考（获奖名单已公布-2013-12-4） [复制链接]

浏览过的版块