论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2006-03-28 17:35 |只看该作者 |倒序浏览

第一章介绍
本章内容包括对IBM针对AIX产品线的高可用性集群多处理系统的介绍以及IBM高可用产品的概念
本章将讨论以下主题：
 什么是HACMP？
 历史与发展
 高可用性的概念
 高可用性Vs容错
1.1. 什么是HACMP？
在我们解释什么是HACMP以前，我们先来定义一下高可用性的概念。
High availability
在当今复杂的环境下，成功实现IT应用的一个关键要素就是提供不间断的应用服务。HA就是这样一个可以通过消除计划内/计划外宕机事件从而向客户应用提供不间断服务的部件，它能达到消除从硬件到软件的单点故障（SPOFs）。
一个高可用性解决方案可以保证方案中任何组件的失效（包括硬件、软件或系统管理）都不会造成客户无法访问应用和应用数据。
高可用性解决方案可以通过恰当的设计、计划、硬件选择、软件配置以及细心控制改变管理方法来消除单点故障。
Downtime
停机时间是指应用程序不能为客户端提供服务的时间。停机时间分为：
 计划内：
- 硬件升级
- 维修
- 软件更新/升级
- 备份（离线备份）
- 测试（对群集确认必须进行周期性测试）
- 发展
 计划外：
- 管理员过失
- 应用失效
- 硬件失效
- 其他不可抗力（天灾）
IBM针对AIX的高可用性解决方案——HACMP给予饱经考验的IBM群集技术，它包括以下两个组件：
 高可用性：该进程保证应用在用户复制和/或共享资源时是可用的。
 群集多处理：该进程提供在同一节点上多个应用共享或并发访问数据。
基于HACMP的高可用性解决方案提供自动失效检测、诊断、应用恢复和节点重新控制。在恰当的应用中，HACMP还可以在并行应用处理中提供对数据的并发访问，从而提供更高的可扩展性。
标准的HACMP环境如图1-1。

1.1.1. 历史与发展
IBM HACMP最早可追溯至90年代。HACMP在1990年开始为RS/6000机器上的应用提供高可用性解决方案。
我们不会提供关于更早版本的信息，原因在于这些版本要么已经不被支持或者已经不再使用，我们只提供近期一些版本的相关信息。
HACMP V4.2.2
较早版本，引入了基于RSCT（Reliable Scalable Clustering Technology）技术的增强的可扩展版本，组、事件管理服务都从并行系统支持（PSSP）中引入。
HACMP V4.3.X
该版本引入了更多的支持，包括32节点、增强的C-SPOC、ATM网络、HACMP 任务指南（图形化的HACMP简单配置）、多脚本（安装前、后）、FDDI MAC地址接管、监视和管理增强、节点到节点的迁移以及AIX快速连接支持。
HACMP V4.4.X
该版本中增加了Tivoli集成、应用监视、无退却层叠、增强的C-SPOC、改良的迁移支持、集成HA-NFS功能和软件副本文档（pdf或者doc）。
HACMP V4.5
在线这个版本中要求AIX5L以上，自动配置发现特性、在每个网卡上的多服务标签支持（通过ip aliasing），固定IP地址、64位应用支持、监视和恢复丢失的VG quorum。
HACMP V5.1
该版本在配置简单化和性能增强方面都有了重大改变，V5.1的主要特性如下：
 SMIT标准和扩展配置路径
 自动配置发现
 定制资源组
 非IP网络基于通过磁盘的心跳
 快速磁盘接管
 心跳通过IP aliases
 HAS不再保留，现在只有基于IBM RSCT的HACMP/ES
 通过使用群集通讯进程提高了安全性（消除了使用AIX r命令，也消除了对/.rhosts文件的依赖）
 为群集的定制和同步提高了性能
 标准化HACMP术语
 简单化配置和维护
 增强的在线计划工作表
 强制要求varyon VG
 自定义资源组
 接管节点上服务IP/标签心跳监视
 心跳通过IP别名
 心跳通过磁盘
 不同的C-SPOC增强
 GPFS集成
 快速接管
 群集确认增强
 改良的资源组管理
HACMP V5.2
从2004年7月开始，新的HACMP V5.2在管理、配置简单化、自动化和性能方面增加了不少内容：
 2-节点配置助手，可以通过SMIT菜单或者Java™接口
 文件收集
 用户密码管理
 Classic资源组不再使用，取而代之的是自定义资源组
 自动测试进程
 自动群集校验
 增强的OLPW可以导出已存在的HACMP群集的配置
 事件管理被资源监视和AIX的一个控制子系统（RMC）所取代
 增强的安全性
 资源组依赖关系
 自复原群集
注意：本书出版时HACMP V5.1和V5.2都已出现，但认证考试仅包括V5.1的主题
1.1.2. 高可用性的概念
需要保护什么？从根本上讲，在一个关键环境中IT方案就是要提供连续的服务和数据保护！HA就是完成不间断服务这一目标的。高可用性基于硬件的可用性和软件（操作系统及其组件）、应用程序和网络组件的可用性。
实现一个高可用性解决方案，你需要：
 冗余服务器
 冗余网络
 冗余网络接口卡
 监视
 故障检测
 故障诊断
 自动接管
 自动重新控制
实现HACMP的主要目标就是消除单点故障。
1.1.3. 高可用性Vs容错
系统发现和处理软硬件故障可以定义为两种：
 容错系统
 高可用性系统
容错系统
它是提供冗余的设计为不间断操作而不管故障的发生（除非天灾造成整个站点瘫痪）。在这样的系统中，所有的组件都是双份的（不管是硬件还是软件），CPU、内存、磁盘都有特殊的设计来提供不间断服务，甚至于一个子系统失效。
这样的系统是非常昂贵和非常专业的。实现一个冗余系统需要大量的努力和对所有组件的高度定制。只有在要求0宕机的环境下，容错系统设备和方案才有需求。
高可用性系统
配置为高可用性的系统是一组软件、硬件的组合可以保证系统失效后可以在可接受的宕机时间内恢复。在这种系统中，软件负责监测到环境故障后将应用交给另一个机器实现队员机器的接管。因此，在这种环境下重要的是消除SPOF。例如，如果及其只有一个网络连接，就需要提供第二块网卡以备主网卡失效后接管。另一点就是通过将数据放在所有节点都可以访问的共享磁盘上并实现镜像。
HACMP软件提供一个框架以及一系列的工具来将应用程序集成到一个高可用性系统中。应用系统被集成到HACMP群集中需要公正的定制（非应用级别，而是HACMP和AIX平台级别）。
HACMP是一个灵活的平台，它允许集成AIX平台的大多应用，在一个合理的代价下实现高可用性系统。
1.1.4. 高可用性解决方案
高可用性解决方案优点如下：
 标准化的组件
 可以在已有的硬件上实现
 可以和大多应用协同工作
 支持大多数磁盘和网络类型
 合理的价格实现优秀的可用性
IBM针对p系列服务器的高可用性解决方案有些独特的优点。这些优点包括：
 Proven解决方案（长达14年的产品发展）
 灵活性（事实上在单机AIX上运行的应用在HACMP中都被保护）
 使用原来的硬件组件
 Proven客户支持
考虑提供高可用性解决方案包括：
 详尽的设计和计划
 消除单点故障
 选择适当的硬件
 正确执行（没有捷径）
 严格的系统管理练习
 文档化操作步骤
 全面测试
1.2. HACMP的概念
HACMP的基本概念可以作如下分类：
 群集拓扑
包含基本的群集组件——节点、网络、通讯接口、通讯设备、通讯适配器。
 群集资源
被设为高可用性的实体（例如文件系统、裸设备、服务IP标签、应用等）。所有资源被组织成资源组（RG），HACMP保持唯一实体——资源组——的高可用性。资源组可以被一个节点访问或者在并发应用中同时有多个节点访问。
 Fallover
在活动节点出现故障时，将资源组从活动节点转移到备份节点的动作。
 Fallback
原来的活动节点恢复时，将资源组切换回原节点的动作。这是将失效节点重新集成到集群的标准动作。
1.2.1. HACMP术语
要理解HACMP的正确功能并利用它，就必须知道一些术语：
 群集
为共享资源和相互通讯而通过网络连接在一起的独立主机（节点）或者LPARs称为群集。HACMP负责定义在协同的系统中那个节点提供服务那个节点不提供服务。所有节点共同负责维护应用的功能可用（在群集节点失效时）。
 节点
在群集中的所有运行AIX和HACMP软件的IBM p系列服务器（或者LPAR）都是节点。每个节点都有一个资源集（磁盘、文件系统、IP地址、应用）在该节点失效时可以被群集中其他节点接管。
 资源
资源是在群集配置中可以从一个节点转移到其他节点的逻辑组件。所有必须提供高可用性应用的资源被构成资源组（RG）。当节点失效时，资源组中的组件被一同从一个节点移动到另一个节点。一个群集可以有多个RG，从而提供节点的效率（也就是HACMP中的Multi-Processing）。
 接管
在群集内部节点之间传送资源的操作称为接管。如果一个节点发生硬件故障或AIX故障，它的资源应用会被移到另一个节点。
 客户
客户就是可以通过局域网访问群集节点应用的一个系统。客户通过运行客户端程序连接到应用所在的服务器上。
1.3. HACMP/XD
AIX下的HACMP是基于软件实现解决连续操作的问题。它致力于恢复计算机、适配器、以及单一站点的网络故障。标准HAGEO如图1-2。

要实现异地容灾应用，还需要有附加的软件。HAGEO提供：
在不同的地理站点间实现群集
HAGEO将HACMP扩展到两地的数据中心，它在站点级别防止了群集单点故障。远程镜像提供给每个站点一个关键数据的拷贝。异地容灾的每个站点都可以不间断地运行关键应用即使一个站点发生天灾。
自动失效监测和通告
HAGEO通过HACMP提供自动监测站点或者地理网络失效。它可以发起恢复进程并向系统管理员报告他所发现的错误，同时接管相应应用。
自动Fallover
HAGEO包含时间脚本来恢复站点会地理网络故障。这些脚本都集成在标准的HACMP时间脚本中。和HACMP中一样，你可以通过添加脚本来自定义配置行为。
灾难快速恢复
HAGEO同样在可操作站点间提供快速恢复数据和应用。远程镜像进程确保当天灾降临时数据在第二个站点始终可用。恢复时间一般需要数分钟即可，这还不包括应用恢复的时间。
站点恢复时自动重新同步数据
HAGEO用来重新在每个站点间同步的进程是站点恢复进程的一部分。重建站点的节点会自动更新站点失效期间接受的数据。
可靠的数据完整性和一致性
HAGEIO的地理镜像和地理消息组件确保如果站点失效，存活的站点的数据和失效站点的数据的一致性。当失效站点重新加入群集时，HAGEO从可操作站点更新数据以确保数据的一致性。
灵活的、可升级的配置
HAGEO软件支持大范围的配置，允许按你的需求配置一个灾难恢复解决方案。在一个HAGEO群集中最多可以有8个节点，每个站点的节点数目可以灵活配置。既然远程镜像和他所支持的磁盘设备一样是独立的，HAGEO也是独立于文件系统和数据库的。因为镜像是透明的，使用远程镜像的应用不需要做任何的改变。
1.3.1. HAGEO/XD：HAGEO componets
本软件有三大重要功能：
 地理镜像（远程镜像）：
数据通过第一个站点进入第二个站点的镜像过程有一个逻辑设备和一个伪设备驱动。TCP/IP被用作数据镜像的传送器。地理镜像可以使用同步或异步模式，这取决于站点间的通讯带宽以及应用的传输量（取决于数据的变化量）。
 地理信息：
在两个站点间使用地理镜像传输数据时提供可靠的数据和消息。
 地理拓扑：
在整个站点发生灾难时提供集成化的地理镜像工具和HACMP工具提供的故障自动监测和恢复。
 灾难恢复：
当一个站点发生故障时，其他存活站点的节点上的群集管理器会立刻监测到这一事件并切换脚色以保持地理镜像应用的可用性。同样，如果构成群集的主干网络故障，站点中的群集管理器处于无人控制状态，那么群集管理器就会使自己宕机以确保数据不会有分歧。
1.3.2. HACMP/XD：HAGEO的基本配置
可以配置HAGEO为HACMP支持的任何配置：包括备用、单方面接管、互相接管以及并发访问配置。
 备用配置
备用配置是传统的硬件冗余配置，只有当一个节点失效时其他节点才会启用。在HAGEO中，这就转化为有一个空闲站点。当然，它不可能完全空闲（要处理地理镜像进程）。但是在这个站点的节点不会执行应用。
 接管配置：
在接管配置中所有节点都处理应用；不存在空闲站点。它包含：
- 站点内（本地）接管；
- 远程单向接管；
- 远程双向接管。
 并发配置：
在并发访问配置中，一个站点的所有节点对并发卷组进行同时访问并拥有相同的磁盘资源，另外的站点也是同样的配置。如果一个节点离开站点，资源的可用性不受影响，因为其他节点会将卷组varyon起来。如果一个站点故障，其他站点将向失效站点提供并发访问一个并发访问可以从群集中任何一个节点访问。HACMP 群集Lock Manager必须运行在群集的所有节点上。包括跨地理环境的节点，并非所有的数据库都可以并发访问。
1.3.3. HACMP/XD PPRC 集成特性
这一特性最初在HACMP V4.5 PTF5和HACMP V5.1中引入，它提供自动远程站点fallove和自动远程拷贝应用数据，应用于所有站点使用IBM ESS和PPRC（Peer to Peer Remote Copy）功能提供存储卷镜像。
当主站点失效后，数据在第二站点依然可用（通过PPRC同步）。第二个站点必须激活数据拷贝以用来处理交易。
HACMP/XD PPRC集成特性提供自动数据分割拷贝以保证主站点失效后重新在线时的可用性。更多信息请参阅SA22-7955。

1-1.JPG (23.45 KB, 下载次数: 161)