免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1154 | 回复: 0
打印 上一主题 下一主题

[集群与高可用] AbeStore双机容错系统技术白皮书 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2006-06-03 21:47 |只看该作者 |倒序浏览

一、    业应用概述
随着计算机系统的日益庞大,应用的增多,客户要求计算机网络系统具有高可靠,高可用性,而网络系统是否能够可靠、高速、稳定的运行取决于网络的心脏——服务器是否有最佳的容错,备份手段,已经成为一个日渐突出的问题。
根据相关机构的调查表明,在服务器的硬件中,最容易发生故障的仍然是可动的机械部分即硬盘(故障发生率为52%),其次是内存(占23%)和电源(占6%),三者之和约占硬件故障的80%以上。但是,在目前的服务器中,对硬盘,内存,电源所实行的基本可靠性措施可以说已经相当完备。中档以上服务器可以利用标准件或可选件来配置磁盘控制器和冗余电源。所用的机器中都配置了高可靠性的ECC内存,基本上消除了由典型故障所造成的停机事故。在软件故障中,WINDOWS NT 的事故约占60%,由应用引起的故障约占40%。
双机热备份技术是解决由软件(或硬件)引起可靠性降低的有效措施。
双机技术是用网络将两台服务器连接起来,当一台服务器停机时,双机中的另一台服务器在保证自身业务的基础上,将停机服务器的业务接管。

二. AbeStore HA Software 产品概述
AbeStore HA 是一个高可用双机软件包,目前支持的操作系统为Windows2000 、Windows2003、Linux、SCO OpenServer/UnixWare7 等环境。
在该系统中,每台主机运行各自的应用系统,用户数据存放在共享存储子系统上。AbeStore HA 双机软件的守护进程通过EtherNet 监测整个双机的运行状态。由PC服务器、共享磁盘阵列子系统和AbeStore HA 双机软件包组成一个有效的高可用双机系统。

三、AbeStore HA 双机软件功能特性
资源管理是指对双机系统定义的关键资源进行管理维护,目前AbeStore HA 双机软件可以实现对应用程序、服务及其存储设备进行管理,当该定义的资源出现故障时,AbeStore HA 双机系统根据故障的级别自动将任务移交到备援节点,保障应用不间断运行。
AbeStore HA 双机软件控制台:

3.1 进程/服务监控
AbeStore HA 双机软件针对双机中定义的服务资源进行监控,通过获取该进程、服务的系统运行状态,分析当前进程、服务是否正常,当进程、服务出现故障时,则将当前的任务移交到备份服务器上,保障业务的正常运行,对于进程/服务的故障,则通过声音、邮件方式向管理员报告。提醒管理员检查、分析系统日志,排除造成业务系统进程、服务故障的原因。

3.2 双机心跳监控方式
AbeStore HA 通过专用网络和用户网络链路进行双机通讯,当专用网络出现故障的情况下,网络心跳信息自动转移到用户网络链路上。通过该方式保障双机之间的正常通讯,从而当心跳专用网络出现故障时,不会引起整个双机状态的改变。
当用户网络出现故障时,AbeStore HA 双机软件根据当前故障节点的角色,对双机状态进行重组,当故障节点为主机时,则需要对整个双机状态进行重组,将任务移交到备份服务器上,当故障节点为备份服务器时,则双机状态不会改变。监控客户端会通过声音、邮件方式向管理员进行报警。
采用共享磁盘分区做为双机的心跳链路,有两方面作用,一方面在极端情况下去判断、监控对方的状态。另外一方面则可以监控整个存储链路是否安全,AbeStore HA 双机软件定期对双机心跳磁盘分区进行信息传递,用来判断双机状态和存储设备状态。当存储链路出现故障时,AbeStore HA 双机软件根据所获取当前故障节点的角色对双机状态调整。保障业务系统的不间断运行。
AbeStore HA 双机软件采用三种链路互锁方式,保障整个双机的稳定、可靠,防止出现双机错误切换等。

3.3 网络服务检测
AbeStore HA 双机软件实时监控整个双机的网络状态,分析、判断每个网络设备的运行状态。并针对网络中出现的故障进行相应的处理,包括对双机的工作状态进行调整,和对任务进行移交。根据硬件要求,可以针对部分网卡实现冗余模式,保障整个网络系统的稳定性。

3.4 双机配置工具
采用客户端模式开发的双机管理配置工具,通过C/S 工具对双机系统进行配置、管理等操作。客户端工具具有以下功能:
◎ 对双机系统进行配置
◎ 对双机任务进行配置、修改。
◎ 以图形界面实时监控双机的运行状态
◎ 设置e-mail、声音等报警模式。

3.5 双机软件特点
支持远程管理模式:
AbeStore HA 双机软件采用流行的C/S方式,对双机进行管理、维护及其监控等操作,不需要在服务器上进行操作。客户端通过直观的图形方式对双机的整个状态进行实时监控。当双机有故障时,客户端通过声音、邮件方式进行报警处理。并在双机的监控窗口显示故障点的位置。
配置管理简单、有效:
图形化的配置管理界面,对双机文件系统配置、网络配置以及任务的配置方式均通过选择方式进行,操作简单易用。
对所配置的资源进行强制的隐性安全限制,其顺序为有效配置的磁盘文件系统、IP资源、任务资源等,任何一个环节出现故障时,均会导致双机系统的任务转移。
支持多种存储设备:
双机软件采用系统级的硬件处理,与硬件无关性,只要操作系统支持的硬件、AbeStore HA 双机软件均可以支持;支持目前流行的SAN架构的光纤磁盘阵列子系统和SCSI结构的磁盘阵列子系统。
支持多种应用系统:
支持目前流行的数据库系统,如Oracle、Sybase、MS SQLServer、DB2等
支持应用系统:Microsoft IIS等应用系统。
支持群件系统:IBM Notes等。
支持多语种:
该软件引入多语种引擎支持,可以定制各种语言版本。该软件目前支持中、英文双语言。
提供完善的在线帮助:
在使用该软件过程中,可以按F1键获取详尽的全中文在线帮助,通过图解,详细讲解配置步骤和操作流程。系统中的错误和警告都提供唯一的代码,用户根据错误代码,可以在帮助中找到错误可能存在的原因以及解决的办法。
提供详尽的日志记录:
该软件的双机引擎详尽记录了网络、存储、软件的工作状况,便于分析各类故障原因。在监控端,同样记录了双机的工作情况。
软件定制:
AbeStore HA 双机软件可以针对ISV开发的各种应用软件实现无缝定制,提供给开发商开发API嵌入到应用系统中,实现由应用系统控制双机系统或双机监控该业务程序,从而实现程序系统的高可用性。

3.6 支持环境
3.6.1 硬件环境
支持基于Intel架构的PC服务器、工作站等环境;
支持基于SCSI结构的磁盘阵列子系统;
支持基于SAN架构的光纤磁盘阵列子系统。
3.6.2 软件环境
支持Windows2000、Windows2003操作系统;
支持Oracle、SQL Server等各种数据库环境。
3.6.3 网络协议
支持TCP/IP 网络协议

四、AbeStore HA 双机软件工作模式
4.1 运行节点定义
生产节点:
在双机系统工作时,对外提供服务的服务器称之为生产节点,该节点为任务的第一个有效节点,提供客户端所需要的一切服务。
备援节点:
在双机系统中,当生产节点形成后,自动进入监控的节点称为备援节点,该节点为任务的第二个有效节点,当生产主机出现故障时,接管主机的任务,并接替故障主机对外提供服务。
工作状态:
双机对外正式提供服务的状态称之为工作状态。同时也是双机正常运行的状态。
备援状态:
备援节点对生产节点进行监控、并等待双机调度的状态称为备援状态。
开机状态:
服务器引导就绪后,双机服务还没有提供服务的状态称为开机状态,在AbeStore HA 双机软件监控中显示为蓝色屏幕。

4.2 高可用工作模式
4.2.1 双机热备方式-主从方式
简单双机双机是目前大多用户采用的高可用环境,简单的说就是两台服务器加一台磁盘阵列,通过AbeStore HA 双机软件实现主从工作方式的双机环境。
(AbeStore HA 双机热备方式-主从方式图例)

4.2.2 双机互备方式-对等方式
对等双机就是我们通常说的双主机工作方式,这个环境下,有两套不同的应用运行在双机环境中,每台服务器运行各自的应用,在其中一台出现故障时,另外服务器将接管其服务。
(AbeStore Ha 双机互备方式-对等方式图例)

五、AbeStore HA 双机软件系统结构
AbeStore HA 双机软件采用结构化设计,系统结构简图如下:
在AbeStore HA 双机双机软件中,采用严谨的结构化设计,模块和功能可以以模块方式进行堆叠,实现双机功能的灵活增加和定制。
AsMgrl 模块:实现双机系统的C/S 客户端配置管理工具,通过该模
块实现对双机系统的远程配置、管理及维护等功能。
Daemon 模块:双机状态的管理模块,负责检测双机的工作状态,以及对故障状态进行双机调整。
St-Task 模块:双机功能的执行模块,负责执行Daemon 模块发出的双机调整状态命令等。
5.1 AbeStore HA 双机管理/控制摸块
AbeStore HA 双机软件的管理/控制模块主要完成以下功能:
AbeStore HA 对双机状态的检测
在双机中实时监控自身节点的状态,同时监控对方节点的双机资源状态,保障在任何时候均能得到自己和对方节点的状态,防止双机出现错误判断。
AbeStore HA 对失效节点进行处理
对定义在双机中的有效节点,当发生故障时,Daemon 模块需要对该故障节点进行处理。当该节点为备份节点时,则对任务进行禁止转移处理。如故障节点为生产节点时,则根据当前的状态,由有效的备份节点对任务进行接管,保障业务系统不间断运行。
AbeStore HA 对失效任务进行处理
失效的任务形成有以下几个因素,存储设备链路故障、关键任务意外丢失、网络故障以及服务器及其操作系统故障。针对失效的任务,AbeStore HA Software 双机软件根据当前节点的角色进行相应的双机状态调整,保障整个业务系统健壮运行。
AbeStore HA 对双机状态进行调整
AbeStore HA 双机系统根据实时采集的双机状态信息,对当前运行的节点进行状态上的调整,如心跳链路的改变、双机任务的转移、报警等处理。
5.2 AbeStore HA 双机执行摸块
AbeStore HA 双机系统的执行模块根据Daemon 模块发出的操作、执行命令主要完成以下功能:
5.2.1 AbeStore HA 对双机卷资进行控制
在AbeStore HA 双机系统运行过程中,对定义在双机系统中的共享磁盘文件系统进行必要的控制。
◎ 在生产主机时,需要对共享的磁盘文件系统进行解锁操作,使生产服务器对双机文件系统进行读写操作。
◎ 在备份节点上对共享的磁盘文件系统进行加锁锁定,防止备份服务器对双机文件系统的读写操作。保障数据安全。
◎ 在进行任务移交的过程中,对文件系统进行同步处理,保持文件及其记录的一致性。
5.2.2 AbeStore HA 对双机网络源进行控制
在AbeStore HA 双机系统运行过程中,对定义在双机系统中的网络资源进行调整和控制。
根据当前节点的角色,对网络资源进行不同的操作:
当节点为生产主机时,对网络添加双机虚拟IP、为客户端提供服务的虚拟地址。当任务进行转移或主机故障时,则对网络进行进行删除双机虚拟IP 的操作,由备份服务器对任务进行接管。当AbeStore HA 双机软件正常运行时,执行模块根据Daemon 的要求,对网络状态进行实时检测,并返回检查结果。
5.2.3 AbeStore HA 对双机服务进行控制
在AbeStore HA 双机系统中,对定义的服务进行状态监控,当服务状态处于故障时,则对任务进行移交。保障任务的健壮运行。防止出现因服务故障导致整个应用系统不可用状态。
5.2.4 AbeStore HA 对用户进程进行控制
在AbeStore HA 双机系统中,用户可以灵活定义自己开发的应用系统,使应用系统在双机系统中受到保护,当定义的应用程序出现故障后,AbeStore HA 双机系统自动将任务转移到备份服务器上,保障业务系统不间断运行。根据用户需求,可以开放AbeStore HA 双机软件的API 接口,使应用系统和双机系统紧密结合起来,实现真正的高可用系统。


六、AbeStore HA 双机软件软件工作过程
AbeStore HA 双机系统软件是由ASMgrl、Daemon 和St-Task 三部分组成,这三部分协同工作,共同完成主机系统的备援工作。
AbeStore HA 软件在启动时,首先读取双机系统的配置文件,在该文件中描述双机系统中各节点的网络信息,硬件描述以及任务的定义等参数。
双机核心程序根据双机的配置信息,进行双机系统的状态重组。根据当前的网络状态和双机参数,对节点中的服务器进行调整,建立双机的初始状态。
在节点初始状态建立起来后,Daemon 管理模块根据执行模块采集传递的当前网络状态的信息。根据定义的规则,对双机进行调整并分配双机网络资源,使双机中的某个节点获得对外提供网络服务的资源。
当生产节点形成后,同时启动节点监控功能,对双机中的节点进行网络状态监控,保持网络状态的健康。
双机任务启动后,该模块启动任务监控功能,对所启动任务的关键进程进行监控。保障对外提供服务的资源健康。
当以上资源建立起来后,双机系统进入正常运行状态。
AbeStore HA 高可用双机系统进入正常运行状态后,通过专用的通讯链路和双机中的其它节点进行通讯,传输各节点的状态信息,使各节点的核心管理模块获得整个双机节点的实时状态。
当系统中有节点故障时,双机管理模块根据双机当前的状态和该故障节点在双机中的角色做出双机系统是否重组。当该节点为生产机时,双机系统会自动将属于该节点的资源和任务移交到备份服务器上。保证该业务正常运行。
如果该节点为备份服务器,AbeStore HA 双机软件对系统管理员提出报警后,将任务的移交进行封锁,该任务当前处于不可移交状态,直到备份服务器故障修复处理后,重新进入双机系统后,AbeStore HA 双机软件管理模块检查到该故障修复后,对当前的任务进行解锁操作。备份服务器在生产机出现故障的情况下,对任务及其资源进行接管。



本文来自ChinaUnix博客,如果查看原文请点:http://blog.chinaunix.net/u/20196/showart_122744.html
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP