免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3031 | 回复: 0
打印 上一主题 下一主题

某发电厂双机热备系统解决方案(1) [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2010-05-05 23:58 |只看该作者 |倒序浏览
一、前言\r\n随着信息技术的不断发展,近年来在世界范围内掀起了兴建网络环境、传播数据信息的热潮。随着计算机存储信息量的不断增长,系统高可用性、数据安全、数据存储备份和灾难恢复就成为引人关注的话题。\r\n\r\n企 业最为宝贵的财富就是数据,要保证企业业务持续的运作和成功,就要保护基于计算机的信息。人为的错误、硬盘的损毁、电脑病毒、自然灾难等等都有可能造成数 据的丢失,给企业造成无可估量的损失。这时,最关键的问题就在于如何提高系统的高可用性,如何保护企业的重要数据,如何尽快恢复计算机系统,使其能正常运 行。\r\n\r\n高可用性HA(High Availability)指的是通过尽量缩短因日常维护操作(计划)和突发的系统崩溃(非计划)所导致的 停机时间,以提高系统和应用的可用性。HA系统是目前企业防止核心计算机系统因故障停机的最有效手段,而双机容错技术则是实现系统高可用性的一种方式。\r\n\r\n    由 于数据存储备份所占有的重要地位,它已经成为计算机领域里相对独立的分支领域。一般来说,各种操作系统所附带的存储备份程序都有着这样或那样的缺陷,所以 若想对数据进行可靠的存储备份,必须选择专门的存储备份软件、硬件,并制定相应的存储备份及恢复方案。在发达国家,几乎每一个网络都会配置专用的外部存储 设备,而这些设备也确实在不少灾难性的数据丢失事故中发挥了扭转乾坤的作用。计算机界往往会用服务器和数据存储备份设备(如磁盘阵列、磁带机)的连接率, 即一百台服务器中有多少配置了数据存储备份设备,来做为评价数据存储备份普及程度和对网络数据安全程度的一个重要衡量指标。如果每一台服务器或每一个局域 网络都配置了数据存储备份设备以及相应的存储备份软件,那么无论网络硬件还是软件出了问题,都能够很轻松地恢复。\r\n\r\n本方案正是经过了对软、硬件产品的综合考察,对各种双机系统和存储备份方案的深入分析而提出的。我们力图向某发电厂提供安全、可靠的双机系统,智能化、完备的、易管理的数据存储备份环境,从而为整个某发电厂数据保护系统的建设尽绵薄之力。\r\n \r\n二、高可用性系统简介:\r\n\r\n对 现代企业来说,利用计算机系统来提供及时可靠的信息和服务是必不可少的;另一方面,计算机硬件与软件都不可避免地会发生故障,这些故障有可能给企业带来极 大的损失,甚至整个服务的终止,网络的瘫痪。可见,对一些特别的企业或公司,系统的高可用性显得更为重要。因此,必须有适当的措施来确保计算机系统提供不 间断的服务,以维护系统的可用性。\r\n\r\n信息系统的可用性通常在两种情况下会受到影响,一种是系统宕机、错误操作和管理引起的异常失败,另一种是由于系统维护和升级,需要安装新的硬件或软件而需关机引起的系统中断。高可靠性软件必须为这两种情况提供不间断的系统服务。\r\n\r\n2.1系统高可用性基本类型\r\n\r\n通常可用性系统(Normal) \r\n通常可用性系统没有容错功能,也没有特殊的软件来作错误处理,系统的错误检查和恢复完全依靠系统管理员来完成。\r\n\r\n高可用性系统(High  Availability) \r\n高可用性系统是在冗余的通常可用性系统基础之上,运行高可靠性软件而构成。高可靠性软件用于自动检测系统的运行状态,在一台服务器出现硬件或软件故障的情况下,自动地切换到另一台服务器上。\r\n\r\n集群容错系统(Cluster System) \r\n    集群容错系统是由高可靠性、高安全性的多机系统组成。错误处理能力是计算机硬件和操作系统本身提供。一般的应用软件也需要修改后方能在集群容错系统上面运行。\r\n\r\n2.2系统高可用性基本功能\r\n\r\n硬件故障的监测与报警\r\n \r\n高可用性软件必须能够自动监测计算机系统中的相关硬件部件的使用状况,当硬件故障发生时可以及时快速的通过有关手段给高可用性系统报警,根据故障情况决定处理方法,并且将故障情况写入到有关系统日志中,以备过后分析。\r\n例如,公用网是对外提供服务的,在UNIX上就可以使用两块网卡实现公用网网卡级的容错,正在使用着的公用网网卡出现故障,高可用性软件可以切换到备用网卡,而不是简单的进行整机系统的切换。这种功能在高可用性中叫做LocalFailOver。\r\n\r\n软件故障的监测和恢复\r\n\r\n计 算机系统中的软件分为系统软件和应用软件两大类,系统运行的稳定与否与软件系统的正常工作密切相关,高可用性系统中使用最为广泛的应用是对数据库的高可用 性,数据库使用需要系统卷、IP地址、主机名、文件共享以及有关的数据库服务,高可用性系统必须能够对这些软件资源进行监控,如果相关资源出现故障情况, 总是先重新启动几次,如果故障不能消除就必须进行系统切换了,主服务器将所有有关资源释放出来,从服务器将所有资源接管过来,恢复系统的正常运行,同时将 故障情况写入系统相关日志中。\r\n高可用性系统的心跳 \r\n\r\n在高可用性系统中,系统根据心跳线持续不断的对系统中所有相关资源进行监控,为了确保心跳的安全,可以使用双心跳连接,高可用性系统能够监视各站点的运行情况,能随时或定时报告系统运行状况,故障能及时报告和告警,并有必要的控制手段。\r\n\r\n2.3高可用性系统的构造\r\n\r\n硬件上采用多网冗余、双高性能服务器系统、磁盘阵列(RAID 0、1、3、5)等多种方式来实现冗余高可靠。\r\n\r\n服务器配置 \r\n\r\n    √运行服务器\r\n    正常时提供服务的主机,也称为主服务器\r\n    √备份服务器\r\n当 运行服务器提供的服务已不可用时,自动接替运行服务器的工作而不用重新起动系统,而当系统服务器恢复正常后,按照使用者的设定以自动或手动方式将服务切换 到运行服务上运行。备份服务器除了在运行服务器出现故障时作为接替运行服务器的服务之用,还可以执行其他应用程序。因此,一台性能配备充分的主机可同时作 为某一服务的运行服务器和另一服务的备份服务器使用,即两台运行服务器互为备份。一台主机上面可以运行多个服务,也可作为多个服务的备份服务器。\r\n\r\n网络连接 \r\n\r\n支持TCP/IP协议,可以在Ethernet、FastEthernet、FDDI和ATM网上运行。\r\n    √私用网\r\n两台服务器通过私用网传送心跳(HeartBeat)信号,使两台服务器能够相互了解对方的运行情况。\r\n    √公用网\r\n公用网用来提供服务。Client通过此网络与服务器通信。当两台服务器互为备份时,对于不同的服务,可以用不同的公用网连接到两台服务器。\r\n\r\n存储设备 \r\n\r\n    √自用存储设备\r\n每台服务器均有自已的存储设备,用于存放操作系统软件和其他一些不需要被另一台服务器访问的软件和数据。\r\n    √共用存储设备\r\n此设备上的信息可以被两台服务器分别访问。用于存放提供服务所必需的软件和数据。因此,有必要采用硬盘阵列(Disk Array)作为共用存放设备,以保证数据的可靠性和可恢复性,避免和减少由于磁盘故障或错误所造成的损失。\r\n\r\n2.4 高可用性系统作用:\r\n\r\n    √极大降低企业业务在各种单点故障发生时的损失,保证业务系统的7*24小时不间断运转。\r\n    √尽可能地保护业务的实时性,数据的完整性和一致性。通过实施高可用性群集方案可以将用户的应用中断时间降至最低从而减少用户的损失。\r\n√为企业网络系统的正常升级,更换部件提供不停机环境。\r\n\r\n2.5双机容错技术\r\n\r\n在 当今的商业活动中,Sybase已是主流的承载数据的服务器平台,基于该数据库系统的信息系统的可用性已成为衡量其资源利用率的最重要的尺度之一,性能强 劲;作业可以运行在不同的服务器上,整个系统的性能会大大提高;高可用性,在群集系统中的某个主机宕机不对用户构成影响;节省投资,高的系统稳定性对系统 崩溃带来的业务损失的避免,尤其对于数据的损失。\r\n \r\n随着计算机在社会各个领域的广泛使用,人们已习惯于计算机系统带来的便捷和高效率,但 计算机系统也非常脆弱,它会受各种因素的影响,如硬件系统本身的故障、电源故障、病毒、自然灾害或人为的恶意破坏,都会导致系统无法正常运行。现有很多系 统均是单主机工作环境,任何一个单点故障,都会影响企业业务的正常运转,而且产生很多不良后果。\r\n\r\n因此,系统的高可用性已成为关键业务环节的当务之急。\r\n我们认为,解决该问题的关键,就是采用高可用性的双机容错解决方案。\r\n\r\n双 机容错是计算机应用系统稳定、可靠、有效、持续运行的重要保证,它通过系统冗余的方法解决计算机应用系统的可靠性问题,并具有安装维护简单、稳定可靠、监 测直观等优点。当一台主机出现故障,该软件可及时启动另一台主机接替原主机任务,保证了用户数据的可靠性和系统的持续运行。\r\n\r\n双机容错基本架构\r\n\r\n双机容错的目的在于保证数据永不丢失和系统永不停机,一般采用智能型光纤磁盘阵列柜可保证数据永不丢失,采用双机容错软件可保证系统永不停机。它的基本架构可分为两种模式:\r\n双机互备援(Dual Active)模式 \r\n双机热备份(Hot Standby)模式。 \r\n双机互备援(Dual Active)模式\r\n\r\n所谓双机互备援就是两台Sybase主机均为工作机,在正常情况下,两台工作机 均为信息系统提供支持,并互相监视对方的运行情况。当一台主机出现异常时,不能支持信息系统正常运营,另一主机则主动接管(Take Over)异常机的 工作,继续主持信息的运营,从而保证信息系统能够不间断的运行,而达到不停机的功能(Non-Stop),但正常运行主机的负载(Loading)会有所 增加。此时必须尽快将异常机修复以缩短正常机所接管的工作切换回已被修复的异常机。\r\n\r\n切换时机(Take Over)\r\n——系统软件或应用软件造成服务器宕机\r\n——服务器没有宕机,但系统软件或应用软件工作不正常\r\n——光纤通道卡损坏,造成服务器与磁盘阵列无法存取数据\r\n——服务器内硬件损坏,造成服务器宕机\r\n——服务器不正常关机\r\n\r\n双机热备份(Hot Standby)模式\r\n\r\n所 谓双机热备份就是一台主机为工作机(Primary Server),Sybase正常运行,另一台主机为备份机(Standy Server)。在系统 正常情况下,工作机为信息系统提供支持,备份机监视工作机的运行情况。同时,工作机也同时监视备份机是否正常,有时备份机因某种原因出现异常,工作机可尽 早通知系统管理员解决,确保下一次切换的可靠性。当工作机出现异常,不能支持信息系统运营时,备份机主动接管(Take Over)工作机的工作,继续支 持信息的运营,从而保证信息系统能够不间断的运行(Non-Stop)。当工作机经过修复正常后,系统管理员通过管理命令或经由以人工或自动的方式将备份 机的工作切换回工作机;也可以激活监视程序,监视备份机的运行情况,此时,原来的备份机就成了工作机,而原来的工作机就成了备份机。\r\n\r\n切换时机(Take Over)\r\n——系统软件或应用软件造成服务器宕机\r\n——服务器没有宕机,但系统软件或应用软件工作不正常\r\n——光纤通道卡损坏,造成服务器与磁盘阵列无法存取数据\r\n——服务器内硬件损坏,造成服务器宕机\r\n——服务器不正常关机\r\n\r\n\r\n双机容错系统的优点:\r\n\r\n建立双机容错环境后具有以下优势:\r\n1、极大降低企业业务在各种单点故障发生时的损失,保证业务系统的7*24小时不间断运转。\r\n2、尽可能地保护业务的实时性,数据的完整性和一致性。通过实施高可用性群集方案可以将用户的应用中断时间降至最低从而减少用户的损失。\r\n3、为企业计算系统的正常升级,更换部件提供不停机环境。\r\n \r\n三、 需求分析\r\n\r\n3.1 某发电厂现有环境及需求\r\n\r\n某 发电厂现有一台HP L1000小型机,采用Sybase数据库,运行关键性应用系统,24小时运转,为提高系统的高可用性,防止系统因硬件或软件故障而 中断,现需增添一台小型机,与原有主机一起组建成双机系统;同时为了提高数据的高安全性和高可用性,需要一台高性能的磁盘阵列,该阵列可通过光纤通道同时 连接两台小型机。由此,将为某发电厂信息中心构建出一套高可用的双机系统和存储系统。\r\n\r\n3.2 可能出现的系统故障\r\n\r\n对于某发电厂目前的主机系统来说,可能出现如下故障,它们都将导致系统无法正常运行。\r\n\r\n物理故障\r\n\r\n物 理故障是指造成系统无法正常运行的软硬件损坏。如操作系统故障、应用程序损坏、硬盘故障、主机故障等。物理故障能够直接导致系统无法继续运行。这类故障相 对来说容易查找,也容易修复。此类故障不会造成太大损失,只要及时修复就可以排除。但这些故障通常会导致逻辑故障,如硬盘故障可能导致数据丢失,网络故障 可能会破坏数据一致性等。\r\n\r\n常见的几种物理故障包括:\r\n•操作系统故障:非法指令造成的系统崩溃,系统文件被破坏导致无法启动操作系统等。\r\n•应用程序损坏:缺少文件或程序本身不完善导致程序无法运行。\r\n•整机损坏:由掉电、火灾、地震等造成设备无法运行。\r\n•硬盘故障:硬盘是精密的机电设备,安装时的无意磕碰、掉电、电流突然波动等原因都有可能造成设备无法运行。\r\n•网络设备故障:传输距离过长、设备添加与移动、传输介质的质量问题和老化都有可能造成故障。\r\n物理故障造成的后果比较明显,容易发现,相对来说容易排除。但是如果不能及时排除,也会造成极大的损失。\r\n逻辑故障\r\n\r\n逻辑故障包括两种,第一种是系统能够正常运行,但实际已经有部分损坏,如数据文件丢失、程序丢失等。第二种是系统本身虽然完好无损,可是系统中的部分数据是错误的。这类故障的隐蔽性很强,通常难以发现,更难以修复。\r\n\r\n常见的几种逻辑故障包括:\r\n•数据不完整:系统缺少完成业务所必须的数据。\r\n•数据不一致:系统数据是完全的,但不符合逻辑关系。\r\n•数据错误:系统数据是完全的,也符合逻辑关系,但数据是错误的,与实际不符。\r\n•病毒错误:由于病毒引起系统崩溃或数据丢失。\r\n逻辑故障隐蔽性强,往往带有巨大的破坏性,并造成不可估算的损失。根据有关统计,恢复10MB(约250页纸)的数据最少也要花费近几天时间,成本在几十万元以上。\r\n上 面提到的两种故障,对备份工作有不同的要求:物理故障会造成系统无法运行,容易发现,但要求能够迅速的恢复系统。逻辑故障不易发现,但只要有原始数据,同 样可以恢复,这就要求长期进行历史数据备份。因此拥有高可靠性的双机、存储备份设备和完善的备份方案,可以将灾难的损失减少到最低程度。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP