- 论坛徽章:
- 0
|
第一章
简 介
1.1 Cluster技术
Cluster集群技术可如下定义:一组相互独立的服务器在网络中表现为单一的系统,并以单一系统的模式加以管理。此单一系统为客户工作站提供高可靠性的服务。
Cluster大多数模式下,集群中所有的计算机拥有一个共同的名称,集群内任一系统上运行的服务可被所有的网络客户所使用。Cluster必须可以协调管理各分离的组件的错误和失败,并可透明的向Cluster中加入组件。
一个Cluster包含多台(至少二台)拥有共享数据储存空间的服务器。任何一台服务器运行一个应用时,应用数据被存储在共享的数据空间内。每台服务器的操作系统和应用程序文件存储在其各自的本地储存空间上。
Cluster内各节点服务器通过一内部局域网相互通讯。当一台节点服务器发生故障时,这台服务器上所运行的应用程序将在另一节点服务器上被自动接管。当一个应用服务发生故障时,应用服务将被重新启动或被另一台服务器接管。当以上任一故障发生时,客户将能很快连接到新的应用服务上。
Cluster集群技术示意图:
Cluster集群可由N台服务器构成,当我们取Cluster要求的最小值N=2时,就成为一个双机系统。
1.2 DataWare for UNIX系统
现代企业将许多工作从大机系统转向轻便、功能强大、用户友好的PC 服务器和工作站。多服务器组成Cluster执行关键性业务,这些服务器持续监视整个系统状态,保障了系统的高可靠性,为企业提供实时、持续、可靠的数据服务。
目前服务器硬件是广泛有效的,但缺少连接的软件。用户需要一种适应性强、可靠性高、可灵活扩展的综合解决方案。使服务器转向集中维护的集群工作方式。
DataWare for UNIX 是一种用户可配置的软件级解决方案(与容错机系统比较)。DataWare 监控所有的软硬件的资源操作,并且能对多种错误状态做出自动处理。
DataWare 管理两个UNIX 服务器以两种不同的模式(Hot Standby or Dual Active) 运行,当其中一台服务器当机或失效时,另一台服务器接管对等服务器的应用系统,而用户依旧可以存取数据,并不需要知道哪一台服务器在提供服务。
DataWare支持Dual Active工作模式和Hot Standby工作模式。在Hot Standby模式中,一台服务器作为工作机运行业务软件,另一台服务器作为备援服务器始终处于等候主服务器出故障并取而代之的状态;在Dual Active模式中, 两台服务器运行各自业务软件同时监测对方状态, 当其中一台发生故障时, 另一台主机立即将故障服务器的工作接管过来。
1.3 特性
DataWare 是集成的全兼容于UNIX系统的容错软件,用户应用程序和硬件设备无须改动。DataWare能提供两种模式的容错服务,依照系统配置文件(“dw.cfg”)来建立。
当一台服务器当机或失效时, DataWare 自动切换应用到另一台服务器上。这个切换过程可以手工去处理。用户可以执行升级置换或维护服务器的硬件和软件的工作。任意一台服务器的关键操作都可以设置成自动切回。DataWare 在原服务器(生产机)修复后,DataWare 又可切回所有应用给生产机。
1.4 DataWare 的硬件方面
双机系统的硬件包含以下几个部分:
1. 两台基于UNIX 系统的服务器或工作站。每台主机有它专有的操作系统、
应用软件和专有数据。
生产机:为客户端提供应用服务的主机
备份机:当生产机当机或失效时,可接管应用服务的主机
2. 专用网络
专用网络是为两台主机交换操作信息(如心跳信息)而指定的通道。
有两种类型的专用网络
*TCP/IP socket:网卡上绑定TCP/IP 协议,每台服务器不必装有专用的网卡去连接专用网络。(可与公用网络共享同一网卡)
*共享盘:在公共的RAID 系统上建立的5MB 空间。
必须至少建立一种专用网络。
建议:建立多种类型的专用网络防止单点故障。如果当其中一种传输介质或协议失效,这时通过冗余的通道工作。
3. 公用网络
公用网络是网络客户端存取主机资源的通道。
目前DataWare只支持TCP/IP协议。
工作网卡:每台生产机必须安装一块网卡来连接公用网络。这是双机系统接收请求和发送数据的网络接入点。
备份网卡:每台备份机必须安装一块网卡来连接公用网络。当生产机当机或失效时,备份机在接管服务的同时,此网卡将作为双机系统接收请求和发送数据的新的接入点。
4. 公用磁盘
公用磁盘用来存储用户的重要数据,在RAID 磁盘子系统上,每台服务器有它自己的文件系统分区。另外还有5MB 空间作为DataWare 运行时使用的”握手”通信区。例如: /dev/rxxx (SCO UNIX 系统中的裸设备,xxx是裸设备名)。
需要具有双SCSI端口的RAID系统(Power 5XX0系列)。这种磁盘子系统支持在物理磁盘有故障的情况下,仍能在线存取数据。
1.5 DataWare的软件方面
DataWare核心包含所有的系统程序,在安装时,程序“dwinst”将核心文件写到 “/usr/lib/dataware/exec”这个子目录下。
“dw.cfg” 系统文件是DataWare的配置文件,DataWare核心运行时,此文件的内容作为参考数据,”dwinst”将自动读取”dw.cfg”和系统表,构成用以维持系统正常运行的参考数据文件,并放在目录 “/usr/lib/dataware/configuare”下。
“dw.cfg”文件同时也定义双机系统的运行规则,如服务器运行模式:Dual Active或Hot Standby。用户可以根据实际应用情况通过此文件作正确的配置。
“5MB 裸设备”是在 “/dev”目录下的一个UNIX裸设备文件,这块区域称为”握手”通信区,两台服务器的”心跳”信息放到这块区域上,以便让核心来检查服务器是否正常。一旦核心检查到生产机心跳停止,则核心将通TCP/IP协议路经确认生产机是否真正当机或是失效。如果生产机确实当机或无效,则Heartbeat Monitor(心跳侦测)自动将生产机的关键性业务切换到备份机上。
Host A and Host B file system 是UNIX文件系统,根据用户需求可建立一个或多个文件系统分区。在RAID 系统的保护下,用户不必担心数据丢失。
DataWare提供用户易于使用的“dw.cfg” 系统文件,在DataWare软盘上,提供两个系统文件模板”cfg.a”和“cfg.b”。
Heartbeat Monitor是这样一个软件过程,它通过从”握手”通信区(5MB裸设备) 收集心跳侦测信息,去确定两台服务器是否有效,有两条途径可以确定服务器是否真正有效,当心跳侦测发现生产机无效时(5MB裸设备),则心跳侦测会通过TCP/IP协议路径发送信息到生产机,再次确认生产机的情况,如果情况属实,则心跳侦测发送一个信号到”Take Over Engine”。
”Take Over Engine”是一个控制程序,这个程序只接收Heartbeat Monitor程序和”jswitch”命令的信号,当收到信号后,引擎依照”dw.cfg”文件执行接管。
1.6 DataWare的工作原理
1. 服务进程
*双服务器采用TCP/IP协议与用户连接
*双机后台对于Client/Server用户透明
网络服务:双机后台对于用户一端,由监控软件DataWare 提供一个 IP地址,如:170.200.80.99,任一用户向双机系统发出数据请求只需要通过这一地址。当后台有一台服务器出现故障时,DataWare会在另一台服务器上将其网卡的IP地址更改为170.200.80.99;这样,用户一端的应用可继续访问数据或经过短暂停顿后恢复正常访问,而不会因为一台服务器出现故障而使整个应用系统不能再继续工作。
数据库服务:当有一台服务器出现故障时,DataWare会在另一台服务器上自动启动数据库引擎(engine);同时启动服务器端的应用程序,使用户端应用可以继续工作,而不受影响。
2. 监控原理
DataWare 侦测心跳通过两条途径:
SCSI 侦测:
对于某一台服务器而言,将侦测讯息以记录方式写在一大小为5MB的裸设备上,其中每一条记录包括如下内容:
(1)系统对本机的监测状态信息。
(2)另一台主机是否看到本机状态信息。
当一台主机有出现故障时,对等主机的可调变心跳频率不断提高;在最小心跳时间内发现记录内容没有更新;DataWare 即会调用网络心跳侦测,再次确认系统状态;当通过两组心跳侦测都确定系统出现故障时,DataWare将故障主机的交易业务在最小安全切换时间内切换到对等主机继续运行,同时修改记录区内容。一般情况切换时间不会超过7秒;根据应用程序的复杂程度,一般最小安全切换时间不超过30秒。
网络侦测:
DataWare对业务主机的网络设备进行监测,同配合SCSI心跳侦测,对等监控两台服务器主机的工作状态。当有一台服务器因为网络故障或其他原因引起故障而不能正常处理业务交易时,对等主机的可调变心跳频率不断提高;在最小心跳时间内发现没有回应,即会调用SCSI心跳侦测再次确认系统状态;当通过两组心跳侦测都确定判断系统出现故障时,DataWare将故障主机的交易业务在最小安全切换时间内切换到对等主机继续运行,同时修改记录区内容。
3. 监控的对象资源:
数据库的运行状态
用户应用程序运行
UNIX操作系统运行状态
服务器硬件设备状态
服务器网络设备(网卡,网线)
1.7 总结
DataWare for UNIX提供了一种基于UNIX操作系统的高性价比的HA解决方案。为用户提供了数据永不丢失和永不停机的保障,使用户的数据源系统达到近乎无错的状态。以下章节将详细介绍DataWare for UNIX的安装和维护的要点。
第二章
安装前介绍
2.1 概述
在安装DataWare之前,用户必须明确了解哪些关键业务需要DataWare管理。以下是安装DataWare双机系统前必须了解的一些基本事项。
1. 服务器运行必备的软件和硬件。
2. 服务器双机工作模式(Dual Active或Hot Standby)。
3. 磁盘子系统配置信息。
4. 本地磁盘和公共磁盘所需的磁盘空间。
5. 在磁盘阵列系统上的RAID级别设定。
6. 初始化文件”dw.dfg”的准备工作。
7. 启动和停止业务应用的程序。
2.2 最基本硬件需求
硬件配置
Dual Active模式
两台UNIX服务器
服务器内存至少16MB
每台服务器至少两块网卡
每台服务器配有一个SCSI接口(Fast SCSI、Wide、Ultra wide)
一个磁盘阵列系统(必须有双SCSI端口)。
在磁盘阵列系统中至少三块硬盘,三块工作盘作为一个逻缉磁盘设备。
Hot Standby模式
两台UNIX服务器
服务器内存至少16MB
每台服务器至少一块网卡
每台服务器必须有一个SCSI接口(Fast SCSI、Wide、Ultra Wide)
一个磁盘阵列系统(必须有双SCSI端口)
在磁盘阵列系统中至少三块硬盘,三块工作盘作为一个逻缉磁盘设备。
2.3 DataWare软件的发行介质
要运行DataWare系统,你必须有DataWare系统软盘。DataWare系统适合互备援模式和热备模式,两种模式之间区别就在于配置信息,关于设置的细节将在第三章讨论。
DataWare系统软件存储在一张磁盘上,它包含以下文件:
1. dwinst ── 安装程序
2. cfg.a ── A机配置信息模板文件
3. cfg.b ── B机配置信息模板文件
4. waredata ── 包括所有系统程序(DataWare的核心)
5. install.doc ── 简要系统安装指导
这些文件以UNIX系统”tar”格式存储,你可以用下面的命令检查软件包含的内容。
tar tvf /dev/xxx
其中”dev/xxx”是UNIX系统中软盘的设备文件名。
关于cfg.a和cfg.b中配置信息的描述语法将在第三章讨论。
2.4 磁盘系统准备
当我们明确运行DataWare的基本条件后时,就可以开始磁盘系统的挂接工作,首先必须去作RAID设置。RAID设置的主要目的是规划磁盘存储空间,例如:设置RAID级别,作Array组到Lun的映射。关于RAID设置,请参考“双机容错硬件培训“。
在RAID设置和初始化完成后,你可以将RAID系统挂接到服务器上。创建的文件系统路径和设备文件名称将决定DataWare的某些配置信息。
在DataWare双机容错系统中,数据库空间全部在磁盘阵列柜RAID逻辑盘中。为了利用该数据空间,需要在UNIX操作系统上创建磁盘阵列柜RAID逻辑盘的设备文件名。
系统进入单用户,运行“mkdev hd”,准备制作逻辑盘分区
# mkdev hd
Your rootdisk is attached to a SCSI controller.
Pick one of choices below or you may quit and
Invoke nkdev hd -u for a detailed usage message.
1) Add a hard disk to IDE controller
2) Add a hard disk to SCSI controller
3) Add a hard disk to IDA controller
Enter 1, 2, 3 or enter ‘q’ to quit: 2 →选择2
Enter the prefix of the SCSI host adapter that supports this device
Or press <Return>; for the default:’alad’ →选择SCSI卡类型
Enter h for a list of host adapters or enter q to quit:
Which ‘alad’ SCSI host adapter supports this device?
Select 0-6, or enter q to quit: 0 →选择SCSI卡号
The Host Adapter paramters will be automatically configured
What SCSI Bus is this device attached to?
Press <Return>; to use the default: 0
Select 0-n, or h for help, or q to quit: →选择SCSI总线号
What is the Target ID for this device?
Select 0-15, or h for help, or q to quit:2 →选择设备的ID号
What is the LUN of this device?
Press <Return>; to use the default: 0
Select 0-7, or h for help, or q to quit:0 →选择LUN号
硬盘挂接到操作系统,准备重构系统核心
You are about to add the following SCSI device:
Host
Adapter Adapter
Type Device Number ID LUN BUS
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
alad Sdsk 0 2 0 0
Update SCSI configuration? (y/n) y
The SCSI configuration file has been updated.
A new kernel must be built and rebooted before disk configuration can continue
Would you like to relink at this time? (y/n) y
The UNIX Operating System will now be rebuilt.
This will take a few minutes. Please wait.
Root for this system build is /
The UNIX kernel has been rebuilt.
Do you want this kernel to boot by default? (y/n) y
Backing up unix to unix.old
Installing new unix on the boot file system.
The kernel environment includes device node files and /etc/inittab.
The new kernel may require changes to /etc/inittab or device nodes.
Do you want the kernel environment rebuilt? (y/n) y
The kernel has been successfully linked and installed.
To activate it, reboot your system.
Setting up new kernel environment.
After the system is rebooted with the new kernel,
Reinvoke mkdev hd to initialize the new hard disk.
#
重新启动系统,使新系统核心生效
# sync;sync; reboot
进入单用户模式,再次运行硬盘加载命令
# mkdev hd
Your rootdisk is attached to a SCSI controller.
Pick one of choices below or you may quit and
Invoke nkdev hd -u for a detailed usage message.
1) Add a hard disk to IDE controller
2) Add a hard disk to SCSI controller
3) Add a hard disk to IDA controller
Enter 1, 2, 3 or enter ‘q’ to quit: 2 →选择2
Enter the prefix of the SCSI host adapter that supports this device
Or press <Return>; for the default:’alad’ →选择SCSI卡类型
Enter h for a list of host adapters or enter q to quit:
Which ‘alad’ SCSI host adapter supports this device?
Select 0-6, or enter q to quit: 0 →选择SCSI卡号
The Host Adapter paramters will be automatically configured
What SCSI Bus is this device attached to?
Press <Return>; to use the default: 0
Select 0-n, or h for help, or q to quit: →选择SCSI总线号
What is the Target ID for this device?
Select 0-15, or h for help, or q to quit:2 →选择设备的ID号
What is the LUN of this device?
Press <Return>; to use the default: 0
Select 0-7, or h for help, or q to quit:0 →选择LUN号
During installation you may choose to overwrite all
Or part of the present contents of your hard disk.
Do you wish to continue? (y/n) y →选择“y”
准备对增加的硬盘进行逻辑分区
The hard disk installation program will now invoke /etc/fdisk.
Entering ‘q’ at the following menu will exit /etc/fdisk,
And the hard disk installation will continue.
If you wish to exit the entire installation at this menu,
Press the <DEL>; key.
1. Display Partition Table
2. Use Entire Disk for Unix
3. Use Rest of Disk for Unix
4. Creat UNIX Partitin
5. Activate Partition
6. Delete Partition
7. Create Partition
Enter your choice or ‘q’ to quit: 2 →选择2
Current Hard Disk Drive: /dev/rdsk/3s0
+------------+---------+--------+--------+-------+---------+
| Partition | Status | Type | Start | End | Size |
+------------+---------+--------+--------+--------+--------+
| 1 | Active | UNIX | 1 | 528359 | 528359 |
+------------+---------+--------+--------+--------+--------+
Total disk size: 528615 tracks (256 reserved for masterboot and diagnostics)
Press <Return>; to continue →选择回车
1. Display Partition Table
2. Use Entire Disk for Unix
3. Use Rest of Disk for Unix
4. Creat UNIX Partitin
5. Activate Partition
6. Delete Partition
7. Create Partition
Enter your choice or ‘q’ to quit: q →选择q
对于新创建的硬盘分区, 必须进行磁盘扫描,以保证数据空间的安全可靠
SCSI VERSION = 2
Vendor = MEGAR1 D
Product = LOGICAL DRIVE 1
1. Scan entire UNIX Partition
2. Scan a specified range of blocks
3. Scan a specified filesystem
4. List current bad block table
5. Add entries to bad block table
6. Delete entries from bad block table
7. Clear bad block table
8. Re-allocate bad blocks
Enter your choice or ‘q’ to quit: q →选择1
Select type of scan .
1. Thorough scan (6 Mbytes/min approx)
2. Quick scan (18 Mbytes/min approx)
Enter your choice or ‘q’ to quit: 2 →选择2
Do you want this to be a destructive scan ? (y/n) y →选择y
The contents of the region you are scanning will be destroyed.
Do you wish to continue ? (y/n) y →选择y
Scanning in progress, type < DEL>; to quit at any time
Scanning block xxxxxx, 15% complete, bad block count = 0.
0 bad blocks have been found.
Enter the number of bad blocks to allocate space for
Or press < Return >; to use the exising value of 511. →选择回车
WARNING: changing the value will remove all filesystem to this partion:0
当完成100%,并且bad block count为 0时,表示整个UNIX分区没有坏块,已经准备就绪。
盘分区并命名
+-------------------+-------------------+--------------+--+------------------+-----------------------+
| Name | Type | New FS | # | First Block | Last Block |
+-------------------+-------------------+--------------+--+------------------+-----------------------+
| ware | NON FS | no | 0 | 0 | 5000 |
| pp0 | NON FS | no | 1 | 8000 | 2008000 |
| pp1 | NON FS | no | 2 | 2008001 | 4008000 |
| pp2 | NON FS | no | 3 | 4008001 | 6008000 |
| dd2 | HTFS | yes | 4 | 6008001 | 16000000 |
| | NOT USED | no | 5 | - | - |
| | NOT USED | no | 6 | - | - |
| hd1a | WHOLE DISK | no | 7 | 0| 16643307 |
+-------------------+-------------------+--------------+--+------------------+-----------------------+
16635307 1K blocks for divisions, 8001 1K blocks reserved for the system
n[ame] Name or rename a division.
c[reate] Create a new file system on this division.
t[ype] Select or change filesystem type on new filesystems.
p[revent] Prevent a new file system from being created on this division.
s[tart] Start a division on a different block.
e[nd] End a division on a different block.
r[estore] Restore the original division table.
Enter your choice or q to quit: _
i[nstall] Install the division set-up shown
r[eturn] Return to the previous menu
e[xit] Exit without installing a division table
Please enter your choice: I →选择 i
说明:
ware :UNIX裸设备,作为DataWare软件侦听监控专用区
pp0, pp1, pp2 :UNIX裸设备,作为数据库存储专用设备
dd2 :UNIX块设备,作为DataWare软件安装测试用文件系统
在对个分区命名及定义文件系统类型后,准备制作测试用文件系统“/dd2”
Filesystem Initialization Program
This program performs maintenance tasks required to add or delete
An existing filesystem . Would you like to:
1.Add a new filesystem to system
2.Remove a filesystem.
Select an option or enter q to quit: 1 →选择 1
Enter a device name and press <Return>; or q to quit: /dev/dd2
Enter a directory name and press <Return>; or q to quit: /dd2
Reserving slots in lost+found directory . . .
When entering multiuser mode:
1. Always mount /dev/dd2
2. Never mount /dev/dd2
3. Prompt before mounting /dev/dd2
Select an option: 2 →选择 2
Do you want to allow users to mount this file systems? (y/n) y
Updating system files . . .
Filesystem has been successfully added.
#
第三章
安 装
3.1 安装DataWare之前的准备工作
1. 确认所有硬件和配置完成,执行数据访问测试,以检验设备的有效性。
2. 准备DataWare 系统软盘。
3. 分别为每台服务器做DataWare系统初始化文件”dw.cfg “ 。
4. 启动DataWare。
5. 准备软件注册。
3.2 检验RAID分区
由于DataWare用RAID上的一个分区(裸设备)作为两个服务器之间的通信区,重要的一点是,必须确保每台服务器都能够访问此分区和另外一些在RAID上的文件系统。
安装DataWare之前,为确保每台服务器能正确访问RAID分区,你可以作以下测试:
1. 在任意一台服务器上mount RAID中的文件系统。
2. 拷贝任意文件到已mount文件系统上。
3. unmount这个文件系统。
4. 在另一台服务器上mount 相同的文件系统,检查你以前拷贝的文件是否正确。
如果以上测试ok,你就可以开始DataWare的安装。
这些测试对于DataWare的安装非常重要,因为如果没有能正常访问的握手通信区, DataWare将受到错误的心跳信息,会导致双机系统不能正常运行。如果测试不正确,请重新检查RAID分区和RAID的挂接过程。
3.3 DataWare系统软盘
DataWare系统软件存储在一张磁盘上,它包含以下文件:
1. dwinst ── 安装程序
2. cfg.a ── A机配置信息模板文件
3. cfg.b ── B机配置信息模板文件
4. waredata ── 包括所有系统程序(DataWare的核心)
5. install.doc ── 简要系统安装指导
这些文件以UNIX系统”tar”格式存储,你可以用下面的命令检查软件包含的内容。
Tar tvf /dev/xxx
其中”dev/xxx”是UNIX系统中软盘的设备文件名。
3.4关于”dw.cfg”系统文件
“dw.cfg”的文件格式
Item Title : String Description
注意:
配置信息通过”Item Title”和”String Description”来描述
每项的”Item Title”长度是20个字符串(包括 “:”字符串)
每项的”String Description”从第一个“:”字符串后开始,每个字符项以空格隔开
如果不需要某项设置,请保留”Item Title”
字符“@”是续行标志,要写在行首
“dw.cfg”格式和样本
“dw.cfg”文件中包含11项:
host_id : A
scsi &_device : /dev/rware
ip_table : Real_IP1 net0 192.9.210.1 255.255.255.0 192.9.210.255
@ : Virtual_IP1 net0 192.9.210.11 255.255.255.0 192.9.210.255
fs_tables : A /dev/data /data HTFS
ap_table :
ctl_ap :
paper_setup : disable
modem_device :/dev/tty2a
paper_tables :
reference_ip :
ts_tables :
“dw.cfg”描述项意义的解释
1. host_id ------ 指定服务器运行角色:A 或 B
2. scsi_device ------ 指定通信区的裸设备名
当在服务器上创建文件系统后,可得到这个设备名,例如:在DEC上名称可能为/dev/rrz4b,在SCO UNIX上名称可能为/dev/在某些系统上像SUN,同一个逻辑设备在A机和B机上可能会有不同的名称,例如,裸设备名在A机上为:
/dev/rdsk/c0t2d0s0
但在B机上为:
/dev/rdsk/c0t2d1s0
注意:无论Hot Standby或Dual Active都只需要一个裸设备作为通信区
3. ip_tables ------ 定义真实的IP和虚拟IP地址
此项可能包括多行信息,其中每一行包括:
string node name IP address netmask broadcast
Hot Standby模式必须包含两行,”string”应为两者之一:
“ Real_IP1” 或 “ Virtual_IP1”
举例(SCO UNIX on PC Server):
A机:
ip_tables :Real_IP1 net0 192.9.210.1 255.255.255.0 192.9.210.255
@ :Virtual_IP1 net0 192.9.210.11 255.255.255.0 192.9.210.255
B机:
ip_tables :Real_IP1 net0 192.9.210.2 255.255.255.0 192.9.210.255
@ :Virtual_IP1 net0 192.9.210.11 255.255.255.0 192.9.210.255
Dual Active 模式,因为每台服务器需要两块网卡,描述需要四行
举例(SCO UNIX on PC Server):
A机:
ip_tables :Real_IP1 net0 192.9.210.1 255.255.255.0 192.9.210.255
@ :Virtual_IP1 net0 192.9.210.11 255.255.255.0 192.9.210.255
@ :Real_IP2 net1 192.9.211.1 255.255.255.0 192.9.211.255
@ :Virtual_IP2 net1 192.9.211.11 255.255.255.0 192.9.211.255
B机:
ip_tables :Real_IP1 net1 192.9.211.2 255.255.255.0 192.9.211.255
@ :Virtual_IP1 net1 192.9.211.11 255.255.255.0 192.9.211.255
@ :Real_IP2 net0 192.9.210.2 255.255.255.0 192.9.210.255
@ :Virtual_IP2 net0 192.9.210.11 255.255.255.0 192.9.210.255
注意:
a. 两台服务器的虚拟IP地址必须相同
b. 描述项的顺序以上例为准
c. 续行需要在行首加符号”@”
4. fs_tables ------ 定义要mount 的文件系统
此项可能包括多行信息,其中每一行包括:
host_id filesystem mount point file system type
举例(SCO UNIX on PC Server):
Hot Standby模式Host A和Host B都是:
A /dev/data HTFS
Dual_Active模式
A机:
fs_tables :A /dev/data /data HTFS
@ :B /dev/data1 /data1 HTFS
B机:
fs_tables :A /dev/data /data HTFS
@ :B /dev/data1 /data1 HTFS
注意:
a. 描述项与顺序无关,但Dual Active模式中B机会将”B”作为要mount的文件系统
b. 续行需要在行首加符号”@”
5. ap_tables ------ 定义要管理的应用程序
此项可能包括多行信息,其中每一行包括:
host_id name start_program stop_program
举例:
ap_tables : A:NameA:/tmp/startpgm:/tmp/stoppgm
第一项告诉Dataware 启动时运行“startpgm”程序,Dataware 停止时运行 “stoppgm”程序。
注意:
a. 描述项与顺序无关
b. 相邻字段之间必须添加字符”:”
c. 续行需要在行首加符号”@”
6. ctl_ap ----- 需要DataWare监视的进程名
此项可能包括多行信息,其中每一行包括:
host_id process_name
举例:
ctrl_tables : A:process_name
注意:
a. 描述项与顺序无关
b. 每行只能写一个进程名
c. 相邻字段之间必须添加字符”:”
d. 续行需要在行首加符号”@”
7. paper_setup ------ 指定传呼报警功能是否启动
此项只包含一个字符串:
“Disable” 或 ”Enable”
8. modem_device ------ 定义modem的设备文件名
选择系统中连接modem的串口的设备文件名,例如:/dev/tty2a
9. paper_tables ------ 定义传呼机号
此项可能包括多行信息,其中每一行包括一个号码:
pager_tables :1298334535
@ :19983747447
10. reference_ip ------ 设置网络参考点
11. ts_tables ------ 设置网络终端服务器的IP地址
3.5 编写”dw.cfg”文件
Dual Active模式
*************************************Host A ******************************************
host_id :A
scsi_device :/dev/rware
ip_tables :Real_IP1 net0 89.0.0.1 255.255.255.0 89.0.0.255
@ :Virtual_IP1 net0 89.0.0.11 255.255.255.0 89.0.0.255
@ :Real_IP2 net1 192.0.0.1 255.255.255.0 192.0.0.255
@ :Virtual_IP2 net1 192.0.0.11 255.255.255.0 192.0.0.255
fs_tables :A /dev/data/data HTFS
@ :B /dev/data1/data1 HTFS
ap_tables :A:nm1:/shell/start1&:/shell/stop1
@ :B:nm2:/shell/start2&:/shell/stop2
ctl_ap :Axxx1
@ :Bxxx2
paper_setup isable
modem_setup :/dev/tty2a
paper_tables :
reference_ip :
ts_tables :
**********************************Host B**********************************************
host_id :B
scsi_device :/dev/rware
ip_tables :Real_IP1 net1 192.0.0.2 255.255.255.0 192.0.0.255
@ :Virtual_IP1 net1 192.0.0.11 255.255.255.0 192.0.0.255
@ :Real_IP0 net0 89.0.0.2 255.255.255.0 89.0.0.255
@ :Virtual_IP0 net0 89.0.0.11 255.255.255.0 89.0.0.255
fs_tables :A /dev/data/data HTFS
@ :B /dev/data1/data1 HTFS
ap_tables :A:nm1:/shell/start1&:/shell/stop1
@ :B:nm2:/shell/start2&:/shell/stop2
ctl_ap :Axxx1
@ :Bxxx2
paper_setup isable
modem_setup :/dev/tty2a
paper_tables :
reference_ip :
ts_tables :
Hot Standby模式
*********************Host A(Primary Server)**********************************
host_id :A
scsi_device :/dev/rware
ip_tables :Real_IP1 net0 89.0.0.1 255.255.255.0 89.0.0.255
@ :Virtual_IP1 net0 89.0.0.11 255.255.255.0 89.0.0.255
fs_tables :A /dev/data/data HTFS
ap_tables :A:nm1:/shell/start1&:/shell/stop1
ctl_ap :Axxx1
paper_setup isable
modem_setup :/dev/tty2a
paper_tables :
reference_ip :
ts_tables :
*********************Host B(Standby Server)*********************************
host_id :B
scsi_device :/dev/rware
ip_tables :Real_IP1 net0 89.0.0.2 255.255.255.0 89.0.0.255
@ :Virtual_IP1 net0 89.0.0.11 255.255.255.0 89.0.0.255
fs_tables :A /dev/data/data HTFS
ap_tables :A:nm1:/shell/start1&:/shell/stop1
ctl_ap :Axxx1
paper_setup isable
modem_setup :/dev/tty2a
paper_tables :
reference_ip :
ts_tables :
使用样本文件
为了安装 DataWare,需要”dw.cfg”文件,它可以从”cfg.a”或”cfg.b”拷贝过来,也可以自己用vi 编辑器参考模板建立。两台服务器的”dw.cfg”文件不同,你可以直接通过编辑”cfg.a “或”cfg.b”来建立。样本文件” cfg.a”用于为主机A建立” dw.cfg”文件,样本文件”cfg.b”用于为主机B建立”dw.cfg”文件。
DataWare 安装时,先通过建立”dw.cfg”设置文件,再运行”dwinst”命令来完成安装。
3.6 安装步骤
再次检查当前环境
查硬件(RAID)是否正确设置和连接到服务器
两台服务器加电
如果RAID上没有建立文件系统,就从其中一台服务器上建立起来
确保在RAID上的SCSI ID与每一台服务器相同(一般情况)
安装步骤
可以从任何一台服务器开始安装
step1: 改变目录到”/tmp”
step2: 插入Dataware 系统软盘到软驱中,用”tar“命令释放软盘内容到”/tmp”目录中。
step3: 如果用”dw.cfg”文件正确配置完成,请在”/tmp”目录中键入./dwinst
注意:
a. 确定”dw.cfg”文件配置与服务器相匹配
b. 另外一台服务器进行相同的步骤
3.7 完成安装
DataWare安装完成后,会建立以下目录:
/usr/lib/dataware/configure
/usr/lib/dataware/exec
/usr/lib/dataware/Record
每个目录包含的文件如下:
/usr/lib/dataware/configure
host_id ------ the host identity file
scsi_device ------ the raw device file
ip_tables ------ the IP address table
fs_tables ------ the file system table
application_tables ------ the application program table
dw_identify ------ the identify file of DataWare
paper_setup ------ the paper setup control
reference_ip ------ the reserver file
/usr/lib/dataware/exec
包含以下DataWare运行时需要的系统程序文件
k10Ware dataware dwnt dwsend dwumjob mesgdw
S99Ware dwmsg dweng dwmjob dwrtel dwsetpsw
dwcheck dwinst dwwtel jswitch
/usr/lib/dataware/Record
包含所有的历史记录文件,文件名按以下规则命名:
Year_month_day
必要时可删除旧的历史记录文件
注意:为保证DataWare能正常工作,除非特殊情况用户不应修改或删除任何系统文件。
3.8 开始DataWare系统
当完成安装后,重起每台服务器,DataWare将自动启动。
以下命令用于检查DataWare状态:
1. ”dwcheck “ :若没有参数,意思是检查DataWare运行模式、运行角色和
运行状态
2. ”dwcheck c “ :加参数c,显示配置信息
3. ”dwcheck n “ :加参数 n ,显示DataWare 序列号,用于向Proware公司
注册
3.9 注册
DataWare有30天试用期,安装后,你必须在30天内注册,让它成为一个无限期的正式版本。
以下是注册过程:
step1: 检查你使用的版本的序列号,用命令”dwcheck n “,将在屏幕上显示出序列号
step2: 将显示的序列号通知Proware授权的代理商
step3:用户将从代理商得到返回码,在服务器主机A,进入/usr/lib/dataware/exec,运行程序”./dwsetpsw”,键入返回码
注意:
a. ”dwsetpsw”是一个交互式程序,它只能在主机A 上运行。
b. 不要试着输入一些随机数字作为返回码,如果用户试做,Proware 公司不会对导致的结果责任
c. 不要试图修改系统时间,如果用户试做,Proware 公司不会对导致的结果责任
“dwinst” & ”waredata”
“dwinst”是一个安装程序,在安装时将使用”waredata”文件(“dwinst”会自动读取此文件,用户不需要键入此文件名作参数),”waredata”文件是一个包含所有DataWare系统文件的文件包。
当你运行”dwinst “程序时,将显示以下信息:
** DataWare 4.00 A02 (10723) - ProWare(C) **
** System Configurations...
The installation will destroy old DataWare system
Please confirm with [y] if the answer is yes:
若键入不是字符 ‘Y’ 或 ‘y’ ,以下信息将显示,并退出安装程序:
*** User abort installation!
若键入字符 ‘Y’ 或 ‘y’ ,则执行安装过程,将显示”dw.cfg”的配置信息,安装完成后将显示以下信息:
*** DataWare installation is completed.
*** Please restart system...
注意:运行DataWare之前,必须首先在两台服务器上完成安装。
第四章
系统服务
这一章描述系统服务如何在两台服务器上工作。
4.1 概述
DataWare是设计成在两台带有RAID和网卡互连的服务器工作的一个软件,它有两种运行模式,即Dual Active和Hot Standby模式。
利用Hot Standby模式使你有一个完全处于等待状态的备份系统,这样在切换后不会产生过载的问题。
利用Dual Active模式使你充分利用两台服务器的资源,但在切换后可能会产生过载的问题。
4.2 Hot Standby模式
介绍
此方式适用于在一台服务器上运行业务应用,另一台服务器完全处于备份等待状态。这里称运行业务应用的服务器为”PRIMARY”,称备份服务器为”STANDBY”。
DataWare用RAID作为通信介质,同时也通过服务器的网卡互相监测,以使误切换的可能性降低到最小程度。
Hot Standby切换服务
DataWare在两台服务器发生以下关键性故障时,将发生切换:
系统或者应用引起主机系统性事故
主机和RAID 的SCSI接插口松弛时
备机和RAID 的SCSI接插口松弛时
RAID控制器不能在PRIMARY上做I/O请求
RAID控制器不能在STANDBY上做I/O请求
PRIMARY服务器当机
STANDBY服务器当机
执行”jswitch”任务切换程序
PRIMARY服务器的行为
如果以上故障在STANDBY服务器发生,PRIMARY服务器将显示警告信息通知用户,不会发生切换,这些信息也会保存在以下目录:
/usr/lib/dataware/Record /LOG
用户可以查看这些信息的细节。
注意:当执行”jswitch”任务切换程序时,切换将立即发生
STANDBY服务器的行为
如果以上条件在PRIMARY服务器发生,STANDBY服务器将从PRIMARY服务器接管以下服务:
mounted文件系统
接管虚拟IP地址
开始和停止应用程序
警告信息将显示通知用户,这些信息将以当前时间作为文件名,存储在目录 /usr/lib/dataware/Record/LOG中
发生切换后,用户可以在故障服务器上作检查和维护工作,当此修复的服务器(原先的PRIMARY服务器)启动后,它将自动作为STANDBY服务器,另外原先的STANDBY服务器这时作为PRIMARY服务器。
4.3 Dual Active模式
介绍
此方式适用于在两台服务器上运行业务,这种情况下,一台叫做”Host A”,另一台叫做”Host B”,两台服务器互为备份。例如,当任何一台服务器当机时,另一台服务器将接管所有的业务应用。
DataWare在两台服务器发生以下关键性故障时,将发生切换:
系统或者应用引起主机系统性事故
主机和RAID 的SCSI接插口松弛时
备机和RAID 的SCSI接插口松弛时
RAID控制器不能在PRIMARY上做I/O请求
RAID控制器不能在STANDBY上做I/O请求
PRIMARY服务器当机
STANDBY服务器当机
执行”jswitch”任务切换程序
Dual Active模式中两台服务器的行为
如果以上故障在任何一台服务器上发生,另一台服务器将显示警告信息通知用户,这些信息将以当前时间作为文件名,存储在目录 /usr/lib/dataware/Record/LOG中,在这时,对等服务器将从另外一台服务器接管以下服务:
mounted文件系统
接管虚拟IP地址
开始和停止应用程序
注意:每个服务器有自己已经mount的文件系统和正在运行的业务应用,一旦一台服务器接管另一台的任务,系统会因为负载增加而变慢。综上所述用户在安装前应考虑适合自身实际应用的备份策略,选择Dual Active或Hot Standby模式。
4.4 DataWare的 “start “和”stop”
DataWare 安装成为一个自启动的系统软件,安装完成后,生成一个shell文件(/etc/rc2.d/S99Ware)包含启动命令:
/usr/lib/dataware/exec/dataware –s start
放在系统启动列表中,另外一个shell文件(/etc/rc0.d/K10Ware)包含停止命令:
/usr/lib/dataware/exec/dataware –s stop
放在系统停止列表中。
当系统启动时,DataWare跟着自动启动,当系统关闭时,DataWare自动处理正常的停止过程。
总结
这里总结所有启动和停止命令,超级用户可以选用合适的命令方式,写在文件”/etc/rc2.d/S99Ware “(启动命令) 和”/etc/rc0.d/K10Ware (停止命令)中。
注意:确定两台服务器用相同的启动和停止命令,例如,在一台服务器上的S99Ware中使用命令“dataware –m –s start“,而在另一台服务器的S99Ware中使用命令”dataware –s start”,这样是不正确的。
4.5 注意事项
a. 请不要修改或删除任何DataWare系统目录中的。如果需要改变系统配置,请改变”dw.cfg”,然后重新安装DataWare。
b. 对DataWare软盘作备份,将原盘保存好。
c. 如果系统有任何异常情况,请先检查以下几项:
- RAID系统的电源
- RAID系统与两台服务器的SCSI连接器
- 网卡连接是否正常
- RAID系统上的LCD显示是否正常
- 系统业务应用是否能正常运行
- 服务器上的SCSI驱动是否正常工作。
d. 确保用户使用的Dataware 已被注册,有限期限版在安装后只能使用30天。
e. 建议DataWare由系统管理员控制,未经系统管理员授权不要运行。
第五章
DataWare优化指南
5.1 Read me first (概要先述)
DataWare软件主程序/usr/lib/dataware,配有多组功能参数,用户可根据应用的实际情况设置不同的参数组合,这样在满足用户需求方面,只需调整参数而无需更换软件,就可实现不同的功能模式。
a. DataWare支持模式
DataWare软件支持系统达到以下三种功能模式:
双机单网卡主从热备 ; 后续章节简称“HS mode”
双机互备援 ; 后续章节简称“DA mode”
双机双网卡主从热备 ; 后续章节简称“HS mode”
b. 安装路径: /usr/lib/dataware
/usr/lib/ dataware主目录
--------------------------------------------------------------------
drwx------ 3 root sys 512 Jun 4 02:47 Record
drwx------ 2 root sys 512 Jun 4 04:12 Request
drwx------ 2 root sys 512 Jun 4 02:47 configure
drwxr-xr-x 2 root sys 512 Jun 4 02:47 exec
--------------------------------------------------------------------
*Record目录内容
--------------------------------------------------------------------
drwx------ 2 root sys 512 Jun 4 02:51 LOG
--------------------------------------------------------------------
*Record/LOG目录内容
--------------------------------------------------------------------
-rw-r--r-- 1 root root 1832 Jun 4 04:12 1998_06_04
--------------------------------------------------------------------
*Request目录内容
--------------------------------------------------------------------
total 0
--------------------------------------------------------------------
*configure目录内容
--------------------------------------------------------------------
-rw------- 1 root sys 32 Jun 4 02:47 ap_tables
-rw------- 1 root sys 75 Jun 4 02:47 ctl_tables
-rw------- 1 root sys 21 Jun 4 02:47 fs_tables
-rw------- 1 root sys 2 Jun 4 02:47 host_id
-rw------- 1 root sys 108 Jun 4 02:47 ip_tables
-rw------- 1 root sys 11 Jun 4 02:47 modem_device
-rw------- 1 root sys 8 Jun 4 02:47 pager_setup
-rw------- 1 root sys 1 Jun 4 02:47 pager_tables
-rw------- 1 root sys 15 Jun 4 02:47 reference_ip
-rw------- 1 root sys 11 Jun 4 02:47 scsi_device
-rw------- 1 root sys 12 Jun 4 02:47 dw_identify
-rw------- 1 root sys 8 Jun 4 02:47 dwmnt_cfg
-rw------- 1 root sys 1 Jun 4 02:47 ts_tables
--------------------------------------------------------------------
*exec目录内容
--------------------------------------------------------------------
-rwxr-xr-x 1 root sys 84962 Jun 1 13:38 iochk
-rwxr-xr-x 1 root sys 62724 Jun 1 13:38 jswitch
-rwxr-xr-x 1 root sys 233103 Jun 1 13:38 pingchk
-rwxr-xr-x 1 root sys 272408 Jun 1 13:38 dataware
-rwxr-xr-x 1 root sys 81419 Jun 1 13:38 dwcheck
-rwxr-xr-x 1 root sys 110444 Jun 1 13:38 dweng
-rwxr-xr-x 1 root sys 93167 Jun 1 13:38 dwinst
-rwxr-xr-x 1 root sys 111767 Jun 1 13:38 dwmjob
-rwxr-xr-x 1 root sys 110384 Jun 1 13:38 dwnt
-rwxr-xr-x 1 root sys 11208 Jun 1 13:38 dwread
-rwxr-xr-x 1 root sys 126768 Jun 1 13:38 dwsend
-rwxr-xr-x 1 root sys 83799 Jun 1 13:38 dwsetpsw
-rwxr-xr-x 1 root sys 62400 Jun 1 13:38 dwstop
-rwxr-xr-x 1 root sys 41242 Jun 1 13:38 dwtset
-rwxr-xr-x 1 root sys 110228 Jun 1 13:38 dwumjob
5.2 快读指南
参数举例
jswitch
手工切换命令,强制将生产机工作状态切换到备份机
dataware
启动DataWare主程序,默认方式是其后不跟任何参数,适用于单网卡主从热备模式或双机双控对等处理模式;
dataware -h
当主机负载过大(通常是业务主机执行一个很大的job,需要占用较多的系统资源,而完成job的时间也比较长),但此时业务主机运行正常,只是由于CPU没有空余的I/O分配给DataWare,对等服务器很久没有得到业务主机的心跳回应,DataWare开始怀疑业务主机有问题,为得到进一步确认,以避免不正常切换,DataWare要求再从网络心跳检查系统,进行确认。
dataware -r
在双网卡主从热备模式下启动DataWare,配置文件dw.cfg中网卡部分参考DA模式;但A和B不交换;
dataware -m -p30 -r
在双网卡主从热备模式下运行Auto Fail Back,而DataWare在takeover(接管)之后30秒后,开始监控应用和系统运行状态;
dataware -k(或 dataware -s stop)
停止DataWare的运行
可调整参数列表
dataware -s start = dataware
dataware –s stop = dataware -k
dataware -x
使用于DA模式;当生产机的 DataWare停止运行时,对等主机不接管任务,用户如果希望释放生产机的工作,可运行“jswitch”,而 DataWare继续运行;
dataware -r
运行双网卡主从热备模式;
dataware -m = dataware -a(auto take job back)
如果是DA模式,主机自动抓回自己的业务;在HS模式下,生产机强制抓回应用业务,继续充当生产机;
dataware -pXX
DataWare开始正常运行或发生切换接管(Take Over)完成后, DataWare等待XX秒以后开始监控应用程序运行状态,以及网络ARP表;XX缺省值设为10,即10x2=20秒,参数范围:6~90
dataware -tXX
DataWare正常启动后,在XX秒范围内,如果对等主机没有反馈响应信息, DataWare开始怀疑对等主机是否故障,为确认判断是否正确,在开始安装时如果已配置了“-f”参数,此时即刻调用“-f”参数确诊;如果没有配置“-f”参数,则判断为对等主机没有反应或故障, DataWare开始执行强行接管;XX缺省值设为10,即10秒,参数范围:6~40
dataware -fXX
DataWare在使用“-t”参数判断对等主机没有反应后,使用“-f”参数确诊,既每隔2秒检查一次,共检查XX次后,如果对等主机仍无反应,既判断对等主机确实故障,开始强行接管(Take-Over); XX缺省值设为10,即10x2=20秒,参数范围:6~90
dataware -i
初始化SCSI心跳的5MB磁盘柜逻辑盘小区,该动作已由软件安装程序“dwinst”做过,用户实际应用中不再需要
dataware -c
某些情况下,如果操作系统装的不好,系统在多用户状态运行时,进程管理的PS Table会不正常;为让 DataWare有效地管理服务进程,该参数强调提前 DataWare主进程的进程号,便于管理
dataware -cX
DataWare停止或切换过程是先停止AP应用,再执行DataWare stop,卸载文件系统,将网卡虚拟地址改回netconfig实际地址。但一般AP应用程序的停止都是调用一个UNIX Shell程序,让AP应用程序的运行状态完全停止,需要一个安全时间,不能立即完成;该参数是设置 DataWare是否等待AP应用程序完全停止,再做DataWare stop的动作;X的参考值设定如下:
-c0
表示 DataWare不管AP应用程序是否完全停止,即刻执行 DataWare stop的动作,将网卡虚拟地址改回netconfig实际地址。
-c1
表示 DataWare一定要等待AP应用程序完全停止下来,才执行 DataWare stop的动作,将网卡虚拟地址改回netconfig实际地址。
-c2
因为某些AP应用程序的停止,一定要在网络虚拟地址有效时进行,否则会造成一定的损失和故障,所以DataWare执行dataware stop的动作以前,需要等待一段时间,让AP应用程序完全停下来;具体要等待的时间设定将由“-e”参数补正, 格式设定如下:
-c2 –eX
即等待X时间后, DataWare才执行 DataWare stop的动作,X默认设为4(4x2=8秒);参数范围:1~40
dataware -dX = Debug
DataWare Debug调整,X设为不同值时,可一步一步地显示 DataWare工作状态
-d6
显示两台对等服务器及网络参考点网络运行状态
-d4
显示AP应用程序的执行状态,随时报告PS Table中AP应用程序的进程名字和进程号;
dataware -o
通常情形下,DataWare正常运行时,如果侦测到网络出现故障,网络心跳会加快侦测速率,同时会多检测几次,在网络安全测试时间内,如果网络确实故障,故障主机的DataWare会执行dataware stop的动作,让对等主机接管;但在某些情况下,网络的运行状态不一定非常稳定,所以根据应用的不同,需要DataWare在侦测到网络故障时,执行切换以后继续运行,”-o”的参数可满足这一要求。
dataware -bX
切换测试参数。
-b4
只检测 DataWare握手状态是否正常,可否进行正常切换; DataWare运行时,不做虚拟网址置换,不mount文件系统,不启动应用,不进行监测。
-b1
DataWare只检测网络,同时置换虚拟网址,如果网络有问题,检测切换是否正常。
-b2
DataWare只mount文件系统,并启动和监控AP应用程序;但不做虚拟网址置换,不监测网络;当AP应用程序故障,检测切换是否正常。
dataware -uX 网络稳定性检查
在完成网卡配置以后,及 dataware 初始化文件dw.cfg配置完成后,当系统进入Multi User多用户状态运行时,为检查网卡在 dataware运行前及 dataware开始运行已置换虚拟网址后,网络运行状态的稳定性,需要调用 dataware的网络检查工具“pingchk”; pingchk执行时会在对等的两快网卡之间做16次模拟网络交易,其报告结果为每一次交易网络通断次数,结果值“0”表示交易成功,结果值非0,表示通讯不正常;当16次模拟网络交易有50%以上非0,则表示当前的系统网络环境不适合 DataWare运行,若不改变当前网络系统配置而运行 DataWare的话,则必须调整“-u”,将“pingchk” 模拟网络交易16次结果超过12次以上测为“0”。
举例: Server A : 15.15.15.1 虚拟网址: 15.15.15.99
Server B: 15.15.15.2
pingchk 15.15.15.99 errcnt=0 表示网络交易成功
delay,errcnt=14000,0
delay,errcnt=15000,0
delay,errcnt=16000,0
delay,errcnt=17000,0
delay,errcnt=18000,0
delay,errcnt=19000,0
delay,errcnt=20000,0
delay,errcnt=21000,0
delay,errcnt=22000,0
delay,errcnt=23000,0
delay,errcnt=24000,0
delay,errcnt=25000,0
delay,errcnt=26000,0
delay,errcnt=27000,0
delay,errcnt=28000,0
delay,errcnt=29000,0
-uX: X参数选择范围 1~99,初始默认值为30
第六章
DataWare双机系统的测试
6.1 启动DataWare之前的检测
iochk检查对等主机对磁盘柜的存储位置是否一致。
A机:
# cd /usr/lib/dataware/exec
# ./iochk 111
** Notes: This test program will clear Dataware data on RAID
Dataware must be stoped to run this program!
Are you sure you want to test?(y/n):
y
Read Nbr Data=0, Write 111 to Nbr
Please check if Nbr read 111 by running this program on Nbr Server!
#
[注] Nbr表示对等主机服务器
B机:
# cd /usr/lib/dataware/exec
# ./iochk 222
** Notes: This test program will clear Dataware data on RAID
Dataware must be stoped to run this program!
Are you sure you want to test?(y/n):
y
Read Nbr Data=111, Write 888 to Nbr
Please check if Nbr read 888 by running this program on Nbr Server!
#
[注] Nbr表示对等主机服务器
Data=111表示已读到A机写入的数据
pingchk在完成网卡配置以后,及DataWare初始化文件dw.cfg配置完成后,当系统进入Multi User多用户状态运行时,为检查网卡在DataWare运行前及DataWare开始运行已置换虚拟网址后,网络运行状态的稳定性,需要调用DataWare的网络检查工具”pingchk”;pingchk执行时会在对等的两快网卡之间做16次模拟网络交易,其报告结果为每一次交易网络通断次数,结果值”0”表示交易成功,结果值非0,表示通讯不正常;当16次模拟网络交易有50%以上非0,则表示当前的系统网络环境不适合DataWare运行,若不改变当前网络系统配置而运行DataWare的话,则必须调整”-u”,将”pingchk”模拟网络交易16次结果超过12次以上测为”0”。
A机:# cd /usr/lib/dataware/exec
# ./pingchk 15.15.15.1
delay,errcnt=14000,0
delay,errcnt=15000,0
delay,errcnt=16000,0
delay,errcnt=17000,0
delay,errcnt=18000,0
delay,errcnt=19000,0
delay,errcnt=20000,0
delay,errcnt=21000,0
delay,errcnt=22000,0
delay,errcnt=23000,0
delay,errcnt=24000,0
delay,errcnt=25000,0
delay,errcnt=26000,0
delay,errcnt=27000,0
delay,errcnt=28000,0
delay,errcnt=29000,0
B机:# cd /usr/lib/dataware/exec
# ./pingchk 15.15.15.2
delay,errcnt=14000,0
delay,errcnt=15000,0
delay,errcnt=16000,0
delay,errcnt=17000,0
delay,errcnt=18000,0
delay,errcnt=19000,0
delay,errcnt=20000,0
delay,errcnt=21000,0
delay,errcnt=22000,0
delay,errcnt=23000,0
delay,errcnt=24000,0
delay,errcnt=25000,0
delay,errcnt=26000,0
delay,errcnt=27000,0
delay,errcnt=28000,0
delay,errcnt=29000,0
6.2 单服务器测试AP应用完全启动时间
为优化配置DataWare启动文件/etc/S99Ware,必须先对应用程序进行测试,以确定应用完全启动所需时间。(该时间内不运行应用业务交易)
以下操作过程重复三次,取平均值。
运行启动应用的shell程序
# time –p /shell/start
Last successful real login for informix:Tue Jun 09 15:25:16 1998 tty01
Real 7.150000
User 0.060000
Sys 0.080000
#
运行停止应用引擎shell程序
# time –p /shell/k15
Last successful real login for informix:Tue Jun 09 15:25:16 1998 tty01
Real 2.920000
User 0.180000
Sys 0.160000
#
6.3 优化DataWare启动
# cd /etc/rc2.d
# vi S99Ware
初始默认设置:
① /usr/lib/dataware/exec/dataware –s start
②S99Ware初始默认设置为dataware –t10 –f15 –c1 –p20
修改优化配置:
如果AP应用程序启动时间≤40秒,停止时间≤30秒,不需要更改初始默认设置,但仍然需要加入优化参数。
修改结果:/usr/lib/dataware/exec/dataware –o –h –s start
注意:两台对等主机在完成所有安装和检查的工作后必须重起。
6.4 检查DataWare运行状态
系统进入多用户状态,Console显示如下信息
..............
Starting NFS services: biod(x4)
Starting NLM services: statd lockd
Warning: daemon is running as super-user
Startup:listening to port 620 as root
Ns_httpd on 0.0.0.0 startup:listening to port 80 as nouser
Start /usr/internet/etc/ncsa_httpd....done.
Starting scohttp......done.
Starting SCO PC-Interface for Unix
Copyright (C ) 1984-1995 Locus Computing Corporation.
All right reserved.
** DataWare 4.00 A02 (10723) - ProWare(C) **
Please wait for system checking........
The system is ready.
SCO OpenServer (TM) Release 5 (scosysv.UUCP.com) (tty01)
Login:
A机
键入root,以超级用户身份登录,屏幕显示:
# Dataware: Start to takeover jobs......
>;>;Change IP to Virtual !
>;>;Start AP Engine !
Dataware : Detect another host still not running !
: I am running as PRIMARY !
Dataware : In normal process now!
“Dataware : In normal process now!”表示本机启动完成,等待对等服务器握手
..............
Starting NFS services: biod(x4)
Starting NLM services: statd lockd
Warning: daemon is running as super-user
Startup:listening to port 620 as root
Ns_httpd on 0.0.0.0 startup:listening to port 80 as nouser
Start /usr/internet/etc/ncsa_httpd....done.
Starting scohttp......done.
Starting SCO PC-Interface for Unix
Copyright (C ) 1984-1995 Locus Computing Corporation.
All right reserved.
** DataWare 4.00 A02 (10723) - ProWare(C) **
Please wait for system checking........
The system is ready.
SCO OpenServer (TM) Release 5 (scosysv.UUCP.com) (tty01)
Login:
B机
键入root,登录UNIX超级用户,A机屏幕显示:
B机屏幕显示:
#
Dataware : Another host is alive and running !
: I am running as STANDBY !
Dataware : In normal process now!
“Dataware : In normal process now!”表示备份机启动完成,并和生产机握手成功。
运行系统检查命令,查看两台对等服务器的运行状态
键入命令:
# dwcheck
A机
# dwcheck
** DataWare 4.00 A02 (10723) - ProWare(C) **
Current status/configurations:
My Status : Dataware is running !
Neighbor host : running
Take over : No
Job status : I have job
Scheme mode : Hot Standby
Auto status : Mandatory take
Role : Primary
B机
# dwcheck
** DataWare 4.00 A02 (10723) - ProWare(C) **
Current status/configurations:
My Status : Dataware is running !
Neighbor host : running
Take over : No
Job status : I have no job now
Scheme mode : Hot Standby
Auto status : Mandatory take
Role : Standby
[注释]
My Status: 表示本机的DataWare是否运行
Neighbor host: 表示对等服务器(备份机)运行状态是否良好
Take over: 表示切换后,本机是否接管;DataWare在安装配置完成,第一次启动运行时,此值是“NO”,当有切换状况发生时,在”Primary”服务器该值为“YES”。
6.5 系统监控工具DWVIEW
dwview可以动态监测系统运行状态,包括生产机和备份机的网络;生产机应用运行和监测;备份机对故障主机的响应;两台服务器DataWare的动态运行;所有报警信息的动态显示和声音提示。
DataWare 4.00 A02 (10723) - ProWare(C)
A Run Scheme : Hot Standby B
Primary Host is : Primary Standby
*******
My Status : Dataware is running
Neighbor host : Running
Take over : NO
Job status : I have job
Scheme mode : Hot Standby
Auto status : Mandatory take
Role : Primary
Notice to Supervisor:
XXX XXXX XXXXX XXXX XXXX XXXXX XXX XXXX XXXXX
A=Abort, B=Stop beep sound , Ctl_J=Switch job
DWVIEW标准画面
注意:
1. 建议用户在Console第二屏(按Ctrl+F2),启动dwview监控2个服务器的状态 。
2. 运行状态:
在屏幕上方左边第一列显示本机服务器的执行状态,“Primary”表示当前服务器作为生产机,同时Primary字样下有一左右跳动的绿色方块;右边第一列信息显示对等服务器(既备份机)的执行状态,“Standby”表示对方服务器为备份机,同时Standby字样下有一左右跳动的红色方块;
在屏幕上方中间部分,“Run Scheme”表示当前系统运行的模式(Dual Active或Hot Standby);”Host is”表示当前服务器的身份,同时在该字样下面兰色方块内,有一条左右移动的“*”号串,表示双机都“活着”。
在屏幕上方中间部分显示DataWare版本信息,** DataWare 4.00 A02 (10723) - ProWare(C) **;该信息左侧有一个红色的方块,方块中央有一条顺时针旋转的“|”,表示表示双机都“活着”。
3. 屏幕下方显示系统提示信息,这些提示信息包括告警,以及提示用户发生告警(或切换)的原因,并告知用户应该检查的系统部件,同时以声音告警。声音报警会持续不断,一直到系统管理员键入“B”键停止声音。
4. 'To Supervisor':提示用户将有信息显示,所有提示信息不断闪烁,提醒系统管理员注意。
6.6 切换状态检查
DataWare双机系统平台,可以实现多种功能的组合。为确保系统最大的安全可用性,我们提供安全切换测试表格,供用户参考。
测试要求:
1. 基本功能
(1) 服务器停电时,能实现自动切换。
(2) 服务器的硬盘、CPU、RAM发生故障, 影响系统运行时, 实现自动切换。
(3) 网络连接发生故障时(如服务器的网卡,网线故障),实现自动切换。
(4) 操作系统、数据库或应用程序发生故障时,应能实现自动切换。
(5) 提供手动切换功能,使系统管理员可以在主机负载过大时或其它适当的时候,实现手动切换。
(6) 双机软件本身发生故障时,应能给出提示信息,使系统管理员可以及时将其恢复。
(7) 安全完成多次切换。
(9)监测备份机的基本设备和系统状态,保证备份机的可靠性。
(10)保留完整的系统日志。
注:在Hot Standby模式中系统发生切换后,因其恢复方式的不同还可以分成2种形式:
* 对等式— 备份机与主机配置完全相同,主机修复后即充当备份机,不再发生切换。
* 主从式— 备份机配置较低,主机修复后即接管系统,所以要进行第二次切换。
2. 监控界面要求
(1) 发生任何故障时,均在监控窗口中给出出错信息及相应的处理建议。
(2) 发生重大故障或切换时,应发出明显的信号(如警报声等)提请系统管理员注意。
测试项目:
测试点 测试目的 切换状态 测试状态
系统硬件故障
系统硬盘故障(单个) 检验硬盘冗余 不切换 正常
SCSI电缆故障 检验DW 监控性能 切换 正常
网络(网卡)故障 检验DW 监控性能 切换 正常
系统软件故障
操作系统出现故障 检验DW 监控性能 切换 正常
数据库故障 检验DW 监控性能 切换 正常
应用程序故障 检验DW 监控性能 切换 正常
双机软件故障 检验DW 监控性能 切换 正常
TCP/IP协议故障 检验DW 监控性能 切换 正常
常规测试故障
双机无序启动 检验系统的稳定性 \ 正常
双机软件手动加载 检验DW性能 \ 正常
双机软件自动加载 检验DW性能 \ 正常
双机Auto Fail Back 检验DW性能 切换 正常
业务主机单机上双机软件正常停止 检验DW 监控性能,但主机需停机维护 切换 正常
双机软件手动强制切换 检验DW性能 切换 正常
共享盘进行读写操作时发生切换 检验DW监控性能 切换 正常
主机负载过大时,要求强制切换 检验DW监控性能 切换 正常
主机发生重复运行双机软件的误操作 检验DW监控性能 不切换 正常
杀掉不同名的AP进程 检验DW监控性能 切换 正常
杀掉同名的AP进程 检验DW监控性能 切换 正常
主机掉电 检验DW监控性能 切换 正常
双机软件多次切换 检验DW的稳定性 切换 正常
备份机故障,主机得到显示 检验DW监控性能 不切换 正常
附录A
错误信息
A.1 dwinst的错误信息
Error : Install abort
Description : System file not exist !
Action : You are running “dwinst “without the “dw.cfg” file .
Error : Input Host ID error !
Action : Check your “host_id“ filed position and content, don’t use Tab (tabulation) as spaces.
Error : Input Raw device error !
Action : check your “scsi_device“ filed position and content, don’t use Tab(tabulation) as spaces.
Error : Input IP tables error !
Action : check your “ip_tables” field position and content, don’t use Tab(tabulation) as spaces.
Error : Input Files system tables error !
Action : Check your “application_tables“ fields position and content, don’t use Tab(tabulation) as spaces.
Error : Cannot create XXX
Action : Your system can not create (write ) file XXX ,please check with your Server support engineer.
A.2 dwview的提示信息
Neighbor host ask me to release.
对方服务器要求本机释放工作,交给原来的主机;(表示系统设定为Auto Fail Back)
Release my jobs to another host due to Application missing.
因为当前服务器发现AP应用运行的不完整,发生切换
Stop running myself due to the force command.
系统管理员要求强制切换
Release my jobs due to force job switching.
系统管理员要求强制切换
Stop running myself due to force stop command [dwstop].
由于执行停止命令,当前主机停止运行DataWare。
Release my jobs to another host due to LAN check fail.
由于当前生产机网络故障,发生切换。
Stop running and let another host take my job due to LAN check fail.
由于当前生产机网络故障,发生切换;并停止运行DataWare。
Critical take over jobs happens, due to Nbr no response !
可能由于对方服务器故障(如备份机拔网线),没有心跳回应而告警。
No backup machine now, for another host is not alive !
检测到备份机DataWare没有运行,或发生严重故障,或没有开机。
No responding from Neighbor host, loop checking is in progress...
对方服务器没有心跳回应,当前主机开始做确定检查。
DataWare is not running on this host.
DataWare在当前服务器没有运行。
To maintain HA functions & view status you need to run it again.
DataWare正在运行时,用命令方式停止DataWare,或两台服务器都crash。
A.3 DataWare一般提示信息
一般提示信息显示DataWare在不同模式下的正常操作状态。
一般提示信息的语法
每一次状态改变,显示的第一条信息以字符串”=======>;”开头,这是为了便于用户查找信息。如果一条信息以字符串”PRIMARY”、”STANDBY”、”HOST A”或”HOST B”开头,意味着着条信息还给出了本机的运行角色。
一般信息解释
** DataWare 4.00 A02 (10723) - ProWare(C) **
DataWare的版本信息
=======>; Daemon NNN start ...
宣告DataWare已启动,NNN是进程号
************ Wait for system checking…
DataWare进行系统检测
Start to takeover jobs ...开始接管任务
>;>; Mount file systems !
Mount文件系统
>;>; Change IP to Virtual !
改变成虚拟IP地址
>;>; Start AP Engine !
启动应用程序
>;>; Stop AP Engine !
停止应用程序
>;>; Change IP to Real !
改变成真实IP地址
>;>; UNmount file systems !
Umount文件系统
Another host is alive and running !
另一个主机运行正常
I am running as PRIMARY !
本机作为主机运行
In normal process now !
进入一般运行状态
Cannot mount filesystems !
无法mount文件系统
Cannot umount filesystems !
无法umount文件系统
Application running error !
应用程序执行错误
Cannot change IP address !
无法改变IP地址
Re-initialize Disk Array data input !
重新初始化磁盘阵列数据输入
Initialize Disk Array data structure OK !
初始化磁盘阵列数据结构状态OK
Not initialize Disk Array data structure !
没有初始化磁盘阵列
Detect another host starts running !
检测到另一台主机开始运行
Detect another host still not running !
检测到另一台主机仍然没有运行
No backup machine now!!
现在没有备份机
Detect DataWare on another host is not active !
检测到另一台主机上的DataWare没有运行
DataWare is stoped, not running on this host now !
本机DataWare被停止
DataWare is ready to stop due to Supervisor command...
本机被系统管理员正常停止
DataWare is already running on this host !
DataWare已在本机上运行
IP tables configure error. Check DataWare configuration.
IP地址配置错误,请检测DataWare的配置
RAID I/O error !
RAID I/O错误
注意:以上可能没有包括所有的信息
A.4 DataWare故障信息
如果运行不正常,DataWare会将故障信息显示在屏幕上。
故障信息语法
Error NNN : Messages !
故障信息解释
Error 100:Time slice is not the same with another server !
两台服务器DataWare配置的时间参数不一致,在运行时握手不正常
Actions:将系统进入单用户,重新安装DataWare.
Error 101:Running mode is not consistant with another server !
由于两台服务器DataWare配置文件/etc/rc2.d/S99Ware内容不一致;当DataWare名称后面的参数不同时,既指定运行的模式不同,出现报错信息。
Actions:使两台服务器上的运行模式一致(修改S99Ware文件)。
Error 102:Running Release is not the same with another server !
由于两台服务器DataWare版本不一致。
Actions :请使用相同版本的DataWare软件。
Error 103 :Running system settings inconsistant, need re-run DataWare !
该信息表示由于服务器在运行DataWare时,发现错误Error 100、101 或102 所以强制停止对方服务器DataWare的运行。
Actions :请使用相同参数设置DataWare。(参考Error 100,101,102)
Error 220 :Cannot mount filesystems !
Several reasons cause this happens:
1. DataWare配置不正确
2. 系统文件 "fs_tables" 在以下目录中不存在:
/usr/lib/DataWare/configure
3. 文件系统不存在
Actions :情况1:
键入"dwcheck c"检查文件系统名称是否正确;如果不正确,请在”dw.cfg”中使用正确的名称,并重新安装DataWare。
情况2:
在DataWare安装完成自动产生文件 "fs_tables",如果文件被删除,则必须重新安装DataWare。
情况3:
文件系统必须已存在,且与DataWare配置文件中的同名,建议在运行DataWare以前仔细检查已创建的文件系统。
Error 230 :Cannot umount filesystems !
可参考Error 220。一般情况下Error 220的信息会先显示,但在系统运行中,如果系统文件 "fs_tables"被删除,则报”Error 230”
1. DataWare配置不正确
2. 系统文件 "fs_tables" 在以下目录中不存在:
/usr/lib/DataWare/configure
3. 文件系统不存在
Actions :情况1:
键入"dwcheck c"检查文件系统名称是否正确;如果不正确,请在”dw.cfg”中使用正确的名称,并重新安装DataWare。
情况2:
在DataWare安装完成自动产生文件 "fs_tables",如果文件被删除,则必须重新安装DataWare。
情况3:
文件系统必须已存在,且与DataWare配置文件中的同名,建议在运行DataWare以前仔细检查已创建的文件系统。
Error 240 :Application running error !
出错原因可能有以下几点:
1. 应用程序名没有在ap_tables指定
2. 路径名不对
Actions :键入"dwcheck c"检查程序名,路径以及mount文件系统是否正确;如果不正确,则必须重新编辑配置文件"dw.cfg",并重新安装DataWare。
Error 250 :Cannot change IP address !
服务器没有启动TCP/IP的逻辑地址。
Actions :键入"dwcheck c"检查需要设定的TCP/IP地址,如果IP地址不正确,请重新编辑"dw.cfg"并重新安装DataWare。
Error 251 :IP tables configure error. Check DataWare configuration.
配置文件"dw.cfg"中ip_tables错误,缺少配置行,总行数应为偶数
Actions :键入"dwcheck c"检查丢失的IP address设定,将该设定键入配置文件 "dw.cfg"中,然后重新安装DataWare.。
Error 301 :Host Identity file error !
主机定义文件内容被更改,删除或使用不正确的格式
Actions :重装DataWare请参考第三章
Error 310 ataWare fork process fail !
DataWare不能在当前的操作系统上管理进程
Actions :与DataWare无关,请检查操作系统。
Error 311 ataWare is already running !
此信息告诉用户,当系统已经运行 DataWare时,不要重复启动
Actions :不需要特别操作,该信息提示用户DataWare已运行,不要再次运行DataWare命令
Error 312 ataWare is not running !
当用户想停止DataWare时,DataWare并没有运行
Actions :不需要特别操作,该信息提示用户DataWare没有运行。
Error 314 :Take job error !
一台服务器试图接管另一台服务器的任务,但不成功
Actions :检查配置文件"dw.cfg"中的选项
1. file system path
2 |
|