- 论坛徽章:
- 0
|
第六章
DataWare双机系统的测试
6.1 启动DataWare之前的检测
? iochk检查对等主机对磁盘柜的存储位置是否一致。
A机:
# cd /usr/lib/dataware/exec
# ./iochk 111
** Notes: This test program will clear Dataware data on RAID
Dataware must be stoped to run this program!
Are you sure you want to test?(y/n):
y
Read Nbr Data=0, Write 111 to Nbr
Please check if Nbr read 111 by running this program on Nbr Server!
#
[注] Nbr表示对等主机服务器
B机:
# cd /usr/lib/dataware/exec
# ./iochk 222
** Notes: This test program will clear Dataware data on RAID
Dataware must be stoped to run this program!
Are you sure you want to test?(y/n):
y
Read Nbr Data=111, Write 888 to Nbr
Please check if Nbr read 888 by running this program on Nbr Server!
#
[注] Nbr表示对等主机服务器
Data=111表示已读到A机写入的数据
? pingchk在完成网卡配置以后,及DataWare初始化文件dw.cfg配置完成后,当系统进入Multi User多用户状态运行时,为检查网卡在DataWare运行前及DataWare开始运行已置换虚拟网址后,网络运行状态的稳定性,需要调用DataWare的网络检查工具”pingchk”;pingchk执行时会在对等的两快网卡之间做16次模拟网络交易,其报告结果为每一次交易网络通断次数,结果值”0”表示交易成功,结果值非0,表示通讯不正常;当16次模拟网络交易有50%以上非0,则表示当前的系统网络环境不适合DataWare运行,若不改变当前网络系统配置而运行DataWare的话,则必须调整”-u”,将”pingchk”模拟网络交易16次结果超过12次以上测为”0”。
A机:# cd /usr/lib/dataware/exec
# ./pingchk 15.15.15.1
delay,errcnt=14000,0
delay,errcnt=15000,0
delay,errcnt=16000,0
delay,errcnt=17000,0
delay,errcnt=18000,0
delay,errcnt=19000,0
delay,errcnt=20000,0
delay,errcnt=21000,0
delay,errcnt=22000,0
delay,errcnt=23000,0
delay,errcnt=24000,0
delay,errcnt=25000,0
delay,errcnt=26000,0
delay,errcnt=27000,0
delay,errcnt=28000,0
delay,errcnt=29000,0
B机:# cd /usr/lib/dataware/exec
# ./pingchk 15.15.15.2
delay,errcnt=14000,0
delay,errcnt=15000,0
delay,errcnt=16000,0
delay,errcnt=17000,0
delay,errcnt=18000,0
delay,errcnt=19000,0
delay,errcnt=20000,0
delay,errcnt=21000,0
delay,errcnt=22000,0
delay,errcnt=23000,0
delay,errcnt=24000,0
delay,errcnt=25000,0
delay,errcnt=26000,0
delay,errcnt=27000,0
delay,errcnt=28000,0
delay,errcnt=29000,0
6.2 单服务器测试AP应用完全启动时间
为优化配置DataWare启动文件/etc/S99Ware,必须先对应用程序进行测试,以确定应用完全启动所需时间。(该时间内不运行应用业务交易)
以下操作过程重复三次,取平均值。
? 运行启动应用的shell程序
# time –p /shell/start
Last successful real login for informix:Tue Jun 09 15:25:16 1998 tty01
Real 7.150000
User 0.060000
Sys 0.080000
#
? 运行停止应用引擎shell程序
# time –p /shell/k15
Last successful real login for informix:Tue Jun 09 15:25:16 1998 tty01
Real 2.920000
User 0.180000
Sys 0.160000
#
6.3 优化DataWare启动
# cd /etc/rc2.d
# vi S99Ware
初始默认设置:
① /usr/lib/dataware/exec/dataware –s start
②S99Ware初始默认设置为dataware –t10 –f15 –c1 –p20
修改优化配置:
如果AP应用程序启动时间≤40秒,停止时间≤30秒,不需要更改初始默认设置,但仍然需要加入优化参数。
修改结果:/usr/lib/dataware/exec/dataware –o –h –s start
注意:两台对等主机在完成所有安装和检查的工作后必须重起。
6.4 检查DataWare运行状态
? 系统进入多用户状态,Console显示如下信息
..............
Starting NFS services: biod(x4)
Starting NLM services: statd lockd
Warning: daemon is running as super-user
Startup:listening to port 620 as root
Ns_httpd on 0.0.0.0 startup:listening to port 80 as nouser
Start /usr/internet/etc/ncsa_httpd....done.
Starting scohttp......done.
Starting SCO PC-Interface for Unix
Copyright (C ) 1984-1995 Locus Computing Corporation.
All right reserved.
** DataWare 4.00 A02 (10723) - ProWare(C) **
Please wait for system checking........
The system is ready.
SCO OpenServer (TM) Release 5 (scosysv.UUCP.com) (tty01)
Login:
A机
键入root,以超级用户身份登录,屏幕显示:
# Dataware: Start to takeover jobs......
>;>;Change IP to Virtual !
>;>;Start AP Engine !
Dataware : Detect another host still not running !
: I am running as PRIMARY !
Dataware : In normal process now!
“Dataware : In normal process now!”表示本机启动完成,等待对等服务器握手
..............
Starting NFS services: biod(x4)
Starting NLM services: statd lockd
Warning: daemon is running as super-user
Startup:listening to port 620 as root
Ns_httpd on 0.0.0.0 startup:listening to port 80 as nouser
Start /usr/internet/etc/ncsa_httpd....done.
Starting scohttp......done.
Starting SCO PC-Interface for Unix
Copyright (C ) 1984-1995 Locus Computing Corporation.
All right reserved.
** DataWare 4.00 A02 (10723) - ProWare(C) **
Please wait for system checking........
The system is ready.
SCO OpenServer (TM) Release 5 (scosysv.UUCP.com) (tty01)
Login:
B机
键入root,登录UNIX超级用户,A机屏幕显示:
B机屏幕显示:
#
Dataware : Another host is alive and running !
: I am running as STANDBY !
Dataware : In normal process now!
“Dataware : In normal process now!”表示备份机启动完成,并和生产机握手成功。
运行系统检查命令,查看两台对等服务器的运行状态
键入命令:
# dwcheck
A机
# dwcheck
** DataWare 4.00 A02 (10723) - ProWare(C) **
Current status/configurations:
My Status : Dataware is running !
Neighbor host : running
Take over : No
Job status : I have job
Scheme mode : Hot Standby
Auto status : Mandatory take
Role : Primary
B机
# dwcheck
** DataWare 4.00 A02 (10723) - ProWare(C) **
Current status/configurations:
My Status : Dataware is running !
Neighbor host : running
Take over : No
Job status : I have no job now
Scheme mode : Hot Standby
Auto status : Mandatory take
Role : Standby
[注释]
My Status: 表示本机的DataWare是否运行
Neighbor host: 表示对等服务器(备份机)运行状态是否良好
Take over: 表示切换后,本机是否接管;DataWare在安装配置完成,第一次启动运行时,此值是“NO”,当有切换状况发生时,在”Primary”服务器该值为“YES”。
6.5 系统监控工具DWVIEW
dwview可以动态监测系统运行状态,包括生产机和备份机的网络;生产机应用运行和监测;备份机对故障主机的响应;两台服务器DataWare的动态运行;所有报警信息的动态显示和声音提示。
DataWare 4.00 A02 (10723) - ProWare(C)
A Run Scheme : Hot Standby B
Primary Host is : Primary Standby
*******
My Status : Dataware is running
Neighbor host : Running
Take over : NO
Job status : I have job
Scheme mode : Hot Standby
Auto status : Mandatory take
Role : Primary
Notice to Supervisor:
XXX XXXX XXXXX XXXX XXXX XXXXX XXX XXXX XXXXX
A=Abort, B=Stop beep sound , Ctl_J=Switch job
DWVIEW标准画面
注意:
1. 建议用户在Console第二屏(按Ctrl+F2),启动dwview监控2个服务器的状态 。
2. 运行状态:
? 在屏幕上方左边第一列显示本机服务器的执行状态,“Primary”表示当前服务器作为生产机,同时Primary字样下有一左右跳动的绿色方块;右边第一列信息显示对等服务器(既备份机)的执行状态,“Standby”表示对方服务器为备份机,同时Standby字样下有一左右跳动的红色方块;
? 在屏幕上方中间部分,“Run Scheme”表示当前系统运行的模式(Dual Active或Hot Standby);”Host is”表示当前服务器的身份,同时在该字样下面兰色方块内,有一条左右移动的“*”号串,表示双机都“活着”。
? 在屏幕上方中间部分显示DataWare版本信息,** DataWare 4.00 A02 (10723) - ProWare(C) **;该信息左侧有一个红色的方块,方块中央有一条顺时针旋转的“|”,表示表示双机都“活着”。
3. 屏幕下方显示系统提示信息,这些提示信息包括告警,以及提示用户发生告警(或切换)的原因,并告知用户应该检查的系统部件,同时以声音告警。声音报警会持续不断,一直到系统管理员键入“B”键停止声音。
4. 'To Supervisor':提示用户将有信息显示,所有提示信息不断闪烁,提醒系统管理员注意。
6.6 切换状态检查
DataWare双机系统平台,可以实现多种功能的组合。为确保系统最大的安全可用性,我们提供安全切换测试表格,供用户参考。
测试要求:
1. 基本功能
(1) 服务器停电时,能实现自动切换。
(2) 服务器的硬盘、CPU、RAM发生故障, 影响系统运行时, 实现自动切换。
(3) 网络连接发生故障时(如服务器的网卡,网线故障),实现自动切换。
(4) 操作系统、数据库或应用程序发生故障时,应能实现自动切换。
(5) 提供手动切换功能,使系统管理员可以在主机负载过大时或其它适当的时候,实现手动切换。
(6) 双机软件本身发生故障时,应能给出提示信息,使系统管理员可以及时将其恢复。
(7) 安全完成多次切换。
(9)监测备份机的基本设备和系统状态,保证备份机的可靠性。
(10)保留完整的系统日志。
注:在Hot Standby模式中系统发生切换后,因其恢复方式的不同还可以分成2种形式:
* 对等式— 备份机与主机配置完全相同,主机修复后即充当备份机,不再发生切换。
* 主从式— 备份机配置较低,主机修复后即接管系统,所以要进行第二次切换。
2. 监控界面要求
(1) 发生任何故障时,均在监控窗口中给出出错信息及相应的处理建议。
(2) 发生重大故障或切换时,应发出明显的信号(如警报声等)提请系统管理员注意。
测试项目:
测试点 测试目的 切换状态 测试状态
系统硬件故障
系统硬盘故障(单个) 检验硬盘冗余 不切换 正常
SCSI电缆故障 检验DW 监控性能 切换 正常
网络(网卡)故障 检验DW 监控性能 切换 正常
系统软件故障
操作系统出现故障 检验DW 监控性能 切换 正常
数据库故障 检验DW 监控性能 切换 正常
应用程序故障 检验DW 监控性能 切换 正常
双机软件故障 检验DW 监控性能 切换 正常
TCP/IP协议故障 检验DW 监控性能 切换 正常
常规测试故障
双机无序启动 检验系统的稳定性 \ 正常
双机软件手动加载 检验DW性能 \ 正常
双机软件自动加载 检验DW性能 \ 正常
双机Auto Fail Back 检验DW性能 切换 正常
业务主机单机上双机软件正常停止 检验DW 监控性能,但主机需停机维护 切换 正常
双机软件手动强制切换 检验DW性能 切换 正常
共享盘进行读写操作时发生切换 检验DW监控性能 切换 正常
主机负载过大时,要求强制切换 检验DW监控性能 切换 正常
主机发生重复运行双机软件的误操作 检验DW监控性能 不切换 正常
杀掉不同名的AP进程 检验DW监控性能 切换 正常
杀掉同名的AP进程 检验DW监控性能 切换 正常
主机掉电 检验DW监控性能 切换 正常
双机软件多次切换 检验DW的稳定性 切换 正常
备份机故障,主机得到显示 检验DW监控性能 不切换 正常
附录A
错误信息
A.1 dwinst的错误信息
Error : Install abort
Description : System file not exist !
Action : You are running “dwinst “without the “dw.cfg” file .
Error : Input Host ID error !
Action : Check your “host_id“ filed position and content, don’t use Tab (tabulation) as spaces.
Error : Input Raw device error !
Action : check your “scsi_device“ filed position and content, don’t use Tab(tabulation) as spaces.
Error : Input IP tables error !
Action : check your “ip_tables” field position and content, don’t use Tab(tabulation) as spaces.
Error : Input Files system tables error !
Action : Check your “application_tables“ fields position and content, don’t use Tab(tabulation) as spaces.
Error : Cannot create XXX
Action : Your system can not create (write ) file XXX ,please check with your Server support engineer.
A.2 dwview的提示信息
Neighbor host ask me to release.
对方服务器要求本机释放工作,交给原来的主机;(表示系统设定为Auto Fail Back)
Release my jobs to another host due to Application missing.
因为当前服务器发现AP应用运行的不完整,发生切换
Stop running myself due to the force command.
系统管理员要求强制切换
Release my jobs due to force job switching.
系统管理员要求强制切换
Stop running myself due to force stop command [dwstop].
由于执行停止命令,当前主机停止运行DataWare。
Release my jobs to another host due to LAN check fail.
由于当前生产机网络故障,发生切换。
Stop running and let another host take my job due to LAN check fail.
由于当前生产机网络故障,发生切换;并停止运行DataWare。
Critical take over jobs happens, due to Nbr no response !
可能由于对方服务器故障(如备份机拔网线),没有心跳回应而告警。
No backup machine now, for another host is not alive !
检测到备份机DataWare没有运行,或发生严重故障,或没有开机。
No responding from Neighbor host, loop checking is in progress...
对方服务器没有心跳回应,当前主机开始做确定检查。
DataWare is not running on this host.
DataWare在当前服务器没有运行。
To maintain HA functions & view status you need to run it again.
DataWare正在运行时,用命令方式停止DataWare,或两台服务器都crash。
A.3 DataWare一般提示信息
一般提示信息显示DataWare在不同模式下的正常操作状态。
一般提示信息的语法
每一次状态改变,显示的第一条信息以字符串”=======>;”开头,这是为了便于用户查找信息。如果一条信息以字符串”PRIMARY”、”STANDBY”、”HOST A”或”HOST B”开头,意味着着条信息还给出了本机的运行角色。
一般信息解释
** DataWare 4.00 A02 (10723) - ProWare(C) **
DataWare的版本信息
=======>; Daemon NNN start ...
宣告DataWare已启动,NNN是进程号
************ Wait for system checking…
DataWare进行系统检测
Start to takeover jobs ...开始接管任务
>;>; Mount file systems !
Mount文件系统
>;>; Change IP to Virtual !
改变成虚拟IP地址
>;>; Start AP Engine !
启动应用程序
>;>; Stop AP Engine !
停止应用程序
>;>; Change IP to Real !
改变成真实IP地址
>;>; UNmount file systems !
Umount文件系统
Another host is alive and running !
另一个主机运行正常
I am running as PRIMARY !
本机作为主机运行
In normal process now !
进入一般运行状态
Cannot mount filesystems !
无法mount文件系统
Cannot umount filesystems !
无法umount文件系统
Application running error !
应用程序执行错误
Cannot change IP address !
无法改变IP地址
Re-initialize Disk Array data input !
重新初始化磁盘阵列数据输入
Initialize Disk Array data structure OK !
初始化磁盘阵列数据结构状态OK
Not initialize Disk Array data structure !
没有初始化磁盘阵列
Detect another host starts running !
检测到另一台主机开始运行
Detect another host still not running !
检测到另一台主机仍然没有运行
No backup machine now!!
现在没有备份机
Detect DataWare on another host is not active !
检测到另一台主机上的DataWare没有运行
DataWare is stoped, not running on this host now !
本机DataWare被停止
DataWare is ready to stop due to Supervisor command...
本机被系统管理员正常停止
DataWare is already running on this host !
DataWare已在本机上运行
IP tables configure error. Check DataWare configuration.
IP地址配置错误,请检测DataWare的配置
RAID I/O error !
RAID I/O错误
注意:以上可能没有包括所有的信息
A.4 DataWare故障信息
如果运行不正常,DataWare会将故障信息显示在屏幕上。
故障信息语法
Error NNN : Messages !
故障信息解释
Error 100:Time slice is not the same with another server !
两台服务器DataWare配置的时间参数不一致,在运行时握手不正常
Actions:将系统进入单用户,重新安装DataWare.
Error 101:Running mode is not consistant with another server !
由于两台服务器DataWare配置文件/etc/rc2.d/S99Ware内容不一致;当DataWare名称后面的参数不同时,既指定运行的模式不同,出现报错信息。
Actions:使两台服务器上的运行模式一致(修改S99Ware文件)。
Error 102:Running Release is not the same with another server !
由于两台服务器DataWare版本不一致。
Actions :请使用相同版本的DataWare软件。
Error 103 :Running system settings inconsistant, need re-run DataWare !
该信息表示由于服务器在运行DataWare时,发现错误Error 100、101 或102 所以强制停止对方服务器DataWare的运行。
Actions :请使用相同参数设置DataWare。(参考Error 100,101,102)
Error 220 :Cannot mount filesystems !
Several reasons cause this happens:
1. DataWare配置不正确
2. 系统文件 "fs_tables" 在以下目录中不存在:
/usr/lib/DataWare/configure
3. 文件系统不存在
Actions :情况1:
键入"dwcheck c"检查文件系统名称是否正确;如果不正确,请在”dw.cfg”中使用正确的名称,并重新安装DataWare。
情况2:
在DataWare安装完成自动产生文件 "fs_tables",如果文件被删除,则必须重新安装DataWare。
情况3:
文件系统必须已存在,且与DataWare配置文件中的同名,建议在运行DataWare以前仔细检查已创建的文件系统。
Error 230 :Cannot umount filesystems !
可参考Error 220。一般情况下Error 220的信息会先显示,但在系统运行中,如果系统文件 "fs_tables"被删除,则报”Error 230”
1. DataWare配置不正确
2. 系统文件 "fs_tables" 在以下目录中不存在:
/usr/lib/DataWare/configure
3. 文件系统不存在
Actions :情况1:
键入"dwcheck c"检查文件系统名称是否正确;如果不正确,请在”dw.cfg”中使用正确的名称,并重新安装DataWare。
情况2:
在DataWare安装完成自动产生文件 "fs_tables",如果文件被删除,则必须重新安装DataWare。
情况3:
文件系统必须已存在,且与DataWare配置文件中的同名,建议在运行DataWare以前仔细检查已创建的文件系统。
Error 240 :Application running error !
出错原因可能有以下几点:
1. 应用程序名没有在ap_tables指定
2. 路径名不对
Actions :键入"dwcheck c"检查程序名,路径以及mount文件系统是否正确;如果不正确,则必须重新编辑配置文件"dw.cfg",并重新安装DataWare。
Error 250 :Cannot change IP address !
服务器没有启动TCP/IP的逻辑地址。
Actions :键入"dwcheck c"检查需要设定的TCP/IP地址,如果IP地址不正确,请重新编辑"dw.cfg"并重新安装DataWare。
Error 251 :IP tables configure error. Check DataWare configuration.
配置文件"dw.cfg"中ip_tables错误,缺少配置行,总行数应为偶数
Actions :键入"dwcheck c"检查丢失的IP address设定,将该设定键入配置文件 "dw.cfg"中,然后重新安装DataWare.。
Error 301 :Host Identity file error !
主机定义文件内容被更改,删除或使用不正确的格式
Actions :重装DataWare请参考第三章
Error 310 ataWare fork process fail !
DataWare不能在当前的操作系统上管理进程
Actions :与DataWare无关,请检查操作系统。
Error 311 ataWare is already running !
此信息告诉用户,当系统已经运行 DataWare时,不要重复启动
Actions :不需要特别操作,该信息提示用户DataWare已运行,不要再次运行DataWare命令
Error 312 ataWare is not running !
当用户想停止DataWare时,DataWare并没有运行
Actions :不需要特别操作,该信息提示用户DataWare没有运行。
Error 314 :Take job error !
一台服务器试图接管另一台服务器的任务,但不成功
Actions :检查配置文件"dw.cfg"中的选项
1. file system path
2
本文来自ChinaUnix博客,如果查看原文请点:http://blog.chinaunix.net/u2/70914/showart_727827.html |
|