免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 963 | 回复: 0
打印 上一主题 下一主题

[集群与高可用] dataware for unix双机热备的详细配置(7) [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2008-06-06 06:30 |只看该作者 |倒序浏览
第六章                                                  
DataWare双机系统的测试
6.1 启动DataWare之前的检测
?        iochk检查对等主机对磁盘柜的存储位置是否一致。
A机:
# cd  /usr/lib/dataware/exec
# ./iochk  111
** Notes: This  test  program  will clear  Dataware  data  on RAID
Dataware  must   be  stoped   to  run this  program!
Are  you  sure  you  want  to  test?(y/n):
y
Read  Nbr  Data=0,  Write  111  to  Nbr
Please check if Nbr read 111  by  running  this  program  on Nbr Server!
#
[注] Nbr表示对等主机服务器
B机:
# cd  /usr/lib/dataware/exec
# ./iochk  222
** Notes: This  test  program  will clear  Dataware  data  on RAID
Dataware  must   be  stoped   to  run this  program!
Are  you  sure  you  want  to  test?(y/n):
y
Read  Nbr  Data=111,  Write  888  to  Nbr
Please check if  Nbr read  888 by  running  this  program  on Nbr Server!
#
[注] Nbr表示对等主机服务器
Data=111表示已读到A机写入的数据
?        pingchk在完成网卡配置以后,及DataWare初始化文件dw.cfg配置完成后,当系统进入Multi User多用户状态运行时,为检查网卡在DataWare运行前及DataWare开始运行已置换虚拟网址后,网络运行状态的稳定性,需要调用DataWare的网络检查工具”pingchk”;pingchk执行时会在对等的两快网卡之间做16次模拟网络交易,其报告结果为每一次交易网络通断次数,结果值”0”表示交易成功,结果值非0,表示通讯不正常;当16次模拟网络交易有50%以上非0,则表示当前的系统网络环境不适合DataWare运行,若不改变当前网络系统配置而运行DataWare的话,则必须调整”-u”,将”pingchk”模拟网络交易16次结果超过12次以上测为”0”。
A机:# cd /usr/lib/dataware/exec
# ./pingchk  15.15.15.1
delay,errcnt=14000,0
delay,errcnt=15000,0
delay,errcnt=16000,0
delay,errcnt=17000,0
delay,errcnt=18000,0
delay,errcnt=19000,0
delay,errcnt=20000,0
delay,errcnt=21000,0
delay,errcnt=22000,0
delay,errcnt=23000,0
delay,errcnt=24000,0
delay,errcnt=25000,0
delay,errcnt=26000,0
delay,errcnt=27000,0
delay,errcnt=28000,0
delay,errcnt=29000,0
B机:# cd /usr/lib/dataware/exec
# ./pingchk  15.15.15.2
delay,errcnt=14000,0
delay,errcnt=15000,0
delay,errcnt=16000,0
delay,errcnt=17000,0
delay,errcnt=18000,0
delay,errcnt=19000,0
delay,errcnt=20000,0
delay,errcnt=21000,0
delay,errcnt=22000,0
delay,errcnt=23000,0
delay,errcnt=24000,0
delay,errcnt=25000,0
delay,errcnt=26000,0
delay,errcnt=27000,0
delay,errcnt=28000,0
delay,errcnt=29000,0
6.2 单服务器测试AP应用完全启动时间
为优化配置DataWare启动文件/etc/S99Ware,必须先对应用程序进行测试,以确定应用完全启动所需时间。(该时间内不运行应用业务交易)
以下操作过程重复三次,取平均值。
?        运行启动应用的shell程序
# time –p /shell/start
Last  successful real login for informix:Tue Jun 09  15:25:16 1998 tty01
Real  7.150000
User  0.060000
Sys   0.080000
#
?        运行停止应用引擎shell程序
# time –p  /shell/k15
Last  successful real login for informix:Tue Jun 09  15:25:16 1998 tty01
Real  2.920000
User  0.180000
Sys   0.160000
#
6.3 优化DataWare启动
#  cd  /etc/rc2.d
#  vi  S99Ware
初始默认设置:
① /usr/lib/dataware/exec/dataware  –s  start   
②S99Ware初始默认设置为dataware  –t10  –f15  –c1  –p20
修改优化配置:
如果AP应用程序启动时间≤40秒,停止时间≤30秒,不需要更改初始默认设置,但仍然需要加入优化参数。
修改结果:/usr/lib/dataware/exec/dataware  –o –h –s start
注意:两台对等主机在完成所有安装和检查的工作后必须重起。
6.4 检查DataWare运行状态
?        系统进入多用户状态,Console显示如下信息
..............
Starting  NFS  services: biod(x4)
Starting  NLM  services: statd lockd
Warning: daemon  is  running  as  super-user
Startup:listening  to  port  620  as  root
Ns_httpd  on  0.0.0.0  startup:listening  to  port  80  as  nouser
Start  /usr/internet/etc/ncsa_httpd....done.
Starting  scohttp......done.
Starting  SCO  PC-Interface  for  Unix
Copyright  (C ) 1984-1995  Locus  Computing  Corporation.   
All  right  reserved.
** DataWare 4.00 A02 (10723) - ProWare(C) **
Please  wait  for  system  checking........
The  system  is  ready.
SCO  OpenServer (TM) Release  5  (scosysv.UUCP.com)  (tty01)
Login:
A机
键入root,以超级用户身份登录,屏幕显示:
# Dataware:  Start  to  takeover  jobs......
>;>;Change  IP  to  Virtual !
>;>;Start  AP  Engine !
Dataware : Detect  another  host  still  not  running !
: I am  running  as  PRIMARY  !
Dataware : In  normal  process  now!
“Dataware : In  normal  process  now!”表示本机启动完成,等待对等服务器握手
..............
Starting  NFS  services: biod(x4)
Starting  NLM  services: statd lockd
Warning: daemon  is  running  as  super-user
Startup:listening  to  port  620  as  root
Ns_httpd  on  0.0.0.0  startup:listening  to  port  80  as  nouser
Start  /usr/internet/etc/ncsa_httpd....done.
Starting  scohttp......done.
Starting  SCO  PC-Interface  for  Unix
Copyright  (C ) 1984-1995  Locus  Computing  Corporation.   
All  right  reserved.
** DataWare 4.00 A02 (10723) - ProWare(C) **
Please  wait  for  system  checking........
The  system  is  ready.
SCO  OpenServer (TM) Release  5  (scosysv.UUCP.com)  (tty01)
Login:
B机
键入root,登录UNIX超级用户,A机屏幕显示:
B机屏幕显示:
#
Dataware : Another  host  is  alive  and  running !
: I am  running  as  STANDBY  !
Dataware : In  normal  process  now!
“Dataware : In  normal  process  now!”表示备份机启动完成,并和生产机握手成功。
运行系统检查命令,查看两台对等服务器的运行状态
键入命令:
#  dwcheck
A机
#  dwcheck
** DataWare 4.00 A02 (10723) - ProWare(C) **
Current  status/configurations:
My Status                        : Dataware  is  running !
Neighbor host                : running
Take over                        : No
Job  status                        : I  have  job
Scheme mode                : Hot  Standby
Auto  status                : Mandatory  take
Role                                : Primary
B机
#  dwcheck
** DataWare 4.00 A02 (10723) - ProWare(C) **
Current  status/configurations:
My Status                        : Dataware  is  running !
Neighbor host                : running
Take over                        : No
Job  status                        : I  have  no  job  now
Scheme mode                : Hot  Standby
Auto  status                : Mandatory  take
Role                                : Standby
[注释]
My Status:                表示本机的DataWare是否运行
Neighbor host:        表示对等服务器(备份机)运行状态是否良好
Take over:                表示切换后,本机是否接管;DataWare在安装配置完成,第一次启动运行时,此值是“NO”,当有切换状况发生时,在”Primary”服务器该值为“YES”。
6.5 系统监控工具DWVIEW
dwview可以动态监测系统运行状态,包括生产机和备份机的网络;生产机应用运行和监测;备份机对故障主机的响应;两台服务器DataWare的动态运行;所有报警信息的动态显示和声音提示。
DataWare 4.00 A02 (10723) - ProWare(C)
A                   Run  Scheme  :  Hot Standby                B
Primary                    Host  is :  Primary                    Standby
*******                                         
My Status                      : Dataware is running                        
Neighbor host                            : Running                                       
Take over                       : NO                                    
Job status                      : I have job                                
Scheme mode                    : Hot Standby                              
Auto status                          : Mandatory take                                
Role                             : Primary                                       
Notice to Supervisor:
XXX XXXX XXXXX XXXX XXXX XXXXX XXX XXXX XXXXX
A=Abort, B=Stop beep sound , Ctl_J=Switch job                              
DWVIEW标准画面
注意:
1.  建议用户在Console第二屏(按Ctrl+F2),启动dwview监控2个服务器的状态 。
2.  运行状态:
?        在屏幕上方左边第一列显示本机服务器的执行状态,“Primary”表示当前服务器作为生产机,同时Primary字样下有一左右跳动的绿色方块;右边第一列信息显示对等服务器(既备份机)的执行状态,“Standby”表示对方服务器为备份机,同时Standby字样下有一左右跳动的红色方块;
?        在屏幕上方中间部分,“Run  Scheme”表示当前系统运行的模式(Dual Active或Hot Standby);”Host is”表示当前服务器的身份,同时在该字样下面兰色方块内,有一条左右移动的“*”号串,表示双机都“活着”。
?        在屏幕上方中间部分显示DataWare版本信息,** DataWare 4.00 A02 (10723) - ProWare(C) **;该信息左侧有一个红色的方块,方块中央有一条顺时针旋转的“|”,表示表示双机都“活着”。
3.  屏幕下方显示系统提示信息,这些提示信息包括告警,以及提示用户发生告警(或切换)的原因,并告知用户应该检查的系统部件,同时以声音告警。声音报警会持续不断,一直到系统管理员键入“B”键停止声音。
4.  'To Supervisor':提示用户将有信息显示,所有提示信息不断闪烁,提醒系统管理员注意。
6.6 切换状态检查
DataWare双机系统平台,可以实现多种功能的组合。为确保系统最大的安全可用性,我们提供安全切换测试表格,供用户参考。
测试要求:
1.        基本功能
(1)        服务器停电时,能实现自动切换。
(2)        服务器的硬盘、CPU、RAM发生故障, 影响系统运行时, 实现自动切换。
(3)        网络连接发生故障时(如服务器的网卡,网线故障),实现自动切换。
(4)        操作系统、数据库或应用程序发生故障时,应能实现自动切换。
(5)        提供手动切换功能,使系统管理员可以在主机负载过大时或其它适当的时候,实现手动切换。
(6)        双机软件本身发生故障时,应能给出提示信息,使系统管理员可以及时将其恢复。
(7)        安全完成多次切换。
(9)监测备份机的基本设备和系统状态,保证备份机的可靠性。
(10)保留完整的系统日志。
注:在Hot Standby模式中系统发生切换后,因其恢复方式的不同还可以分成2种形式:
* 对等式— 备份机与主机配置完全相同,主机修复后即充当备份机,不再发生切换。
* 主从式— 备份机配置较低,主机修复后即接管系统,所以要进行第二次切换。
2.        监控界面要求
(1)        发生任何故障时,均在监控窗口中给出出错信息及相应的处理建议。
(2)        发生重大故障或切换时,应发出明显的信号(如警报声等)提请系统管理员注意。
测试项目:
测试点        测试目的        切换状态        测试状态
系统硬件故障
系统硬盘故障(单个)        检验硬盘冗余        不切换        正常
SCSI电缆故障        检验DW 监控性能        切换        正常
网络(网卡)故障        检验DW 监控性能        切换        正常
系统软件故障
操作系统出现故障        检验DW 监控性能        切换        正常
数据库故障        检验DW 监控性能        切换        正常
应用程序故障        检验DW 监控性能        切换        正常
双机软件故障        检验DW 监控性能        切换        正常
TCP/IP协议故障        检验DW 监控性能        切换        正常
常规测试故障
双机无序启动        检验系统的稳定性        \        正常
双机软件手动加载        检验DW性能        \        正常
双机软件自动加载        检验DW性能        \        正常
双机Auto Fail Back        检验DW性能        切换        正常
业务主机单机上双机软件正常停止        检验DW 监控性能,但主机需停机维护        切换        正常
双机软件手动强制切换        检验DW性能        切换        正常
共享盘进行读写操作时发生切换        检验DW监控性能        切换        正常
主机负载过大时,要求强制切换        检验DW监控性能        切换        正常
主机发生重复运行双机软件的误操作        检验DW监控性能        不切换        正常
杀掉不同名的AP进程        检验DW监控性能        切换        正常
杀掉同名的AP进程        检验DW监控性能        切换        正常
主机掉电        检验DW监控性能        切换        正常
双机软件多次切换        检验DW的稳定性        切换        正常
备份机故障,主机得到显示        检验DW监控性能        不切换        正常
附录A
错误信息
A.1 dwinst的错误信息
Error : Install abort
Description : System file not exist !
Action : You are running “dwinst “without the “dw.cfg” file .
Error : Input Host ID error !
Action : Check your “host_id“ filed position and content, don’t use Tab (tabulation) as spaces.
Error : Input Raw device error !
Action : check your “scsi_device“ filed position and content, don’t use Tab(tabulation) as spaces.
Error : Input IP tables error !
Action : check your “ip_tables” field position and content, don’t use              Tab(tabulation) as spaces.
Error : Input Files system tables error !
Action  : Check your “application_tables“ fields position and content, don’t  use Tab(tabulation) as spaces.
Error : Cannot create XXX
Action : Your system can not create (write ) file XXX ,please check with your Server support engineer.
A.2 dwview的提示信息
Neighbor host ask me to release.
对方服务器要求本机释放工作,交给原来的主机;(表示系统设定为Auto Fail Back)
Release my jobs to another host due to Application missing.
因为当前服务器发现AP应用运行的不完整,发生切换
Stop running myself due to the force command.
系统管理员要求强制切换
Release my jobs due to force job switching.
系统管理员要求强制切换
Stop running myself due to force stop command [dwstop].
由于执行停止命令,当前主机停止运行DataWare。
Release my jobs to another host due to LAN check fail.
由于当前生产机网络故障,发生切换。
Stop running and let another host take my job due to LAN check fail.
由于当前生产机网络故障,发生切换;并停止运行DataWare。
Critical take over jobs happens, due to Nbr no response !
可能由于对方服务器故障(如备份机拔网线),没有心跳回应而告警。
No backup machine now, for another host is not alive !
检测到备份机DataWare没有运行,或发生严重故障,或没有开机。
No responding from Neighbor host, loop checking is in progress...
对方服务器没有心跳回应,当前主机开始做确定检查。
DataWare is not running on this host.
DataWare在当前服务器没有运行。
To maintain HA functions & view status you need to run it again.
DataWare正在运行时,用命令方式停止DataWare,或两台服务器都crash。
A.3 DataWare一般提示信息
一般提示信息显示DataWare在不同模式下的正常操作状态。
一般提示信息的语法
每一次状态改变,显示的第一条信息以字符串”=======>;”开头,这是为了便于用户查找信息。如果一条信息以字符串”PRIMARY”、”STANDBY”、”HOST A”或”HOST B”开头,意味着着条信息还给出了本机的运行角色。
一般信息解释
** DataWare 4.00 A02 (10723) - ProWare(C) **
DataWare的版本信息
=======>; Daemon  NNN  start ...
宣告DataWare已启动,NNN是进程号
************ Wait for system checking…
DataWare进行系统检测
Start to takeover jobs ...开始接管任务
>;>; Mount file systems !
Mount文件系统
>;>; Change IP to Virtual !
改变成虚拟IP地址
>;>; Start AP Engine !
启动应用程序
>;>; Stop AP Engine !
停止应用程序
>;>; Change IP to Real !
改变成真实IP地址
>;>; UNmount file systems !
Umount文件系统
Another host is alive and running !
另一个主机运行正常
I am running as PRIMARY !
本机作为主机运行
In normal process now !
进入一般运行状态
Cannot mount filesystems !
无法mount文件系统
Cannot umount filesystems !
无法umount文件系统
Application running error !
应用程序执行错误
Cannot change IP address !
无法改变IP地址
Re-initialize Disk Array data input !
重新初始化磁盘阵列数据输入
Initialize Disk Array data structure OK !
初始化磁盘阵列数据结构状态OK
Not initialize Disk Array data structure !
没有初始化磁盘阵列
Detect another host starts running !
检测到另一台主机开始运行
Detect another host still not running !
检测到另一台主机仍然没有运行
No backup machine now!!
现在没有备份机
Detect DataWare on another host is not active !
检测到另一台主机上的DataWare没有运行
DataWare is stoped, not running on this host now !
本机DataWare被停止
DataWare is ready to stop due to Supervisor command...
本机被系统管理员正常停止
DataWare is already running on this host !
DataWare已在本机上运行
IP tables configure error. Check DataWare configuration.
IP地址配置错误,请检测DataWare的配置
RAID I/O error !
RAID I/O错误
注意:以上可能没有包括所有的信息
A.4 DataWare故障信息
如果运行不正常,DataWare会将故障信息显示在屏幕上。
故障信息语法
Error NNN         :         Messages !
故障信息解释
Error 100:Time slice is not the same with another server !
两台服务器DataWare配置的时间参数不一致,在运行时握手不正常
Actions:将系统进入单用户,重新安装DataWare.
Error 101:Running mode is not consistant with another server !
由于两台服务器DataWare配置文件/etc/rc2.d/S99Ware内容不一致;当DataWare名称后面的参数不同时,既指定运行的模式不同,出现报错信息。
Actions:使两台服务器上的运行模式一致(修改S99Ware文件)。
Error 102:Running Release is not the same with another server !
由于两台服务器DataWare版本不一致。
Actions :请使用相同版本的DataWare软件。
Error 103 :Running system settings inconsistant, need re-run DataWare !
该信息表示由于服务器在运行DataWare时,发现错误Error 100、101 或102 所以强制停止对方服务器DataWare的运行。
Actions :请使用相同参数设置DataWare。(参考Error 100,101,102)
Error 220 :Cannot mount filesystems !
Several reasons cause this happens:
1. DataWare配置不正确
2. 系统文件 "fs_tables" 在以下目录中不存在:
/usr/lib/DataWare/configure
3. 文件系统不存在
Actions :情况1:
键入"dwcheck c"检查文件系统名称是否正确;如果不正确,请在”dw.cfg”中使用正确的名称,并重新安装DataWare。
情况2:
在DataWare安装完成自动产生文件 "fs_tables",如果文件被删除,则必须重新安装DataWare。
情况3:
文件系统必须已存在,且与DataWare配置文件中的同名,建议在运行DataWare以前仔细检查已创建的文件系统。
Error 230 :Cannot umount filesystems !
可参考Error 220。一般情况下Error 220的信息会先显示,但在系统运行中,如果系统文件 "fs_tables"被删除,则报”Error 230”
1. DataWare配置不正确
2. 系统文件 "fs_tables" 在以下目录中不存在:
/usr/lib/DataWare/configure
3. 文件系统不存在
Actions :情况1:
键入"dwcheck c"检查文件系统名称是否正确;如果不正确,请在”dw.cfg”中使用正确的名称,并重新安装DataWare。
情况2:
在DataWare安装完成自动产生文件 "fs_tables",如果文件被删除,则必须重新安装DataWare。
情况3:
文件系统必须已存在,且与DataWare配置文件中的同名,建议在运行DataWare以前仔细检查已创建的文件系统。
Error 240 :Application running error !
出错原因可能有以下几点:
1. 应用程序名没有在ap_tables指定
2. 路径名不对
Actions :键入"dwcheck c"检查程序名,路径以及mount文件系统是否正确;如果不正确,则必须重新编辑配置文件"dw.cfg",并重新安装DataWare。
Error 250 :Cannot change IP address !
服务器没有启动TCP/IP的逻辑地址。
Actions :键入"dwcheck c"检查需要设定的TCP/IP地址,如果IP地址不正确,请重新编辑"dw.cfg"并重新安装DataWare。
Error 251 :IP tables configure error. Check DataWare configuration.
配置文件"dw.cfg"中ip_tables错误,缺少配置行,总行数应为偶数
Actions :键入"dwcheck c"检查丢失的IP address设定,将该设定键入配置文件 "dw.cfg"中,然后重新安装DataWare.。
Error 301 :Host Identity file error !
主机定义文件内容被更改,删除或使用不正确的格式
Actions :重装DataWare请参考第三章
Error 310 ataWare fork process fail !
DataWare不能在当前的操作系统上管理进程
Actions :与DataWare无关,请检查操作系统。
Error 311 ataWare is already running !
此信息告诉用户,当系统已经运行 DataWare时,不要重复启动
Actions :不需要特别操作,该信息提示用户DataWare已运行,不要再次运行DataWare命令
Error 312 ataWare is not running !
当用户想停止DataWare时,DataWare并没有运行
Actions :不需要特别操作,该信息提示用户DataWare没有运行。
Error 314 :Take job error !
一台服务器试图接管另一台服务器的任务,但不成功
Actions :检查配置文件"dw.cfg"中的选项
1. file system path
2


本文来自ChinaUnix博客,如果查看原文请点:http://blog.chinaunix.net/u2/70914/showart_727827.html
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP