- 论坛徽章:
- 0
|
VCS异地双机倒换网管无法正常启动
一、 【背景描述】
实验室vcs异地双机测试环境
二、 【问题描述】
VCS异地双机从osssvr-2向osssvr-1切换时网管资源总是启动失败
三、 【现象描述】
切换到最后网管资源faulted,查看切换日志/opt/OMC/startsvc.log显示:
getDBServerInfos return false!
四、 【问题跟因分析】
经确认该报错信息来自于/opt/OMC/uninstall/probDbOnline.sh 脚本,该脚本在双机启动网管的脚本 /opt/OMC/remoteHA/remoteHA_start.sh 中会调用,目的是在启动网管之前通过该脚本检查Sybase中各个网管数据库的状态,确保数据库是online状态才会检查通过,否则不允许启动网管。
经进一步确认报错来自于该脚本中一个命令调用:softinfo -sybasepasswd,该命令将连接数据库,从数据库中获取sa密码(逻辑有问题,都知道密码了还连接数据去获取密码),经无线、平台定位根因是:该命令执行时数据库还没有完全启动。
通过Sybase日志来看,omcdb在09:44:57.45 才开始恢复:
11:00000:00014:2007/07/15 09:44:57.45 server Recovering database 'omcdb'.
从softinfo日志来看,softinfo在 09:44:54.895 就开始连接数据库:
T-IN:TagID 0001:07-15 09:44:53.946: (28849|1) SettingDBProxyBase::loadConfig(), [SettingService]:switch is not configured
T-IN:TagID 0001:07-15 09:44:53.947: (28849|1) SSProxyImpl::connect: begin ...
T-ER:TagID 0001:07-15 09:44:53.953: (28849|1) SSProxyImpl::connect: fail to connect
T-ER:TagID 0001:07-15 09:44:53.953: (28849|1) SSProxyImpl::initialize() connect to server failed.
T-IN:TagID 0001:07-15 09:44:53.953: (28849|1) SSProxyImpl::connect: begin ...
T-ER:TagID 0001:07-15 09:44:53.963: (28849|1) SSProxyImpl::connect: fail to connect
T-ER:TagID 0001:07-15 09:44:53.963: (28849|1) SSProxyImpl::::sendMessage: fail to connect
T-ER:TagID 0001:07-15 09:44:53.963: (28849|1) SSProxyImpl::invoke() invoke failed 1007.
T-IN:TagID 0001:07-15 09:44:53.963: (28849|1) SettingImpl::getGroupSubGroups by db.
T-ER:TagID 0056:07-15 09:44:54.895: (28849|1) DBOperation::query group error:ErroClass=3,nativeCode=208,Msg:tbl_setting_group not found. Specify owner.objectname or use sp_help to check whether the object exists (sp_help may produce lots of output).
Error at:-1 row..
T-ER:TagID 0056:07-15 09:44:54.895: (28849|1) DBOperation::query group error:select id,parent,tag,name,attributes from tbl_setting_group where (name = '/imap/common/sysconfigure/dbServers/') order by id ASC .
T-ER:TagID 0056:07-15 09:44:54.895: (28849|1) SettingServerDBProxy::getGroupRecord() get group: /imap/common/sysconfigure/dbServers/ id error.ret=1001.
T-ER:TagID 0001:07-15 09:44:54.895: (28849|1) SysConfigure::getHostOrDBInfos:getGroupSubGroups failed. ret=1001.
五、 【问题处理过程】
在网管启动脚本中增加了sleep 30操作后问题解决,但无法根除
六、 【后续建议改进措施】
建议平台的命令不要去数据库中获取数据库密码,密码已经存在本地文件中,没必要再去连接数据库,否则会造成逻辑混乱。 |
|