免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3877 | 回复: 2

[Veritas NBU] mediaserver 到 nbumaster 有2条路由在config device时 报错的问题 [复制链接]

论坛徽章:
0
发表于 2011-10-23 17:54 |显示全部楼层
本帖最后由 yuanquan44 于 2011-10-23 17:58 编辑

背景:
master:AIX6.1  IBM595
IP:10.10.10.1(大家都晓得这个是假IP
mediaserver:AIX6.1 IBM595
物理IP:10.10.10.2
服务IP:10.10.10.3
NBU版本:6.5.5
带库:IBM 3494

mediaserver 属于ha里面的主机,由于备机基本没用,备份需求很简单,故只在这台上面安装NBU,没有配置nbu cluster。

症状:
tpautoconf -a 的时候报错
EMM interface initialization failed, status = 92

通过java console config device的时候
报错如图:
25325253352.jpg

nbu进程
NB Processes
------------
    root 2031622       1   0 16:44:28      -  0:00 /usr/openv/netbackup/bin/bpcompatd
    root 3473536       1   0 16:44:29      -  0:00 /usr/openv/netbackup/bin/nbrmms
    root 3867330       1   0 16:44:30      -  0:00 /usr/openv/netbackup/bin/nbsl
    root 3212414       1   0 16:44:30      -  0:00 /usr/openv/netbackup/bin/nbsvcmon


MM Processes
------------
    root 2228554       1   0 16:44:28      -  0:00 vmd
    root 3343454       1   0 16:44:28      -  0:00 /usr/openv/volmgr/bin/ltid

/usr/openv/volmgr/bin/ltid 这个进程时有时无。


解决过程:
1.看到tpautoconf -a的报错。去troubleshooting guide 查看92号代码。
说的是和恢复相关的东西。一无所获。
google EMM interface initialization failed, status = 92
给出的答案是etc/hosts 文件没有127.0.0.1 localhost 的解析。
查看mediaserver 的该文件,已经有了该解析。

2.在google上搜索java console 上类似的报错:
带机的兼容性或者光纤卡的驱动有问题。
因为有很多机器都用该带机,并且在同一环境下,故排除带机的问题。
通过lslpp -l | grep -i fc 等一系列命令,查出光纤卡的驱动版本。
在nbumaster上面发现用的光纤卡型号和这个型号不一样,没法排除。
在别的正常的media server找到了一个光纤卡PN号和出问题的mediaserver 上PN号一样,同时驱动版本也完全一致。
排除硬件原因。

3.调试日志:
查看bptm bpcd bprd等日志错误是有报出,但是属于大众型的。
14:59:03.981 [2687480] <2> db_begin: db_startrequest() failed: premature eof encountered
14:59:03.981 [2687480] <2> db_ERROR: db_begin() failed: premature eof encountered
14:59:03.981 [2687480] <2> logERROR: db_ERROR() failed: premature eof encountered (233)
14:59:03.984 [2687480] <2> bprd: lock file fd = 5

在bpcd 里面也只有一个bpdbm 报错。也只是说连接的时候出错了。
本人对日志的研究也有限。。没法搞。。

4.猜测是网络问题:
mediaserver 上 telnet master 上的13724.13782.1556 等端口均正常。。(同一网段也应该是没啥问题的)

ping nbumaster 正常解析,通过。
在nbumaster 上 bpclntcmd -hn bpclntcmd -ip 均无异样。
在mediaserver 上 bpclntcmd -ip bpclntcmd -hn 也无异样。

mediaserver 上traceroute nbumaster发现走的是服务IP。
但是我配置NBU时指定的是物理IP。

重新在media server上执行bpclntcmd。
这次有发现了。在执行bpclntcmd -pn的时候,
[lbbila51:root:/usr/openv/netbackup/logs] bpclntcmd -pn
expecting response from server nbu_master
[lbbila51:root:/usr/openv/netbackup/logs] bpclntcmd -pn
expecting response from server nbu_master
lbbila51 *NULL* 10.10.10.2 41283
[lbbila51:root:/usr/openv/netbackup/logs] bpclntcmd -pn
expecting response from server nbu_master
[lbbila51:root:/usr/openv/netbackup/logs] bpclntcmd -pn
expecting response from server nbu_master
lbbila51 *NULL* 10.10.10.2 52967
[lbbila51:root:/usr/openv/netbackup/logs] bpclntcmd -pn
expecting response from server nbu_master
[lbbila51:root:/usr/openv/netbackup/logs] bpclntcmd -pn
expecting response from server nbu_master
lbbila51 *NULL* 10.10.10.2 62067
一下通 一下不通。
这下就有突破了。检查mediaserver上的路由
netstat -r
....
10.10.10.0       lbbila51           UHSb      0         0 en3      -      -   =>
10.10.10.0       lbbila5_srv       UHSb      0         0 en0      -      -   =>
10.10.10/24      lbbila51          U         9  23146820 en3      -      -   =>
10.10.10/24      lbbila5_srv       U         8  20659405 en0      -      -   
....

同一个网络有2条路由,一个是ser_IP,一个是per_IP
没考虑其他的就打算直接添加一条静态路由
但是smitty 添加路由半天无响应,
有点心虚了,用master去ping mediaserver 发现不通了。。
我急了。。。不可能添加一条路由把这台机器的网络整断了吧。。。
等了半天还是没好,等了10来分钟竟然直接断了:回到nbumaster的提示下了(我是通过nbumaster telnet到mediaserver上操作的)。
这下怕怕了。。尝试从其他主机上登陆到mediaserver。。很庆幸能登陆上去。又尝试了其他的网段的主机ping mediaserver能通。。
还好,受影响的只有nbumaster。
(虽然不是生产环境还是吓了一跳,要是真是网络出了问题,只有麻烦主机的兄弟去hmc上搞了。传到客户耳朵里就不好听了。。这个圈子小,你懂的)
赶紧把添加的路由删除了。。nbumaster和mediaserver的通信恢复正常了。。
为什么添加路由会出现这问题,还真搞不懂。如果有知道的朋友,麻烦告知一下,谢谢。

看样子搞路由是不能搞了。。
想起了以前在做NBU双机的时候 有个requiredinterface 这东西。
在vm.conf和bp.config 添加 requiredinterface = lbbila51

重启nbu。。
bpclntcmd -pn 恢复正常。
在java console 里面config device 也正常了:
QQ截图20111023165216.jpg

配置的时候虽然有点慢,但是终归是好了。慢的原因也正在查。


希望对各位朋友有帮助。

--小土哥

论坛徽章:
0
发表于 2011-10-24 09:48 |显示全部楼层
上周五碰到同样的问题。
AIX设置的有问题,每次重启服务器后都是2条路由,需要删一个。
配置一下AIX就行了.

论坛徽章:
1
CU十二周年纪念徽章
日期:2013-10-24 15:41:34
发表于 2011-10-25 05:16 |显示全部楼层
required_interface这个参数在HA环境下是非常有用的。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP