免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 4846 | 回复: 13
打印 上一主题 下一主题

AS4 U5 cluster + ORACLE ,Fence设备无法发现 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2008-07-29 11:37 |只看该作者 |倒序浏览
最近跳槽去了乙方,某做广电的系统集成公司
接手了一个以前工程师搞不定的clauter难题:即在redhat as4 U5上,使用cluster+GFS,做Oracle10g的HA,存储使用的是HP的DAS(直连存储),服务器用的是2台HP DL380 G2
之前没搞过DAS直连存储,也没调试过cluster,对oracle也不熟悉,只装过单机版的oracle……在北京准备了一个多星期(10天左右),出差去客户(南方某省)实施了3天,基本搞定,遗留了2个问题:


问题之一:上面那个帖子,关于自动mount GFS分区的问题

问题之二:

本次项目中使用的HP服务器,内置了ilo的fence设备.我在重新启动服务器时按F8进入BIOS,设置了ilo卡的IP地址(192.168.0.1与2)、用户名与密码(redhat/123456789),并将ILO卡连接至交换机,且将心跳网卡的IP地址与之同段相通,修改hosts文件后,此时,在Cluster Management里将有关fence项加入,试图使用ilo卡来接替网卡心跳线工作,cluster启动失败;使用如下命令检测ilo卡,也返回超时失败消息:
[root@smsdb01 ~]#fence_ilo -a 192.168.0.1 -l redhat -p 123456789 -o status


原因暂时不明,fence设备暂时未使用.

有经验的朋友请伸出援助之手,经验互补,相互帮忙,非常感谢

[ 本帖最后由 literr 于 2008-7-29 11:39 编辑 ]

论坛徽章:
0
2 [报告]
发表于 2008-07-29 11:45 |只看该作者
详细的信息,包括:
[root@smsdb01 ~]#fence_ilo -a 192.168.0.1 -l redhat -p 123456789 -o status
错误输出,拓扑结构图,cluster.conf,hosts,route -n等
fence设备一般不需要系统发现,在产生fence动作的时候,按照cman <---> fenced <----> fence_agent的方式来进行。也就是说fence_node命令成功才可确认fence是OK的。

没有fence的cluster,危险性是比较高的。看来LZ的活没有干好啊!

论坛徽章:
0
3 [报告]
发表于 2008-07-29 11:51 |只看该作者

回复 #2 jerrywjl 的帖子

呵呵,用直连网线做心跳,可以做重新启动服务器(1台)的测试,但不能做拔网线的测试,更不能拨电源

从接手到去实施,不到2周时间,整天调试脑袋都大了……oracle 不熟,lvm不熟,直连存储不熟,cluster不熟……

论坛徽章:
0
4 [报告]
发表于 2008-07-29 13:05 |只看该作者
原帖由 literr 于 2008-7-29 11:51 发表
呵呵,用直连网线做心跳,可以做重新启动服务器(1台)的测试,但不能做拔网线的测试,更不能拨电源

从接手到去实施,不到2周时间,整天调试脑袋都大了……oracle 不熟,lvm不熟,直连存储不熟,cluster不熟……



忌讳用直连网线做心跳,一旦心跳断了,谁fence谁?
正确的方式应该是使用交换机来连接心跳线,并且我们推荐把心跳和服务放到一起。

这么折腾出来的cluster客户能验收吗?!

论坛徽章:
0
5 [报告]
发表于 2008-07-29 14:07 |只看该作者
问题就在于fence识别不出来,只好用第2对网卡互连做心跳线了

论坛徽章:
0
6 [报告]
发表于 2008-07-29 14:27 |只看该作者
原帖由 literr 于 2008-7-29 14:07 发表
问题就在于fence识别不出来,只好用第2对网卡互连做心跳线了


fence识别不出来?怎么个识别不出来?

论坛徽章:
0
7 [报告]
发表于 2008-07-29 14:35 |只看该作者
在Cluster Management里将有关fence项加入,试图使用ilo卡来接替网卡心跳线工作,cluster启动失败;使用如下命令检测ilo卡,也返回超时失败消息:
[root@smsdb01 ~]#fence_ilo -a 192.168.0.1 -l redhat -p 123456789 -o status



fence在cluster.conf代码如下

……
<fencedevices>
                <fencedevice agent="fence_ilo" hostname="192.168.0.1" login="redhat" name="hpilo01" passwd="123456789"/>
                <fencedevice agent="fence_ilo" hostname="192.168.0.2" login="redhat" name="hpilo02" passwd="123456789"/>
        </fencedevices>
……
如上,在GUI界面添加fence设备,保存后,同步cluster.conf文件到另一服务器,然后重新启动cluster就报错误了(之前已经修改/etc/hosts文件并确认无误了)
至于错误信息,我记得无非是找不到fence设备

我现在无法远程连上客户的服务器,没有权限,我已经回北京了

[ 本帖最后由 literr 于 2008-7-29 16:28 编辑 ]

论坛徽章:
0
8 [报告]
发表于 2008-07-29 15:22 |只看该作者
如上,在GUI界面添加fence设备,保存后,同步cluster.conf文件到另一服务器,然后重新启动cluster就报错误了
至于错误信息,我记得无非是找不到fence设备

我现在无法远程连上客户的服务器,没有权限,我已经回北京了

我没有碰到过在RHEL4U5上找不到ILO的情况,从来没有。所以说关键是提供出错信息嘛。

论坛徽章:
0
9 [报告]
发表于 2008-07-30 13:12 |只看该作者
你在服务器上能ping通hp lio那个口的ip地址吗?我看你把fence设备的地址设成的是私有的ip,建议换成业务网段的ip。这样心跳和数据就在一个网口上,可能会好点。

论坛徽章:
0
10 [报告]
发表于 2008-08-01 10:52 |只看该作者
原帖由 yfort 于 2008-7-30 13:12 发表
你在服务器上能ping通hp lio那个口的ip地址吗?


这个我可以确认,两台服务器起用ilo卡前,我肯定要测试一下互相能否ping通对方和自己ILO卡的IP的

我看你把fence设备的地址设成的是私有的ip,建议换成业务网段的ip。这样心跳和数据就在一个网口上,可能会好点。


这个客户似乎不允许,他们的IP早已经规划好了,不想再分给我2个IP地址的
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP