免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 4138 | 回复: 7
打印 上一主题 下一主题

求助:REDHAT CLUSTER 硬切换无法成功,泪奔中!!!! [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2011-04-21 23:39 |只看该作者 |倒序浏览
公司的一个集群环境,调了几天了,一点起色都没有,请高手指点迷津,小弟不甚感激。

环境:
redhat 5
A\B两机器做集群。
A机器有4块网卡,A机器名为xzbbmsapp01,eth0\1 组成bond0 ,配置IP为192.168.2.10 目前没有插入网线,eth2\3 组成bond1,配置ip为172.16.40.1(业务IP)

B机器有4块网卡,B机器名为xzbbmsapp02,eth0\1 组成bond0 ,配置IP为192.168.2.11 目前没有插入网线,eth2\3 组成bond1,配置ip为172.16.40.2(业务IP)

集群共享IP:172.16.40.3

目前的问题是:
集群可以正常启动,启动后如果在xzbbmsapp01上使用clusvcadm -r bbms -m xzbbmsapp02可以进行软切换,浮动ip跟业务都正常互相切换。但是无法硬切换,如果当业务运行在xzbbmsapp01上的时候,手动执行将其eth2\eth3 down掉,集群无法切换到xzbbmsapp02上,且app02机器会重启,日志中包含app01在做down网卡的时候2个机器的日志及重启的日志。

备注:
2个机器上的/etc/hosts文件、/etc/cluster/cluster.conf均一致

xzbbmsapp02#[/root]more /etc/hosts
# Do not remove the following line, or various programs
# that require network functionality will fail.
127.0.0.1            localhost.localdomain localhost
172.16.40.41         xzbbmsapp01_ilo
172.16.40.42         xzbbmsapp02_ilo
#192.168.2.10         xzbbmsapp01
#192.168.2.11         xzbbmsapp02
172.16.40.1          xzbbmsapp01
172.16.40.2          xzbbmsapp02
#192.168.1.24         bbmsapp01


日志:
包含cluster.conf配置及app01\02的操作系统日志。

cluster1.rar (24.69 KB, 下载次数: 29)

论坛徽章:
0
2 [报告]
发表于 2011-04-22 00:42 |只看该作者

论坛徽章:
0
3 [报告]
发表于 2011-04-22 01:26 |只看该作者
当业务网口都断掉后,出现下列错误:
pr 22 01:24:30 xzbbmsapp01 openais[7892]: [CLM  ]      r(0) ip(172.16.40.1)  
Apr 22 01:24:30 xzbbmsapp01 openais[7892]: [CLM  ] Members Left:
Apr 22 01:24:30 xzbbmsapp01 openais[7892]: [CLM  ] Members Joined:
Apr 22 01:24:30 xzbbmsapp01 openais[7892]: [SYNC ] This node is within the primary component and will provide service.
Apr 22 01:24:30 xzbbmsapp01 openais[7892]: [TOTEM] entering OPERATIONAL state.
Apr 22 01:24:30 xzbbmsapp01 openais[7892]: [CLM  ] got nodejoin message 172.16.40.1
Apr 22 01:24:30 xzbbmsapp01 openais[7892]: [CPG  ] got joinlist message from node 1
Apr 22 01:24:44 xzbbmsapp01 kernel: o2net: connection to node xzbbmsapp02 (num 1) at 172.16.40.2:7777 has been idle for 30.0 seconds, shutting it down.
Apr 22 01:24:44 xzbbmsapp01 kernel: (9922,0)2net_idle_timer:1506 here are some times that might help debug the situation: (tmr 1303406654.345340 now 1303406684.346107 dr 1303406654.345327 adv 1303406654.345347:1303406654.345348 func (5d47bf4b:505) 1303406258.727433:1303406258.72743
Apr 22 01:24:44 xzbbmsapp01 kernel: o2net: no longer connected to node xzbbmsapp02 (num 1) at 172.16.40.2:7777
Apr 22 01:25:14 xzbbmsapp01 kernel: (7989,0)2net_connect_expired:1667 ERROR: no connection established with node 1 after 30.0 seconds, giving up and returning errors.

论坛徽章:
0
4 [报告]
发表于 2011-04-26 22:19 |只看该作者
fence有问题,节点无法被正常重启,服务将不会自动切换。

论坛徽章:
0
5 [报告]
发表于 2011-04-27 12:01 |只看该作者
我是进来学习的,呵呵

论坛徽章:
0
6 [报告]
发表于 2011-05-03 16:33 |只看该作者
eth0/1为什么不接网线呢 不是心跳线么?

论坛徽章:
0
7 [报告]
发表于 2011-05-09 08:11 |只看该作者
本帖最后由 hbaoy 于 2011-05-09 08:57 编辑

是不是fencedevice agent=   这行有问题?

论坛徽章:
0
8 [报告]
发表于 2011-05-10 01:42 |只看该作者
是不是tiebreak的问题。要不你看看这篇http://linux.die.net/man/5/qdisk关于2 cluster nodes & 1 IP tiebreaker的内容看有没有关系
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP