免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 6281 | 回复: 6
打印 上一主题 下一主题

RHCS集群切换问题。求教!! [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2008-07-01 18:49 |显示全部楼层 |倒序浏览
我的两台IBM3850服务器。fence设备用的bmc芯片。即ipmilan模式的。现在配置好后,加载服务能够起来,浮动ip。盘柜都能起来,用命令切换是正常的(5.1的版本图形界面有bug)。但如果进行以下测试就切换不过来。麻烦大家分析一下大概问题在哪?我看了下日志,好像是fence设备有问题。系统检测到cluster有问题。但却fence不了那台服务器。
(1)       正常切换测试:使用集群软件进行集群切换,查看切换后数据库状态

测试切换正常



(2)       灾难切换测试:强制关闭Online状态服务器,查看切换后数据库状态

测试失败:

关闭Oline状态服务器后,集群服务不能够切换到备机,通过集群服务管理软件侦测到的备用服务器的集群状态如下。

[root@hfdb02 init.d]# clustat

Member Status: Quorate



  Member Name                        ID   Status

  ------ ----                        ---- ------

  hfdb01                                1 Offline

  hfdb02                                2 Online, rgmanager



  Service Name         Owner (Last)                   State         

  ------- ----         ----- ------                   -----         

  serviceracled      hfdb01                         started  

集群软件虽然已经侦测到hfdb01已经故障,但是集群服务oracled还是在hfdb01上运行,但此时hfdb01已经被强制关机。



(3)       网卡冗余测试:断开数据库服务器online状态服务器的1个网口

测试失败:

断开Oline状态服务器的网口后,处于Oline状态的服务器已经没有网络和生产网通讯,但是集群软件也不能够切换到网络状态正常的备机。

通过集群服务管理软件侦测到的备用服务器的集群状态如下

[root@hfdb02 init.d]# clustat

Member Status: Quorate



  Member Name                        ID   Status

  ------ ----                        ---- ------

  hfdb01                                1 Offline

  hfdb02                                2 Online, rgmanager



  Service Name         Owner (Last)                   State         

  ------- ----         ----- ------                   -----         

serviceracled      hfdb01                         started

论坛徽章:
0
2 [报告]
发表于 2008-07-02 09:07 |显示全部楼层

回复 #2 jerrywjl 的帖子

配置文件如下:我做了两套cluster。这个配置文件是应用服务器的,不过故障现象一样。
<?xml version="1.0" ?>
<cluster config_version="9" name="hfcard_cluster">
        <fence_daemon post_fail_delay="0" post_join_delay="3"/>
        <clusternodes>
                <clusternode name="hfapp01" nodeid="1" votes="1">
                        <fence>
                                <method name="1">
                                        <device name="fence1"/>
                                </method>
                        </fence>
                </clusternode>
                <clusternode name="hfapp02" nodeid="2" votes="1">
                        <fence>
                                <method name="1">
                                        <device name="fence2"/>
                                </method>
                        </fence>
                </clusternode>
        </clusternodes>
        <cman expected_votes="1" two_node="1"/>
        <fencedevices>
                <fencedevice agent="fence_ipmilan" auth="none" ipaddr="10.0.1.23" login="root" name="fence1" passwd="111111"/>
                <fencedevice agent="fence_ipmilan" auth="none" ipaddr="10.0.1.24" login="root" name="fence2" passwd="111111"/>
        </fencedevices>
        <rm>
                <failoverdomains>
                        <failoverdomain name="hfcard" ordered="0" restricted="1">
                                <failoverdomainnode name="hfapp01" priority="1"/>
                                <failoverdomainnode name="hfapp02" priority="1"/>
                        </failoverdomain>
                </failoverdomains>
                <resources>
                        <fs device="/dev/emcpowerb1" force_fsck="0" force_unmount="1" fsid="34178" fstype="ext3" mountpoint="/app" name="emcpowerb1" options="" self_fence="1"/>
                        <ip address="10.0.1.15" monitor_link="1"/>
                        <script file="/etc/init.d/hfcardd" name="hfcardd"/>
                </resources>
                <service autostart="1" domain="hfcard" exclusive="1" name="hfcardd">
                        <ip ref="10.0.1.15"/>
                        <fs ref="emcpowerb1"/>
                        <script ref="hfcardd"/>
                </service>
        </rm>
</cluster>

[ 本帖最后由 yfort 于 2008-7-2 09:11 编辑 ]

论坛徽章:
0
3 [报告]
发表于 2008-07-02 09:15 |显示全部楼层
日志文件大概意思是说,备节点发现主节点失效,但fence主节点的时候失败。用fence_ipmilan命令是可以控制服务器开关机的。当时fence_ipmilan  reboot的时候确是关机。

论坛徽章:
0
4 [报告]
发表于 2008-07-02 10:03 |显示全部楼层
两台服务器分别连交换机分配10网段的地址,管理口在bios里设置了地址也是10段的,同时连接交换机。这样可以在服务器上ping通fence设备(即管理口,不过延时比一般网口大)。不过问了800.这种内置的fence是不能做拔电源测试的。详细的日志下午去客户那抓一些回来。

论坛徽章:
0
5 [报告]
发表于 2008-07-04 09:33 |显示全部楼层
我现在重启机器服务能够切换,不过把业务网断开后,服务不切换。是不是服务网口和心跳口不在一个网口上的原因呢?还有在5.0上bug是不是很多啊?

论坛徽章:
0
6 [报告]
发表于 2008-07-04 10:38 |显示全部楼层
楼上的问题我也遇到过,最后没办法,两台机子重启。。重启是cluster服务还停不了。最后强制关机。被这软件搞晕了。

论坛徽章:
0
7 [报告]
发表于 2008-07-04 10:40 |显示全部楼层
我的物理结构也不是很复杂啊.就两台服务器做cluster。每台服务器3条网线都联交换机。一条跑心跳,一跳跑业务,还有条连fence。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP