论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2008-07-01 18:49 |只看该作者 |倒序浏览

我的两台IBM3850服务器。fence设备用的bmc芯片。即ipmilan模式的。现在配置好后，加载服务能够起来，浮动ip。盘柜都能起来，用命令切换是正常的（5.1的版本图形界面有bug）。但如果进行以下测试就切换不过来。麻烦大家分析一下大概问题在哪？我看了下日志，好像是fence设备有问题。系统检测到cluster有问题。但却fence不了那台服务器。
（1）    正常切换测试：使用集群软件进行集群切换，查看切换后数据库状态

测试切换正常

（2）    灾难切换测试：强制关闭Online状态服务器，查看切换后数据库状态

测试失败：

关闭Oline状态服务器后，集群服务不能够切换到备机，通过集群服务管理软件侦测到的备用服务器的集群状态如下。

[root@hfdb02 init.d]# clustat

Member Status: Quorate

  Member Name                      ID Status

  ------ ----                      ---- ------

  hfdb01                               1 Offline

  hfdb02                               2 Online, rgmanager

  Service Name       Owner (Last)                State

  ------- ----       ----- ------                -----

  service

racled    hfdb01                      started

集群软件虽然已经侦测到hfdb01已经故障，但是集群服务oracled还是在hfdb01上运行，但此时hfdb01已经被强制关机。

（3）    网卡冗余测试：断开数据库服务器online状态服务器的1个网口

测试失败：

断开Oline状态服务器的网口后，处于Oline状态的服务器已经没有网络和生产网通讯，但是集群软件也不能够切换到网络状态正常的备机。

通过集群服务管理软件侦测到的备用服务器的集群状态如下

[root@hfdb02 init.d]# clustat

Member Status: Quorate

  Member Name                      ID Status

  ------ ----                      ---- ------

  hfdb01                               1 Offline

  hfdb02                               2 Online, rgmanager

  Service Name       Owner (Last)                State

  ------- ----       ----- ------                -----

service

racled hfdb01 started

文库|博客

jerrywjl

大富大贵

论坛徽章:: 0

2楼 [报告]

发表于 2008-07-01 22:33 |只看该作者

照你这么说，我感觉还真是见了鬼了！哈哈！

不过我还是提醒一下你：
首先你提供的信息不能说明任何问题。因为没有日志，没有配置文件，没有拓扑结构图，没有操作说明。

这种情况下的猜测只是在做无用功，所以我建议你把我说的这些东西都提供一下吧，如果你真想解决问题的话。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

yfort

白手起家

论坛徽章:: 0

3楼 [报告]

发表于 2008-07-02 09:07 |只看该作者

回复 #2 jerrywjl 的帖子

配置文件如下：我做了两套cluster。这个配置文件是应用服务器的，不过故障现象一样。
<?xml version="1.0" ?>
<cluster config_version="9" name="hfcard_cluster">
<fence_daemon post_fail_delay="0" post_join_delay="3"/>
<clusternodes>
<clusternode name="hfapp01" nodeid="1" votes="1">
<fence>
<method name="1">
<device name="fence1"/>
</method>
</fence>
</clusternode>
<clusternode name="hfapp02" nodeid="2" votes="1">
<fence>
<method name="1">
<device name="fence2"/>
</method>
</fence>
</clusternode>
</clusternodes>
<cman expected_votes="1" two_node="1"/>
<fencedevices>
<fencedevice agent="fence_ipmilan" auth="none" ipaddr="10.0.1.23" login="root" name="fence1" passwd="111111"/>
<fencedevice agent="fence_ipmilan" auth="none" ipaddr="10.0.1.24" login="root" name="fence2" passwd="111111"/>
</fencedevices>
<rm>
<failoverdomains>
<failoverdomain name="hfcard" ordered="0" restricted="1">
<failoverdomainnode name="hfapp01" priority="1"/>
<failoverdomainnode name="hfapp02" priority="1"/>
</failoverdomain>
</failoverdomains>
<resources>
<fs device="/dev/emcpowerb1" force_fsck="0" force_unmount="1" fsid="34178" fstype="ext3" mountpoint="/app" name="emcpowerb1" options="" self_fence="1"/>
<ip address="10.0.1.15" monitor_link="1"/>
<script file="/etc/init.d/hfcardd" name="hfcardd"/>
</resources>
<service autostart="1" domain="hfcard" exclusive="1" name="hfcardd">
<ip ref="10.0.1.15"/>
<fs ref="emcpowerb1"/>
<script ref="hfcardd"/>
</service>
</rm>
</cluster>

[ 本帖最后由 yfort 于 2008-7-2 09:11 编辑 ]

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

yfort

白手起家

论坛徽章:: 0

4楼 [报告]

发表于 2008-07-02 09:15 |只看该作者

日志文件大概意思是说，备节点发现主节点失效，但fence主节点的时候失败。用fence_ipmilan命令是可以控制服务器开关机的。当时fence_ipmilan reboot的时候确是关机。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

jerrywjl

大富大贵

论坛徽章:: 0

5楼 [报告]

发表于 2008-07-02 09:16 |只看该作者

从配置文件上看，基本上没有问题，不过信息不全，继续等。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

txl829

白手起家

论坛徽章:: 0

6楼 [报告]

发表于 2008-07-02 09:33 |只看该作者

我感觉楼主的问题应该跟我的那个问题差不多，同样都是ipmi作fence的问题，关键是网线怎么接的问题，我想知道服务与心跳怎么可以都放在eth0上？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

yfort

白手起家

论坛徽章:: 0

7楼 [报告]

发表于 2008-07-02 10:03 |只看该作者

两台服务器分别连交换机分配10网段的地址，管理口在bios里设置了地址也是10段的，同时连接交换机。这样可以在服务器上ping通fence设备（即管理口，不过延时比一般网口大）。不过问了800.这种内置的fence是不能做拔电源测试的。详细的日志下午去客户那抓一些回来。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

jerrywjl

大富大贵

论坛徽章:: 0

8楼 [报告]

发表于 2008-07-02 10:46 |只看该作者

原帖由 txl829 于 2008-7-2 09:33 发表
我感觉楼主的问题应该跟我的那个问题差不多，同样都是ipmi作fence的问题，关键是网线怎么接的问题，我想知道服务与心跳怎么可以都放在eth0上？

为什么不行？恰恰相反我还是推荐这么做。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

txl829

白手起家

论坛徽章:: 0

9楼 [报告]

发表于 2008-07-02 16:51 |只看该作者

我的差不多搞定了，不能切换是xen内核的原因;
我发现重启服务所在机器，并不会发生fence的动作;
如果用直连线作心跳，拔掉心跳后，两个节点都会有fence的动作。我这边的fence还是不能成功。
我尝试把心跳和服务都做在eth0上，但是互相都检测不到心跳，这又回到我几天前发贴问的那个问题。另外，我的主机的第三块网卡eth2接到一台备用交换机，主备交换机用直连线相连。我尝试用eth2 做心跳，也还是互相都检测不到心跳。不知道会不会是交换机的问题

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

jerrywjl

大富大贵

论坛徽章:: 0

10楼 [报告]

发表于 2008-07-02 18:20 |只看该作者

xen内核在启动的时候改变一些网络参数，包括防火墙的配置；
重启服务所在的机器，只要心跳丢失，肯定产生fence动作。
直连心跳有可能会造成错误fence的问题。如果fence不能成功，需要检查fence的链路和你的fence设备配置。
至于互相检测不到心跳，原因很多：检查硬件、防火墙，以及你使用的kernel等。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

12 / 2 页下一页

返回列表

Chinaunix › 论坛 › IT运维 › 集群和高可用 › RHCS集群切换问题。求教！！

RHCS集群切换问题。求教！！ [复制链接]

回复 #2 jerrywjl 的帖子

浏览过的版块