论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2006-12-26 17:36 |只看该作者 |倒序浏览

两台机器系统Redhat AS 4 U4
集群软件 RHCS
两台机器相关的配置如下：
[root@vm002 ~]# more /etc/hosts 两台机器一样的内容
# Do not remove the following line, or various programs
# that require network functionality will fail.
127.0.0.1    localhost
192.168.0.201 vm001
192.168.0.202 vm002

两台机器正常启动之后
[root@vm002 ~]#clustat -i 3
Member Status: Quorate

  Member Name                            Status
  ------ ----                            ------
  vm001                                  Online, rgmanager
  vm002                                  Online, Local, rgmanager

  Service Name       Owner (Last)                State
  ------- ----       ----- ------                -----
  ftpservice          vm001                         started

但是我断掉第一根网线之后，等了1分钟之后，出现
[root@vm002 ~]#clustat -i 3
Member Status: Quorate

  Member Name                            Status
  ------ ----                            ------
  vm001                                  Offline
  vm002                                  Online, Local, rgmanager

  Service Name       Owner (Last)                State
  ------- ----       ----- ------                -----
  ftpservice          unknown                      started

我的集群配置文件是：
[root@vm002 ~]# more /etc/cluster/cluster.conf
<?xml version="1.0" ?>
<cluster alias="zcbcluster" config_version="33" name="alpha_cluster">
      <fence_daemon post_fail_delay="0" post_join_delay="3"/>
      <clusternodes>
            <clusternode name="vm001" votes="1">
                     <fence>
                              <method name="1">
                                    <device name="clusterfence" nodename="vm001"/>
                              </method>
                     </fence>
            </clusternode>
            <clusternode name="vm002" votes="1">
                     <fence>
                              <method name="1">
                                    <device name="clusterfence" nodename="vm002"/>
                              </method>
                     </fence>
            </clusternode>
      </clusternodes>
      <cman expected_votes="1" two_node="1"/>
      <fencedevices>
            <fencedevice agent="fence_manual" name="clusterfence"/>
      </fencedevices>
      <rm>
            <failoverdomains>
                     <failoverdomain name="ftp-domain" ordered="1" restricted="1">
                              <failoverdomainnode name="vm001" priority="1"/>
                              <failoverdomainnode name="vm002" priority="2"/>
                     </failoverdomain>
            </failoverdomains>
            <resources>
                     <ip address="192.168.0.203" monitor_link="1"/>
                     <script file="/etc/rc.d/init.d/vsftpdHA.sh" name="ftpHA"/>
                     <fs device="/dev/sdb1" force_fsck="0" force_unmount="1" fsid="61663" fstype="ext3" mountpoint="/ftp" name="f
tpcontent" options="rw" self_fence="0"/>
            </resources>
            <service autostart="1" domain="ftp-domain" name="ftpservice" recovery="relocate">
                     <ip ref="192.168.0.203">
                              <fs ref="ftpcontent"/>
                              <script ref="ftpHA"/>
                     </ip>
            </service>
      </rm>
</cluster>

请问有什么办法，解决网线断了，在备机起服务？(首先我这两台机器服务可以相互切换)

文库|博客

chenjiuhai

家境小康

论坛徽章:: 0

2楼 [报告]

发表于 2006-12-26 17:41 |只看该作者

学习

我这里也正准备弄个集群,可不可以把安装文档共享一下???

非常感谢!

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

SUNfan

小富即安

论坛徽章:: 0

3楼 [报告]

发表于 2006-12-26 17:48 |只看该作者

rh-cs-en-4.pdf，网上有的下载的！

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

fuumax

白手起家

论坛徽章:: 0

4楼 [报告]

发表于 2006-12-26 18:08 |只看该作者

vsftpdHA.sh =
/var/log/messages =
ifconfig -a =

另外从4.4开始又加回了3里的仲裁分区

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

FunBSD

稍有积蓄

论坛徽章:: 0

5楼 [报告]

发表于 2006-12-26 19:01 |只看该作者

我也做的两个机器，我把其中一个机器的rgmanager停掉，整个cluster都down掉了，感觉这玩意可以对其上的服务提供高可用性，其本身没有啥高可用性

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

quzhaojun

白手起家

论坛徽章:: 0

6楼 [报告]

发表于 2006-12-28 09:05 |只看该作者

我想知道楼主配置的双机的硬件设备都有什么？？

两台主机＋共享磁盘＋powerswitch＋双机软件？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

SUNfan

小富即安

论坛徽章:: 0

7楼 [报告]

发表于 2006-12-28 13:37 |只看该作者

装的系统是Redhat AS 4
双机软件是rhel-4-u4-rhcs-i386-disc1.iso
没有powerswitch，机器是双网卡，第二个网卡做心跳。
共享磁盘是dell cx300
就是弄不清楚，RHCS为什么不能实现网线断的切换，一直很纳闷，为什么会这样了？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

su_hub

白手起家

论坛徽章:: 0

8楼 [报告]

发表于 2006-12-28 13:43 |只看该作者

仔细看一下/var/log/messages文件，你会找到答案的

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

SUNfan

小富即安

论坛徽章:: 0

9楼 [报告]

发表于 2006-12-28 14:49 |只看该作者

正常的情况
[root@vm002 ~]# clustat -i 3
Member Status: Quorate

  Member Name                            Status
  ------ ----                            ------
  vm001                                  Online, rgmanager
  vm002                                  Online, Local, rgmanager

  Service Name       Owner (Last)                State
  ------- ----       ----- ------                -----
  ftpservice          vm001                         started

断掉第一块网卡的连接
[root@vm002 ~]# clustat -i 3
Member Status: Quorate

  Member Name                            Status
  ------ ----                            ------
  vm001                                  Offline
  vm002                                  Online, Local, rgmanager

  Service Name       Owner (Last)                State
  ------- ----       ----- ------                -----
  ftpservice          unknown                      started
一直是这样，切换不过去！

看日志：
[root@vm002 ~]# tail -30 /var/log/messages
Dec 28 07:28:50 vm002 gpm: gpm startup succeeded
Dec 28 07:28:50 vm002 iiim: htt startup succeeded
Dec 28 07:28:50 vm002 crond: crond startup succeeded
Dec 28 07:28:50 vm002 htt_server[2788]: started.
Dec 28 07:28:52 vm002 xfs: xfs startup succeeded
Dec 28 07:28:52 vm002 anacron: anacron startup succeeded
Dec 28 07:28:52 vm002 atd: atd startup succeeded
Dec 28 07:28:53 vm002 messagebus: messagebus startup succeeded
Dec 28 07:28:53 vm002 cups-config-daemon: cups-config-daemon startup succeeded
Dec 28 07:28:53 vm002 haldaemon: haldaemon startup succeeded
Dec 28 07:28:53 vm002 rgmanager: clurgmgrd startup succeeded
Dec 28 07:28:53 vm002 fstab-sync[2893]: removed all generated mount points
Dec 28 07:28:54 vm002 clurgmgrd[2906]: <notice> Resource Group Manager Starting
Dec 28 07:28:54 vm002 clurgmgrd[2906]: <info> Loading Service Data
Dec 28 07:28:59 vm002 clurgmgrd[2906]: <info> Initializing Services
Dec 28 07:29:00 vm002 clurgmgrd: [2906]: <info> /dev/sdb1 is not mounted
Dec 28 07:29:00 vm002 fstab-sync[3668]: added mount point /media/cdrecorder for /dev/hdc
Dec 28 07:29:01 vm002 fstab-sync[3686]: added mount point /media/floppy for /dev/fd0
Dec 28 07:29:05 vm002 clurgmgrd: [2906]: <info> Executing /etc/rc.d/init.d/vsftpdHA.sh stop
Dec 28 07:29:05 vm002 vsftpdHA.sh: vsftpd shutdown failed
Dec 28 07:29:05 vm002 clurgmgrd[2906]: <info> Services Initialized
Dec 28 07:29:07 vm002 clurgmgrd[2906]: <info> Logged in SG "usrm::manager"
Dec 28 07:29:07 vm002 clurgmgrd[2906]: <info> Magma Event: Membership Change
Dec 28 07:29:07 vm002 clurgmgrd[2906]: <info> State change: Local UP
Dec 28 07:29:07 vm002 clurgmgrd[2906]: <info> State change: vm001 UP
Dec 28 07:33:02 vm002 sshd(pam_unix)[3788]: session opened for user root by root(uid=0)
Dec 28 07:34:48 vm002 kernel: CMAN: removing node vm001 from the cluster : Missed too many heartbeats
Dec 28 07:34:48 vm002 fenced[2591]: vm001 not a cluster member after 0 sec post_fail_delay
Dec 28 07:34:48 vm002 fenced[2591]: fencing node "vm001"
Dec 28 07:34:48 vm002 fence_manual: Node vm001 needs to be reset before recovery can procede.  Waiting for vm001 to rejoin the cluster or for manual acknowledgement that it has been reset (i.e. fence_ack_manual -n vm001)

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

su_hub

白手起家

论坛徽章:: 0

10楼 [报告]

发表于 2006-12-28 15:24 |只看该作者

Dec 28 07:34:48 vm002 kernel: CMAN: removing node vm001 from the cluster : Missed too many heartbeats
Dec 28 07:34:48 vm002 fenced[2591]: vm001 not a cluster member after 0 sec post_fail_delay
Dec 28 07:34:48 vm002 fenced[2591]: fencing node "vm001"
Dec 28 07:34:48 vm002 fence_manual: Node vm001 needs to be reset before recovery can procede. Waiting for vm001 to rejoin the cluster or for manual acknowledgement that it has been reset (i.e. fence_ack_manual -n vm001)

仔细看看红色的部分吧

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

12 3 4 / 4 页下一页

返回列表

Chinaunix › 论坛 › IT运维 › 集群和高可用 › redhat AS 4用RHCS做HA，断掉第一台机器网线，服务不能 ...

redhat AS 4用RHCS做HA，断掉第一台机器网线，服务不能切换！ [复制链接]

学习