忘记密码   免费注册 查看新帖 | 论坛精华区

ChinaUnix.net

  平台 论坛 博客 认证专区 大话IT HPC论坛 徽章 文库 沙龙 自测 下载 频道自动化运维 虚拟化 储存备份 C/C++ PHP MySQL 嵌入式 Linux系统
最近访问板块 发新帖
楼主: tanyangxf

RHCS心跳问题(已解决),感谢 jerrywjl兄的帮助 [复制链接]

论坛徽章:
0
发表于 2010-12-05 18:49 |显示全部楼层
那你两个交换机不能通信的话,这和单线有什么区别?

既然post_join_delay已经调了,而且防火墙方面都没有问题,那么这和你那个拓扑关系就比较大了。这样吧,你可以拆bonding,用一个交换机先试。

论坛徽章:
0
发表于 2010-12-05 20:54 |显示全部楼层
恩,我估计是网络问题,jerrywjl兄,能否解释下虚拟机上用一个IP既做心跳又跑服务为什么不行?我用2个IP,一个做心跳,一个做服务就行了,你以前在虚拟机上做的时候是用的一个IP还是2个IP?我是用是manual_fence

论坛徽章:
0
发表于 2010-12-06 13:23 |显示全部楼层
很奇怪,还是互相重启,我的系统是RHEL5.4 64位,两台X3850 X5,用的IBM IPMI做的fence设备,目前是两台机器的eth0口和fence都连在同一个交换机上,eth1连在另外一个交换机上做外网IP
/etc/hosts
[root@kms1 ~]# cat /etc/hosts
# Do not remove the following line, or various programs
# that require network functionality will fail.
127.0.0.1               localhost.localdomain localhost
::1             localhost6.localdomain6 localhost6
192.168.170.20 kms1
192.168.170.21 kms2
192.168.170.30 kms1_fence
192.168.170.31 kms2_fence

cluster.conf

[root@kms1 ~]# cat /etc/cluster/cluster.conf
<?xml version="1.0"?>
<cluster alias="kms_rhcs" config_version="8" name="kms_rhcs">
        <fence_daemon post_fail_delay="0" post_join_delay="60"/>
        <clusternodes>
                <clusternode name="kms1" nodeid="1" votes="1">
                        <fence>
                                <method name="1">
                                        <device name="kms1_fence"/>
                                </method>
                        </fence>
                </clusternode>
                <clusternode name="kms2" nodeid="2" votes="1">
                        <fence>
                                <method name="1">
                                        <device name="kms2_fence"/>
                                </method>
                        </fence>
                </clusternode>
        </clusternodes>
        <cman expected_votes="1" two_node="1"/>
        <fencedevices>
                <fencedevice agent="fence_ipmilan" auth="" ipaddr="192.168.170.30" login="USERID" name="kms1_fence" passwd="PASSW0RD"/>
                <fencedevice agent="fence_ipmilan" auth="" ipaddr="192.168.170.31" login="USERID" name="kms2_fence" passwd="PASSW0RD"/>
        </fencedevices>
        <rm>
                <failoverdomains>
                        <failoverdomain name="kms_domain" ordered="0" restricted="1">
                                <failoverdomainnode name="kms1" priority="1"/>
                                <failoverdomainnode name="kms2" priority="1"/>
                        </failoverdomain>
                </failoverdomains>
                <resources>
                        <ip address="133.0.104.47" monitor_link="1"/>
                </resources>
                <service autostart="1" domain="kms_domain" name="kms_serv">
                        <ip ref="133.0.104.47"/>
                </service>
        </rm>
</cluster>

tail -f /var/log/message


Dec  6 13:16:23 kms1 openais[8161]: [CMAN ] CMAN 2.0.115 (built Aug  5 2009 08:24:57) started
Dec  6 13:16:23 kms1 openais[8161]: [MAIN ] Service initialized 'openais CMAN membership service 2.01'
Dec  6 13:16:23 kms1 openais[8161]: [SERV ] Service initialized 'openais extended virtual synchrony service'
Dec  6 13:16:23 kms1 openais[8161]: [SERV ] Service initialized 'openais cluster membership service B.01.01'
Dec  6 13:16:23 kms1 openais[8161]: [SERV ] Service initialized 'openais availability management framework B.01.01'
Dec  6 13:16:23 kms1 openais[8161]: [SERV ] Service initialized 'openais checkpoint service B.01.01'
Dec  6 13:16:23 kms1 openais[8161]: [SERV ] Service initialized 'openais event service B.01.01'
Dec  6 13:16:23 kms1 openais[8161]: [SERV ] Service initialized 'openais distributed locking service B.01.01'
Dec  6 13:16:23 kms1 openais[8161]: [SERV ] Service initialized 'openais message service B.01.01'
Dec  6 13:16:23 kms1 openais[8161]: [SERV ] Service initialized 'openais configuration service'
Dec  6 13:16:23 kms1 openais[8161]: [SERV ] Service initialized 'openais cluster closed process group service v1.01'
Dec  6 13:16:23 kms1 openais[8161]: [SERV ] Service initialized 'openais cluster config database access v1.01'
Dec  6 13:16:23 kms1 ccsd[8152]: Initial status:: Quorate
Dec  6 13:16:23 kms1 openais[8161]: [SYNC ] Not using a virtual synchrony filter.
Dec  6 13:16:23 kms1 openais[8161]: [TOTEM] Creating commit token because I am the rep.
Dec  6 13:16:23 kms1 openais[8161]: [TOTEM] Saving state aru 0 high seq received 0
Dec  6 13:16:23 kms1 openais[8161]: [TOTEM] Storing new sequence id for ring 10
Dec  6 13:16:23 kms1 openais[8161]: [TOTEM] entering COMMIT state.
Dec  6 13:16:23 kms1 openais[8161]: [TOTEM] entering RECOVERY state.
Dec  6 13:16:23 kms1 openais[8161]: [TOTEM] position [0] member 192.168.170.20:
Dec  6 13:16:23 kms1 openais[8161]: [TOTEM] previous ring seq 12 rep 192.168.170.20
Dec  6 13:16:23 kms1 openais[8161]: [TOTEM] aru 0 high delivered 0 received flag 1
Dec  6 13:16:23 kms1 openais[8161]: [TOTEM] Did not need to originate any messages in recovery.
Dec  6 13:16:23 kms1 openais[8161]: [TOTEM] Sending initial ORF token
Dec  6 13:16:23 kms1 openais[8161]: [CLM  ] CLM CONFIGURATION CHANGE
Dec  6 13:16:23 kms1 openais[8161]: [CLM  ] New Configuration:
Dec  6 13:16:23 kms1 openais[8161]: [CLM  ] Members Left:
Dec  6 13:16:23 kms1 openais[8161]: [CLM  ] Members Joined:
Dec  6 13:16:23 kms1 openais[8161]: [CLM  ] CLM CONFIGURATION CHANGE
Dec  6 13:16:23 kms1 openais[8161]: [CLM  ] New Configuration:
Dec  6 13:16:23 kms1 openais[8161]: [CLM  ]     r(0) ip(192.168.170.20)
Dec  6 13:16:23 kms1 openais[8161]: [CLM  ] Members Left:
Dec  6 13:16:23 kms1 openais[8161]: [CLM  ] Members Joined:
Dec  6 13:16:23 kms1 openais[8161]: [CLM  ]     r(0) ip(192.168.170.20)
Dec  6 13:16:23 kms1 openais[8161]: [SYNC ] This node is within the primary component and will provide service.
Dec  6 13:16:24 kms1 openais[8161]: [TOTEM] entering OPERATIONAL state.
Dec  6 13:16:24 kms1 openais[8161]: [CMAN ] quorum regained, resuming activity
Dec  6 13:16:24 kms1 openais[8161]: [CLM  ] got nodejoin message 192.168.170.20
Dec  6 13:18:10 kms1 fenced[8180]: kms2 not a cluster member after 60 sec post_join_delay
Dec  6 13:18:10 kms1 fenced[8180]: fencing node "kms2"
Dec  6 13:18:24 kms1 fenced[8180]: fence "kms2" success

找不到心跳,所以就重启了另一台机器,目前交换机我没法调,也动不了。。请大家帮忙查看下原因

论坛徽章:
0
发表于 2010-12-06 13:58 |显示全部楼层
首先强调一点,一个地址同时做心跳和跑服务是没有问题的。你的问题还是在网络方面。尤其是交换机所连接的物理结构和规则更可疑,我觉得你可以试试将两台交换机级联起来,或者

<cman broadcast="yes" />

把这句改进去,重启集群服务,用广播试试。

论坛徽章:
0
发表于 2010-12-06 16:33 |显示全部楼层
刚我用自己的小HUB试了,没问题,应该是交换机上做了设置,抑制组播了

论坛徽章:
0
发表于 2010-12-06 16:36 |显示全部楼层
呵,我说什么来着。

论坛徽章:
0
发表于 2010-12-06 16:58 |显示全部楼层
<cman broadcast="yes" />

加了这个,好了。。。,连同一个交换机用组播和广播没什么区别吧?为什么红帽那个界面里面没有配广播的地方呢?我是用system-config-cluster配置的。。

非常感谢jerrywjl 兄的帮助,在这个版块总能找到你啊。。

论坛徽章:
0
发表于 2010-12-06 17:06 |显示全部楼层
回复 17# tanyangxf


    system-config-cluster中不可能带所有的配置选项,就像有些招数不是所有人的都知道一样。

论坛徽章:
0
发表于 2010-12-06 17:33 |显示全部楼层
呵呵,非常感谢jerrywjl兄。。这次多亏了你的帮助啊,项目拖了几天了。。被这个东西,机房又不能时刻进去。,网络不通了,就只能等。。晚上不能干活。。。jerrywjl兄是红帽的人吧,对RHCS非常熟悉啊。 。再次感谢。。。

论坛徽章:
0
发表于 2010-12-07 09:16 |显示全部楼层
客气了,我想知道一下这集群在跑什么业务?
您需要登录后才可以回帖 登录 | 注册

本版积分规则

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号 北京市公安局海淀分局网监中心备案编号:11010802020122
广播电视节目制作经营许可证(京) 字第1234号 中国互联网协会会员  联系我们:
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP