免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 4253 | 回复: 3
打印 上一主题 下一主题

当光纤卡的链路断掉时服务是否会切换的疑问。 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2012-01-18 19:47 |只看该作者 |倒序浏览
本帖最后由 shitoryu 于 2012-01-20 01:06 编辑

参照网上的文档,配置RHCS,并添加了一个http的集群服务,资源包括虚拟IP,filesystem(gfs),httpd的启动脚本。
目前测试服务切换,当一个节点ha1.com的网络失效或者节点ha1.com关机,http服务都能切换到节点ha2.com上。
把ha1上的HBA卡的光纤线拔掉,用clustat查看集群状态,
显示如下:
Member Name                             ID   Status
------ ----                             ---- ------
ha1.com                                     1 Online, Local,rgmanager
ha2.com                                     2 Online, rgmanager

Service Name                   Owner (Last)                   State
------- ----                   ----- ------                   -----
service:redhat_http            (ha2.com)                        recoverable

服务一直不能切换到ha2,直到ha1完全关机,则服务会切换到ha2.com上。

我的疑问是 http服务的资源中包括了filesystem,hba卡链路断掉,相当于不能访问文件系统,为什么切换没有发生?

ha1中的log如下:Jan 18 19:38:26 ha1 kernel: qla2xxx 0000:06:01.0: LIP reset occured (f7f7).
Jan 18 19:38:31 ha1 kernel: qla2xxx 0000:06:01.0: LOOP DOWN detected (2 e678 0).
Jan 18 19:38:42 ha1 kernel:  rport-0:0-0: blocked FC remote port time out: saving binding
Jan 18 19:38:46 ha1 kernel: sd 0:0:0:1: SCSI error: return code = 0x00010000
Jan 18 19:38:46 ha1 kernel: end_request: I/O error, dev sda, sector 48386825
Jan 18 19:38:46 ha1 kernel: GFS2: fsid=new_cluster:gfs1.0: gfs2_quotad: statfs error -5
Jan 18 19:39:16 ha1 kernel: sd 0:0:0:1: SCSI error: return code = 0x00010000
Jan 18 19:39:16 ha1 kernel: end_request: I/O error, dev sda, sector 48386825
Jan 18 19:39:16 ha1 kernel: GFS2: fsid=new_cluster:gfs1.0: gfs2_quotad: statfs error -5
Jan 18 19:39:46 ha1 kernel: sd 0:0:0:1: SCSI error: return code = 0x00010000
Jan 18 19:39:46 ha1 kernel: end_request: I/O error, dev sda, sector 47443065
Jan 18 19:39:46 ha1 kernel: Buffer I/O error on device sda9, logical block 14439
Jan 18 19:39:46 ha1 kernel: lost page write due to I/O error on sda9
Jan 18 19:39:46 ha1 kernel: Buffer I/O error on device sda9, logical block 14440
Jan 18 19:39:46 ha1 kernel: lost page write due to I/O error on sda9
Jan 18 19:39:46 ha1 kernel: Buffer I/O error on device sda9, logical block 14441
Jan 18 19:39:46 ha1 kernel: lost page write due to I/O error on sda9
Jan 18 19:39:46 ha1 kernel: Buffer I/O error on device sda9, logical block 14442
Jan 18 19:39:46 ha1 kernel: lost page write due to I/O error on sda9
Jan 18 19:39:46 ha1 kernel: Buffer I/O error on device sda9, logical block 14443
Jan 18 19:39:46 ha1 kernel: lost page write due to I/O error on sda9
Jan 18 19:39:46 ha1 kernel: sd 0:0:0:1: SCSI error: return code = 0x00010000
Jan 18 19:39:46 ha1 kernel: end_request: I/O error, dev sda, sector 47443105
Jan 18 19:39:46 ha1 kernel: Buffer I/O error on device sda9, logical block 14444

Jan 18 19:39:46 ha1 kernel: lost page write due to I/O error on sda9
Jan 18 19:39:46 ha1 kernel: GFS2: fsid=new_cluster:gfs1.0: fatal: I/O error
Jan 18 19:39:46 ha1 kernel: GFS2: fsid=new_cluster:gfs1.0:   block = 14444
Jan 18 19:39:46 ha1 kernel: GFS2: fsid=new_cluster:gfs1.0:   function = log_write_header, file = fs/gfs2/log.c, line = 622
Jan 18 19:39:46 ha1 kernel: GFS2: fsid=new_cluster:gfs1.0: about to withdraw this file system
Jan 18 19:39:46 ha1 kernel: GFS2: fsid=new_cluster:gfs1.0: telling LM to withdraw
Jan 18 19:40:09 ha1 clurgmgrd: [2984]: <err> /share_fs is not a directory
Jan 18 19:40:09 ha1 clurgmgrd[2984]: <notice> status on clusterfs "share_fs" returned 1 (generic error)
Jan 18 19:40:09 ha1 clurgmgrd[2984]: <notice> Stopping service service:redhat_http
Jan 18 19:40:10 ha1 avahi-daemon[2480]: Withdrawing address record for 192.168.101.15 on eth0.
Jan 18 19:42:41 ha1 kernel: qla2xxx 0000:06:01.0: Loop down - aborting ISP.
Jan 18 19:42:41 ha1 kernel: qla2xxx 0000:06:01.0: Performing ISP error recovery - ha= f7c602e0.
Jan 18 19:43:01 ha1 kernel: qla2xxx 0000:06:01.0: Cable is unplugged...


谢谢!

论坛徽章:
0
2 [报告]
发表于 2012-01-18 20:45 |只看该作者
本帖最后由 shitoryu 于 2012-01-18 20:46 编辑

机器是 HP dl380 g3,操作系统redhat 企业版5.5,光纤卡是fc2214,用系统自带的驱动,每个主机各一块光纤卡,存储是hp的msa1000
cluster.conf配置如下:
<?xml version="1.0"?>
<cluster alias="new_cluster" config_version="11" name="new_cluster">
        <fence_daemon post_fail_delay="0" post_join_delay="3"/>
        <clusternodes>
                <clusternode name="ha1.com" nodeid="1" votes="1">
                        <fence>
                                <method name="1">
                                        <device name="ILOD306LDN1H634"/>
                                </method>
                        </fence>
                </clusternode>
                <clusternode name="ha2.com" nodeid="2" votes="1">
                        <fence>
                                <method name="1">
                                        <device name="ILOD306LDN1H566"/>
                                </method>
                        </fence>
                </clusternode>
        </clusternodes>
        <cman expected_votes="1" two_node="1"/>
        <fencedevices>
                <fencedevice agent="fence_ilo" hostname="ilo_ha1" login="administrator" name="ILOD306LDN1H634" passwd="xxxxx"/>
                <fencedevice agent="fence_ilo" hostname="ilo_ha2" login="administrator" name="ILOD306LDN1H566" passwd="xxxxx"/>
        </fencedevices>
        <rm>
                <failoverdomains>
                        <failoverdomain name="fd" ordered="0" restricted="0">
                                <failoverdomainnode name="ha1.com" priority="1"/>
                                <failoverdomainnode name="ha2.com" priority="1"/>
                        </failoverdomain>
                </failoverdomains>
<resources>
                        <clusterfs device="/dev/sda9" force_unmount="1" fsid="42707" fstype="gfs2" mountpoint="/share_fs" name="share_fs" options=""/>
                        <ip address="192.168.101.15" monitor_link="1"/>
                        <script file="/etc/init.d/httpd" name="redhat_init_http"/>
                </resources>
                <service autostart="1" domain="fd" name="redhat_http">
                        <ip ref="192.168.101.15"/>
                        <clusterfs ref="share_fs"/>
                        <script ref="redhat_init_http"/>
                </service>
        </rm>
</cluster>

论坛徽章:
0
3 [报告]
发表于 2012-01-19 17:25 |只看该作者
看不明白

论坛徽章:
0
4 [报告]
发表于 2012-01-20 01:04 |只看该作者
我的意思是,在使用rhcs搭建的集群中,HBA卡的链路发生故障(每台主机只有一块),没有发生fencing.
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP