免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2384 | 回复: 2
打印 上一主题 下一主题

关于GFS的奇怪故障,NNTP兄请入 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2007-10-17 15:09 |只看该作者 |倒序浏览
硬件环境:
  两台宝德PG9251G2服务器,分别作gfs的node
  gfs-1: 192.168.11.226
  gfs-2: 192.168.11.227
  磁盘阵列使用的是豪威SB-3163SA,满配SATA 500G,做成一个LUN共享出去,共7G容量,用SCSI线把两台服务器直连在阵列

软件环境:
rhel 4 as u2,2.6.9-22.ELsmp #1 SMP Mon Sep 19 18:32:14 EDT 2005 i686 i686 i386 GNU/Linux

rhcs包:rhel-4-u2-rhcs-i386.iso
包含rpm如下:
ccs-1.0.2-0.i686.rpm
ccs-devel-1.0.2-0.i686.rpm
cman-1.0.2-0.i686.rpm
cman-devel-1.0.2-0.i686.rpm
cman-kernel-2.6.9-39.5.i686.rpm
cman-kernel-hugemem-2.6.9-39.5.i686.rpm
cman-kernel-smp-2.6.9-39.5.i686.rpm
cman-kernheaders-2.6.9-39.5.i686.rpm
dlm-1.0.0-5.i686.rpm
dlm-devel-1.0.0-5.i686.rpm
dlm-kernel-2.6.9-37.7.i686.rpm
dlm-kernel-hugemem-2.6.9-37.7.i686.rpm
dlm-kernel-smp-2.6.9-37.7.i686.rpm
dlm-kernheaders-2.6.9-37.7.i686.rpm
fence-1.32.6-0.i686.rpm
gulm-1.0.4-0.i686.rpm
gulm-devel-1.0.4-0.i686.rpm
iddev-2.0.0-3.i686.rpm
iddev-devel-2.0.0-3.i686.rpm
ipvsadm-1.24-6.i386.rpm
magma-1.0.1-4.i686.rpm
magma-devel-1.0.1-4.i686.rpm
magma-plugins-1.0.2-0.i386.rpm
perl-Net-Telnet-3.03-3.noarch.rpm
piranha-0.8.1-1.i386.rpm
rgmanager-1.9.38-0.i386.rpm
system-config-cluster-1.0.16-1.0.noarch.rpm

GFS使用源码来编译,源码如下:
GFS-6.1.0-0.src.rpm
GFS-kernel-2.6.9-35.5.src.rpm
lvm2-cluster-2.01.09-5.0.RHEL4.src.rpm
编译时,修改了GFS-kernel中的:
%define kernel_version 2.6.9-11.EL为
%define kernel_version 2.6.9-22.EL并使用了--nodeps参数。
编译出来的rpm包如下:
GFS-kernel-2.6.9-35.5.i686.rpm
GFS-kernel-debuginfo-2.6.9-35.5.i686.rpm
GFS-kernel-hugemem-2.6.9-35.5.i686.rpm
GFS-kernel-smp-2.6.9-35.5.i686.rpm
GFS-kernheaders-2.6.9-35.5.i686.rpm
GFS-6.1.0-0.i386.rpm
GFS-debuginfo-6.1.0-0.i386.rpm
lvm2-cluster-2.01.09-5.0.RHEL4.i386.rpm
lvm2-cluster-debuginfo-2.01.09-5.0.RHEL4.i386.rpm

将上述所有rpm包安装。

cluster.conf的配置情况如下:
<?xml version="1.0"?>
<cluster config_version="4" name="gfs_pc">
        <fence_daemon clean_start="1" post_fail_delay="0" post_join_delay="3"/>
        <clusternodes>
                <clusternode name="gfs-1" votes="1">
                        <fence>
                                <method name="1">
                                        <device name="MAN-FEN" nodename="gfs-1"/>
                                </method>
                        </fence>
                </clusternode>
                <clusternode name="gfs-2" votes="1">
                        <fence>
                                <method name="1">
                                        <device name="MAN-FEN" nodename="gfs-2"/>
                                </method>
                        </fence>
                </clusternode>
        </clusternodes>
        <cman expected_votes="1" two_node="1"/>
        <fencedevices>
                <fencedevice agent="fence_manual" name="MAN-FEN"/>
        </fencedevices>
        <rm>
                <failoverdomains/>
                <resources>
                        <clusterfs device="/dev/VolGFS01/Data01" force_unmount="0" fstype="gfs" mountpoint="/gfs" name="gfs01" options="-t gfs"/>
                </resources>
        </rm>
</cluster>

gfs-1启动正常,阵列能够mount上,并且能够进行IO操作,启动gfs-2的服务时有故障
故障现象
1、gfs-2启动fenced时,有时会导致gfs-1死机,而gfs-2的clvmd进程无法启动,运行后一直是等待状态
        gfs-1屏幕报错如下:
        SM: Assertion failed on line 106 of /usr/src/build/XXXXX/sm_membership.c
2、如果gfs-2的fenced能够正常启动过去之后,clvmd和gfs都能够启动,并且vgdisplay -v能看到vg的信息,但当要进行mount的操作时,mount操作在gfs-2挂起,gfs-1上也无法再进行IO操作。通过另外的终端还能够继续控制着两台机器,只是完全没有办法对阵列做操作。

以上的问题,反复测试,都依然如故,相同的配置曾经在vmware和EMC CX500阵列测试上都能正常运行,现在无法判断故障点出在哪里,请各位赐教

论坛徽章:
0
2 [报告]
发表于 2007-10-17 15:24 |只看该作者

故障现象补充

还发现了一个奇怪的现象,当fenced启动导致gfs-1死机之后,ping gfs-2,结果发现,每过几个包,总有一个包的响应非常慢,有的时候甚至有丢包
Reply from 192.168.11.227: bytes=32 time<1ms TTL=64
Reply from 192.168.11.227: bytes=32 time<1ms TTL=64
Reply from 192.168.11.227: bytes=32 time<1ms TTL=64
Reply from 192.168.11.227: bytes=32 time<1ms TTL=64
Reply from 192.168.11.227: bytes=32 time=2756ms TTL=64
Reply from 192.168.11.227: bytes=32 time<1ms TTL=64
Reply from 192.168.11.227: bytes=32 time<1ms TTL=64
Reply from 192.168.11.227: bytes=32 time<1ms TTL=64
Reply from 192.168.11.227: bytes=32 time<1ms TTL=64
Reply from 192.168.11.227: bytes=32 time<1ms TTL=64
Reply from 192.168.11.227: bytes=32 time<1ms TTL=64
Reply from 192.168.11.227: bytes=32 time<1ms TTL=64
Reply from 192.168.11.227: bytes=32 time=1045ms TTL=64
Reply from 192.168.11.227: bytes=32 time<1ms TTL=64
Reply from 192.168.11.227: bytes=32 time<1ms TTL=64
Reply from 192.168.11.227: bytes=32 time<1ms TTL=64
Reply from 192.168.11.227: bytes=32 time<1ms TTL=64
Reply from 192.168.11.227: bytes=32 time<1ms TTL=64

论坛徽章:
0
3 [报告]
发表于 2007-10-17 20:08 |只看该作者
看看这个是不是你要的.
http://www.spinics.net/lists/cluster/msg06021.html

[ 本帖最后由 wysilly 于 2007-10-17 20:20 编辑 ]
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP