免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2045 | 回复: 5
打印 上一主题 下一主题

在存储备粉论坛发了好几天了,没有人给建议,现在重新发布,征寻解决方法, [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2005-11-29 15:42 |只看该作者 |倒序浏览
介绍一下经验啦,我现在的问题好辣手,搞了一个礼拜了,还是解决不了,
环境:
redhat AS3 +clumanager +redhat-config-cluster
服务器:浪潮两台:
gwweb1  10.0.0.1
gwweb2  10.0.0.2
心跳地址:
gwweb1   192.168.2.1
gwweb2   192.168.2.2


emc磁盘柜,
quorum分区:
/etc/sysconfig/rawdevices的内容为:
/dev/raw/raw1 /dev/emcpowera1
/dev/raw/raw1 /dev/emcpowera1

现在情况是:
集群软件能启动,上面备分的服务:httpd也能够启动;但是就是切换不成功,
比如down掉gwweb1的10.0.0.1地址,服务不能由从机接管,查看原因是因为:gwweb1没有释放掉数据区
/dev/emcpowera3,,
以下是cluster.xml:
<?xml version="1.0"?>
<cluconfig version="3.0">
  <clumembd broadcast="yes" interval="330000" loglevel="5" multicast="no" multicast_ipaddress="" thread="yes" tko_count="15"/>
  <cluquorumd loglevel="5" pinginterval="" tiebreaker_ip="172.16.7.254"/>
  <clurmtabd loglevel="5" pollinterval="4"/>
  <clusvcmgrd loglevel="5"/>
  <clulockd loglevel="5"/>
  <cluster config_viewnumber="19" key="c3aa387383165d9997e63d760d8b8f0d" name="SDWEB"/>
  <sharedstate driver="libsharedraw.so" rawprimary="/dev/raw/raw1" rawshadow="/dev/raw/raw2" type="raw"/>
  <members>
    <member id="0" name="gwweb1" watchdog="yes"/>
    <member id="1" name="gwweb2" watchdog="yes"/>
  </members>
  <services>
    <service checkinterval="3" failoverdomain="SDGW" id="0" maxfalsestarts="0" maxrestarts="0" name="Apache" userscript="/etc/init.d/apabea">
      <service_ipaddresses>
        <service_ipaddress broadcast="172.16.7.255" id="0" ipaddress="172.16.0.101" netmask="255.255.248.0"/>
      </service_ipaddresses>
      <device id="0" name="/dev/emcpowera3" sharename="">
        <mount forceunmount="yes" fstype="ext3" mountpoint="/data" options="rw"/>
      </device>
    </service>
  </services>
  <failoverdomains>
    <failoverdomain id="0" name="SDGW" ordered="no" restricted="yes">
      <failoverdomainnode id="0" name="gwweb1"/>
      <failoverdomainnode id="1" name="gwweb2"/>
    </failoverdomain>
  </failoverdomains>
</cluconfig>


我是先用命令:ifdown eth1 (不是心跳口),这样和直接拔掉eth1的网线效果是一样的,
再后来又做了些测试,几乎都是服务可以转移到另外的备机,可是就是资源不释放,这样会有安全隐患,如果两台机子同时对共享磁盘写数据,可能会导致数据丢失,,

还有为什么,两台服务器的心跳线好象没有什么作用啊,非常奇怪, 有没有好象都是一样的情形。。

论坛徽章:
0
2 [报告]
发表于 2005-12-19 20:19 |只看该作者

回复 1楼 liyhappy 的帖子

磁盘分区应该采用 GFS ,解决共享数据同步问题。

论坛徽章:
0
3 [报告]
发表于 2005-12-20 11:43 |只看该作者
楼顶是生产环境么?如果是的话,请先不要考虑RHCS. 类似你这种情况,我已经在好几个项目中遇到。

如果是2节点,用steeleye lifekeeper吧.

论坛徽章:
0
4 [报告]
发表于 2005-12-20 13:31 |只看该作者
steeleye lifekeeper也是商业软件吧,有没有免费的

论坛徽章:
0
5 [报告]
发表于 2005-12-21 09:27 |只看该作者
不要用ifdown eth1这样的手段来代替拔网线,这样会导致很多问题。
rhcs再生产环境用的多了,这是你配置的问题。
修改/etc/syslog.conf,把LOCAL4.*指向单独的文件/var/log/cluster,重起syslog
把clusvcmgrd 的日志级别调到7
你可以先不要启动ha,两个节点上依次试试看如下操作:

1. /usr/lib/clumanager start 0; echo $? (看看结果是不是0,不然可以看看/var/log/cluster日志)
2. 测试杀进程,拔网线等各种情况,运行
/usr/lib/clumanager status 0 ; echo $?(看看结果是不是1,不然可以看看/var/log/cluster日志)
3. usr/lib/clumanager stop 0 ; echo $? (看看结果是不是0,资源又没有释放,不然可以看看/var/log/cluster日志)

如果在两个节点上都通过了,你就可以在HA启动后测试没有问题了。

论坛徽章:
0
6 [报告]
发表于 2005-12-21 14:23 |只看该作者
刚才看了一下,rhas3 u4有bug,这个地方必须加上
<cluster config_viewnumber="19" key="c3aa387383165d9997e63d760d8b8f0d" name="SDWEB" msgsvc_noarp="yes" />
另外这个地方必须加上
<service_ipaddress broadcast="172.16.7.255" id="0" ipaddress="172.16.0.101" netmask="255.255.248.0" monitor_link="yes"/>
才能保证拔掉网线后切换。

建议采用下列方式配clumanager
心跳线采用交叉线直连,另外的网线连接交换机提供服务。假设心跳线ip为192.168.0.1 (node0),192.168.0.2(node1),
那么修改/etc/hosts,把这个两个ip对应到node0,node1上,配置的时候添加node0,node1为节点的名称。

配置完后,修改/etc/cluster.xml,加上两个参数即可。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP