免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 5717 | 回复: 11
打印 上一主题 下一主题

[HACMP集群] 急求助:HACMP5.4+EMC symmtix的严重故障 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2009-01-22 03:16 |只看该作者 |倒序浏览
各位大侠:
环境如下
AIX 5.3 TL08
HACMP 5.4 最新patch
IBM P6-570(ERP01)做主机,IBM P670(ERP02)做备机,只有一个资源组,一个服务地址,两个vg,盘阵EMC symmtix 950,
利用EMC上的hdiskpowerX做磁盘心跳,通过手工mkvg -C -y -n来创建增强并发卷组,并通过心跳测试。

俺从晚上19:30配置到第二天3:00,反复测试,确始终出现如下问题:
在所有配置完成并同步后,不加脚本启动ERP01机的hacmp,#smitty clstart之后,所有资源包括ip,vg,fs都能起来,但是就在
起来10秒钟之内,马上所有资源依次自动offline以及被remove,到最后所有资源下线。
我尝试过重装hacmp,换成hacmp5.3版本,换成老式的stby+boot地址配法等,均无效
现在把相关日志贴出来,希望大家赐教,过年了,俺还想早些回家....

1./var/hacmp/adm/clavan.log

AAA: Thu Jan 22 02:40:35 2009: umteventcomplete:: Cluster event "" completed
AAA: Thu Jan 22 02:40:35 2009: umteventcomplete:: Cluster event "" completed
AAA: Thu Jan 22 02:40:35 2009: umteventcomplete:: Cluster event "" completed
AAA: Thu Jan 22 02:40:37 2009: umteventstart:TE_RG_MOVE: Cluster event "TE_RG_MO   (这个时间点正式资源起来后马上下线的时间)
VE" started
AAA: Thu Jan 22 02:41:04 2009: umtrgoffln:lgreso:ERP01: Resource group lgreso of
fline on node ERP01
AAA: Thu Jan 22 02:41:04 2009: umteventcomplete:TE_RG_MOVE: Cluster event "TE_RG
_MOVE" completed

我的邮箱是kolor@126.com,qq:16378279,希望大家献计献策,解决俺的燃眉之急,谢谢!

论坛徽章:
1
荣誉版主
日期:2011-11-23 16:44:17
2 [报告]
发表于 2009-01-22 09:22 |只看该作者
该说的没说啊

论坛徽章:
0
3 [报告]
发表于 2009-01-22 11:54 |只看该作者
原帖由 kolor 于 2009-1-22 03:16 发表
各位大侠:
环境如下
AIX 5.3 TL08
HACMP 5.4 最新patch
IBM P6-570(ERP01)做主机,IBM P670(ERP02)做备机,只有一个资源组,一个服务地址,两个vg,盘阵EMC symmtix 950,
利用EMC上的hdiskpowerX做磁盘心 ...



奇怪~~~

论坛徽章:
0
4 [报告]
发表于 2009-01-22 17:17 |只看该作者
TE_RG_MOVE是不是接管??

论坛徽章:
0
5 [报告]
发表于 2009-01-23 02:24 |只看该作者
感谢各位,问题已经解决。
睡了一觉以后,思路转换了一下

将app,vg资源卸掉,只保留IP地址,同步后,启动hacmp,各项切换测试成功。
怀疑是卷组有问题,停止hacmp后,手工varyonvg,mount fs中发现,有一个/sapdata9lv的fs无法mount,
仔细查看后,发现在/etc/filesystems中,该文件系统log项为空,很奇怪...手工添加log属性,再次手工mount成功,
问题得到确诊:正是因为该文件系统的异常,导致挂vg,fs资源之后,hacmp无法正常挂接/sapdata9lv文件系统,就运行了资源回退。

所以,总结一下经验,一旦同步成功后还出现hacmp的异常现象,在资源组里面依次选择少量资源进行测试,顺序如下:
1.IP资源
2.vg资源
3.fs资源
4.app脚本

btw:虽然本人配置过N多的hacmp案例,包括三机,四机热备,经验还算丰富,但关键时刻还是脑袋短路了,当遇到复杂环境时,总是想着兼容性、补丁包等等问题,其实还是back to base(回归本位)的方法最好,:) 希望大家也能借鉴一下

本人的msn:gongkehuai@hotmail.com qq:16378279 欢迎交流!

论坛徽章:
0
6 [报告]
发表于 2009-01-23 13:04 |只看该作者
原来是这样,称赞楼主的精神。
做双机的时候的确应该关注一下jfs的log问题。
奇怪的是,为什么建立jfs没有生成默认的log呢?

论坛徽章:
0
7 [报告]
发表于 2009-01-23 15:42 |只看该作者
高!开始看我也认为是补丁问题,以为以前遇到过!

论坛徽章:
0
8 [报告]
发表于 2009-01-23 23:48 |只看该作者
用powerpath的话记得配置emcpowerreset
否则HACMP切换会很慢

论坛徽章:
0
9 [报告]
发表于 2009-01-24 21:17 |只看该作者
学习了不

论坛徽章:
1
荣誉版主
日期:2011-11-23 16:44:17
10 [报告]
发表于 2009-01-26 15:27 |只看该作者
原帖由 Superman2008 于 2009-1-23 23:48 发表
用powerpath的话记得配置emcpowerreset
否则HACMP切换会很慢


不是光慢,可能都切不了
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP