免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 9112 | 回复: 6
打印 上一主题 下一主题

[HACMP集群] EMC CX替换IBM DS6800之后HACMP的故障处理方法及思考 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2012-03-10 16:49 |只看该作者 |倒序浏览
EMC CX替换IBM DS6800之后HACMP的故障思考

背景说明
去年客户要求对IBM DS6800扩容,由于这款存储买得很少,不好找到配件升级,客户把DS6800换成EMC CX3-40
更换存储实施的是以前的同事(再已离职),当时是在线更换的存储,没有停止HA和应用,也就没有对HA进行测试


过年前,客户有时间对应用测试,把两台570重启,起来之后HA无发开启。刚好碰到我值班(倒霉的事情总是在我身上),于是远程过去发现故障处理很麻烦,就将客户的应用临时手工拉起来

过年之后,我在公司的测试机里模拟了和客户一样的环境,只是没有DS6800存储,其它的都和客户一样,并不存在客户的这咱情况


系统说明:
主机: 两台570
老存储:IBM DS6800
新存储:EMC CX3-40
AIX系统:5300-60-03-0732
HACMP版本:HACMP5.2-SP9
多路径版本:EMC.CLARiiON.fcp.MPIO.rte  5.3.0.5 + IBM SDD 5.3



最终解决方法为:
安装EMC PowerPath多路径软件,在HACMP里定制磁盘模式和定制HACMP的切换events,用这种方法来解决在HA启动和切换时扫描磁盘的SCSI ID和LUN ID消耗的大量等待时间,而导致的HA超时后HA不继续往下走。
因为MPIO是IBM自己的多路径软件标准,是不需要在HA里做其它的配置的。我们在其它的地方配置过很多MPIO方式的HACMP,在公司也搭建过和客户一样的环境,都没有碰到过MPIO方式的需要在HACMP里定制磁盘模式和定制HACMP的切换events。



故障处理时间:
客户给出了10个小时,从晚上9:00至早上7:00,7:00之间必须把应用开启来给物流系统使用
由于直到晚上10点钟才开如停止应用,所以给我们的处理时间不到9个小时



处理流程为:
1:升级HACMP的到最新版本SP10,HA还是无法开启,故障依旧

2:删除DS6800磁盘,删除DS6800的多路径软件,关闭DS6800存储,之后再同步HA配置。
重启机器后再开启HA,在扫描磁盘的SCSI ID和LUN ID等待了约15分钟以后HA服务启动起来,ORACLE和中间件服务也都开启,但做HA切换测试失败
注:这时已经成功了3分之一,至少HA能开启来,应用也能用HA拉起来,之前连HA都开不启来

3:删除再重新安装EMC的MPIO多路径软件,同步HA配置。故障还是和第2步一样,HA能正常开启,但在扫描磁盘的SCSI ID和LUN ID等待了约15分钟以上超时而无法完成HA的切换。

4:删除HACMP的软件,再重新安装,完全重新配置HA。故障还是和第2步一样,HA能正常开启,但在扫描磁盘的SCSI ID和LUN ID等待了约15分钟以上超时而无法完成HA的切换。

5:删除EMC的MPIO软件,用AIX系统自带的多路径软件认出MPIO的盘,同步HA配置。故障还是和第2步一样,HA能正常开启,但在扫描磁盘的SCSI ID和LUN ID等待了约15分钟以上超时而无法完成HA的切换。

6:安装EMC的PowerPath多路径软件,在里定制磁盘模式,同步HA配置。故障还是和第2步一样,HA能正常开启,但在扫描磁盘的SCSI ID和LUN ID等待了约15分钟以上超时而无法完成HA的切换。

7:在第6步的基础上在HA里添加切换events,同步HA配置。开启HA,这次扫描磁盘的SCSI ID和LUN ID只用了几秒钟(这次终于看到了希望),HA很快就能把应用拉起来。

8:在第7步的基本上,将资源组B移至A正常,但将A移至B时ORACLE无法关闭,HA又是一直HANG在那里。

9:在第8步的基本上,将A节点重启,A节点关闭之后B节点很快能把应用接管过来。(心里终于松了口气,证明HA是正常的,问题是出在ORACLE上)

10:在A 节点上手工执行HA的开启脚本,ORACLE也正常打开,手工执行HA的关闭脚本,ORACLE一直HANG在那里无法关闭。进入sqlplus ,执行shutdown immediate命令能将ORACLE关闭。
    回去检查ORACLE关闭脚本并没有错识,猜想可能是环境变量的问题,在HA的关闭脚本里加上source /home/oracle/.profile命令,在脚本里再获取一次ORACLE的环境变量,再次执行ORACLE的关闭脚本,ORACLE能正常关闭

11:在第10步的基本上,A移至B时很快出现ERROR,HA切换失败,查找原因是ORACLE的监听程序无法关闭。切换至ORACLE用户执行lsnrctl stop命令,无法关闭监听程序,报监听程序设置了密码。再重新开启ORACLE,发现ORACLE服务无法注册至监听,在sqlplus里手工注册监听也不行,应用也无法连接至数据库。

12:电话联系ORACLE工程师,是ORACLE工程师按客户的要求在A节点的监听配置了密码,从而导致监听程序无法关闭,再重启数据库服务也无法注册到监听。询问客户意见,客户同意去掉监听程序密码。修改ORACLE的listener.ora文件,注释掉监听程序的密码

13:在第12步的基本上,A移至B时,成功OK

至此,已经快接近早上6点,终于赶在客户要求的7点之前把故障处理好

http://bbs.loveunix.net/viewthread.php?tid=138659

评分

参与人数 1可用积分 +10 信誉积分 +2 收起 理由
hello_unix + 10 + 2 很给力!

查看全部评分

论坛徽章:
0
2 [报告]
发表于 2012-03-10 19:37 |只看该作者
好经验,支持

论坛徽章:
12
CU大牛徽章
日期:2013-09-18 15:20:4815-16赛季CBA联赛之同曦
日期:2016-02-01 20:28:25IT运维版块每日发帖之星
日期:2015-11-10 06:20:00操作系统版块每日发帖之星
日期:2015-10-28 06:20:002015亚冠之塔什干棉农
日期:2015-06-04 11:41:56丑牛
日期:2014-05-10 16:11:33技术图书徽章
日期:2013-09-23 13:25:58CU大牛徽章
日期:2013-09-18 15:21:17CU大牛徽章
日期:2013-09-18 15:21:12CU大牛徽章
日期:2013-09-18 15:21:06CU大牛徽章
日期:2013-09-18 15:20:58数据库技术版块每日发帖之星
日期:2016-02-08 06:20:00
3 [报告]
发表于 2012-03-11 16:30 |只看该作者
本帖最后由 mike79 于 2012-03-11 16:35 编辑
cnzwg2007 发表于 2012-03-10 16:49
但在扫描磁盘的SCSI ID和LUN ID等待了约15分钟以上超时而无法完成HA的切换

我觉得HACMP的软件版本偏低了些,HACMP5.2不知道是否能很好的支持MPIO+CX的PCM。另外因为没看到错误日志,不太好判断,但是像这类磁盘错误,基本上都是在执行cl_disk_available脚本时候发生的。cl_disk_available脚本主要执行三个操作:
1,检测和删除ghost disk
2,检测和破除disk reservation
3,使磁盘available
我觉得错误是发生在2上,以前遇到过一个case,现象有相通之处。如果采用的是ecvg的话,应该就没这个问题了。其实用EMC的powerpath,然后设置disktype和event之类的,也就是实现了上面说的三个操作所要求的接口。

我以前遇到一个case,Oracle9iRAC+HACMP5.2,发现cl_disk_available脚本往磁盘上加SCSI锁,而ecvg是不加SCSI锁的。后来发现是升级了powerpath软件,导致event事件的执行脚本名称改了,在检查disk reservation时候失败,产生了一些奇怪的错误。

论坛徽章:
0
4 [报告]
发表于 2012-03-11 22:18 |只看该作者
经验的分享 顶一个

论坛徽章:
0
5 [报告]
发表于 2012-03-14 19:57 |只看该作者
回复 4# AIX深入敌后


    好经验分享,支持

论坛徽章:
1
荣誉版主
日期:2011-11-23 16:44:17
6 [报告]
发表于 2012-03-15 13:54 |只看该作者
都是没按规矩做的后果,按照规矩来,要不了2小时就搞定了

论坛徽章:
0
7 [报告]
发表于 2012-03-22 16:38 |只看该作者
)大家多多交流
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP