免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
123下一页
最近访问板块 发新帖
查看: 10448 | 回复: 23
打印 上一主题 下一主题

[HACMP集群] HACMP PD 实例共享 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2008-05-04 14:56 |只看该作者 |倒序浏览
CU里面会装HACMP的人多了去了,但如何PD实际上还没有明确的case可以帮大家整理思路,前不久我这边碰到个实际case,情况比较典型

特此整理成一个HACMP PD实例共享给大家。

以下为在现场的同事的描述。

事件情况-

故障描述-
2008-03-26:
1. 晚上,按步骤更换hwhlr_ph1系统中有报错的hdisk1:clstop->unmirriovg->reducevg->shutdown。随后故障出现:hwhlr_ph1无法启机,
hang在checpoint:9400 ;检查firmware manager有报错:20EE000B。
2. hwhlr_ph1关闭后,hwhlr_ph2自动重启(后来此现象也印HACMP有问题)


处理步骤-
step 1:sysbackup tape引导启动,做bosboot后重启:启动到start AIX后约1分钟后系统自动关闭到ok状态
step 2:经过反复观察,发现断开hwhlr_ph1两条网线后可完成正常启机;这时印证可能HACMP造成系统自动关闭
step 3:断开hwhlr_ph1两条网线,clstop关闭hwhlr_ph1和hwhlr_ph2的HA,但一连接网线hwhlr_ph1即自动关机,反复测试发现有时
        是hwhlr_ph2自动关机。检测tty正常
step 4:只有在将service ip做ifconfig en0 down后,连接网线后两台机器才能同时启动。Verfy HA正常,clstart正常,但无法正常
        切换:hwhlr_ph1做clstop(takeover方式)后,hwhlr_ph2自动重启。


补充说明:我这里有当时的snap -ec(30MB),有兴趣做进一步分析的同行pm告诉我QQ号,我发送给你。

论坛徽章:
0
2 [报告]
发表于 2008-05-04 19:34 |只看该作者
可能是我没有说明这个case共享的步骤,现在补充说明一下。

我希望的是大家能够参与在里面,一起分析,一起判断,从而得到PD path。

如果只是个简单的case summary,那么没有人可以从中获得什么更多的感受。

也许这个方式不是最佳,如果实际上没人感兴趣参与的话,那也就此做罢。

论坛徽章:
0
3 [报告]
发表于 2008-05-05 02:38 |只看该作者
参与一下, 已PM , 请查收, 谢谢 !

论坛徽章:
0
4 [报告]
发表于 2008-05-05 04:15 |只看该作者
参与一下.碰到类似情况己PM

论坛徽章:
0
5 [报告]
发表于 2008-05-12 14:21 |只看该作者
log包已经收到, 看了下, 说下我的理解吧 , 不对之处,还请见谅 :

看了下hacmp log 和 clinfo.out 。
hwhlr_ph1 clstop的hacmp.out.1不太正常,也印证了为什么看clinfo.out的时候老是显示
0821-238 arp: Entry hwhlr_ph1_boot (129.9.101.191) was not found in local arp table.
aarp.atm: Entry hwhlr_ph1_stby (129.10.101.191) was not found in local arp tableararp.atm: Entry hwhlr_ph1_stby (129.10.101.191) was not found in local arp table.


0821-238 arp: Entry hwhlr10 (129.9.101.193) was not found in local arp table.

Entry hwhlr_ph2_stby (129.10.101.192) was deleted from local arp table.
al arp table.
arp.atm: Entry hwhlr_ph1_stby (129.10.101.191) was not found in local arp table.
arp.atm: Entry hwhlr_ph1_stby (129.10.101.191) was not found in local arp table.

这样类似语句的出处.

在hwhlr_ph1 clstop做swap-address时候,发生了arp flush , 摘取的信息如下:

hlr_rg:cl_swap_IP_address[1003] flush_arp
hlr_rg:cl_swap_IP_address[2] set -u
hlr_rg:cl_swap_IP_address[4] arp -an
hlr_rg:cl_swap_IP_address[4] grep \?
hlr_rg:cl_swap_IP_address[4] tr -d ()
hlr_rg:cl_swap_IP_address[4] read host addr other
hlr_rg:cl_swap_IP_address[5] arp -d 129.9.101.22
129.9.101.22 (129.9.101.22) deleted
hlr_rg:cl_swap_IP_address[4] read host addr other
hlr_rg:cl_swap_IP_address[5] arp -d 129.10.101.192
129.10.101.192 (129.10.101.192) deleted
hlr_rg:cl_swap_IP_address[4] read host addr other
hlr_rg:cl_swap_IP_address[5] arp -d 129.9.101.191
129.9.101.191 (129.9.101.191) deleted
hlr_rg:cl_swap_IP_address[4] read host addr other
hlr_rg:cl_swap_IP_address[5] arp -d 129.9.101.192
129.9.101.192 (129.9.101.192) deleted
hlr_rg:cl_swap_IP_address[4] read host addr other
hlr_rg:cl_swap_IP_address[5] arp -d 129.9.101.193
129.9.101.193 (129.9.101.193) deleted
hlr_rg:cl_swap_IP_address[4] read host addr other
hlr_rg:cl_swap_IP_address[5] arp -d 129.9.101.200
129.9.101.200 (129.9.101.200) deleted
hlr_rg:cl_swap_IP_address[4] read host addr other
hlr_rg:cl_swap_IP_address[5] arp -d 129.9.101.201
129.9.101.201 (129.9.101.201) deleted
hlr_rg:cl_swap_IP_address[4] read host addr other
hlr_rg:cl_swap_IP_address[7] return 0

这也就好解释为什么后面发生的网线拔了没事, 一插上去或者做ha验证,takeover的时候,发生机器重启.

HACMP的版本是5.1 , 上IBM网搜了下关于5.1的补丁,没搜到关于此类报错相关的apar包,可能搜的不太仔细,是否需要升级到最新? 我再找找 。

另外期待yanbing的下一步 。 如理解错了,还请原谅。

论坛徽章:
1
荣誉版主
日期:2011-11-23 16:44:17
6 [报告]
发表于 2008-05-12 22:52 |只看该作者
LS说的我倒是没怎么觉得有啥不对劲的
睡了一觉,我慢慢看

论坛徽章:
0
7 [报告]
发表于 2008-05-13 03:02 |只看该作者

问题不在这!

我当时花了10个小时,先后开了30多个文本log,才理清思路,所以才会觉得是个绝对的好题目。

也是因为这一点,才推荐给CU的朋友们。

只可惜我这样的专题研讨只有你们几个哥们捧场,呵呵。

论坛徽章:
0
8 [报告]
发表于 2008-05-13 09:54 |只看该作者
新人,关注学习中

论坛徽章:
0
9 [报告]
发表于 2008-05-14 10:42 |只看该作者
俺也学习啊,已发pm

论坛徽章:
0
10 [报告]
发表于 2008-05-14 13:38 |只看该作者
正在看。。。
1.发现1号机和2号机的hosts文件好像有问题(新手,别见笑哈)
#
# Internet host table
#
127.0.0.1       localhost                loopback
129.9.101.191   hwhlr_ph1_boot  hwhlr_ph1
129.10.101.191  hwhlr_ph1_stby
129.9.101.192   hwhlr_ph2_boot  hwhlr_ph2
129.10.101.192  hwhlr_ph2_stby
129.9.101.197   tc
129.9.101.198   admin
129.9.101.193   hwhlr10
129.9.200.20    smu
129.9.200.200   m2000

129.9.101.221        hwhlr_ph1(不知道这个是干什么用的?)

继续看。。。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP