免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 4818 | 回复: 11
打印 上一主题 下一主题

[HACMP集群] HACMP5.1问题,请达人帮忙看看,在线等 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2008-06-25 22:52 |只看该作者 |倒序浏览
这是双机中的2号机报的错误
出现该错误之后
2号机的en0和en1网卡均失效
均无法ping通
1号机倒是逻辑Ip地址切换到另外一块网卡上
但无明显异常
重启2号机之后才恢复
大家给看看可能是什么原因导致的

messages:

May 30 13:34:58 ph2 topsvcs[9402]: (Recorded using libct_ffdc.a cv 2):::Error ID: 6Q8noE006tD6//ZH/.LK0/0...................:::Reference ID: :::Template ID: 90d3329c::etails File:  :::Location: rsct,nim_control.C,1.39,5466                  :::TS_NIM_ERROR_RDWR_ER NIM read/write error 1: read operation   0: write operation 0 Error detailed information value1: error count  value2: errno Error data 1 50 Error data 2 70 Interface name en0

errpt -a:

LABEL:                TS_NIM_ERROR_RDWR_E
IDENTIFIER:        90D3329C

Date/Time:       Fri May 30 13:34:58 BEIS
Sequence Number: 1746
Machine Id:      xxxxx
Node Id:         ph2
Class:           S
Type:            PERM
Resource Name:   topsvcs         

Description
NIM read/write error

Probable Causes
Read error while trying to retrieve packets
Write error while trying to send packets

Failure Causes
Lack of 'mbufs'
Network is down
I/O errors while accessing heartbeating device

        Recommended Actions
        Correct device or network problem
        Call IBM Service if problem persists

Detail Data
DETECTING MODULE
rsct,nim_control.C,1.39,5466                  
ERROR ID
6Q8noE006tD6//ZH/.LK0/0...................
REFERENCE CODE
                                          
1: read operation   0: write operation
           0
Error detailed information
value1: error count  value2: errno
Error data 1
          50
Error data 2
          70
Interface name
en0

论坛徽章:
0
2 [报告]
发表于 2008-06-25 23:44 |只看该作者
Failure Causes
Lack of 'mbufs'
Network is down
I/O errors while accessing heartbeating device

这是已经写清楚的可能原因,需要配合网络部门检查事发时间点的网络实际情况。

要知道准确的具体原因,你可以在任意一台节点上做snap -ec,然后把snap.pax.Z发送给我帮你看看。(QQ直传)

论坛徽章:
0
3 [报告]
发表于 2008-06-26 00:14 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
0
4 [报告]
发表于 2008-06-26 00:27 |只看该作者
楼上的看log日期就知道楼主当时不在现场,他没可能知道之前做了什么操作,而这个时间点也不是会做什么操作的时候。

收snap之后,第一要看的是mbufs的数值,第二要看的是当时时间点2节点的events log。

3年前我PD也是先问问题,现在不问了,给我数据就可以安心等结果了。

论坛徽章:
0
5 [报告]
发表于 2008-06-26 22:10 |只看该作者

回复 #2 yanbing 的帖子

非常感谢斑竹的关注

非常感谢大家的关注

相关信息我尽快反馈给你

论坛徽章:
0
6 [报告]
发表于 2008-06-27 22:32 |只看该作者

回复 #5 arenas2007 的帖子

由于一些其他的原因
今天还没有拿到snap信息。。。
我会尽快把信息收集回来

论坛徽章:
0
7 [报告]
发表于 2008-07-02 23:02 |只看该作者

回复 #1 arenas2007 的帖子

to yanbing:

snap信息已经收回

你有空我发给你

论坛徽章:
0
8 [报告]
发表于 2008-07-24 23:33 |只看该作者

回复 #7 arenas2007 的帖子

经过一段时间的分析

这个问题现在终于有了些进展

应该是当时的2号机的路由出现了问题

出现问题时候的路由为:

Routing tables
Destination      Gateway           Flags   Refs     Use  If   PMTU Exp Groups

Route Tree for Protocol Family 2 (Internet):
127/8            localhost         U         6  7626558  lo0     -   -      -   
129.9.0.0        localhost         UHSb      0        0  lo0     -   -      -   =>
129.9.0.0        ph2_boot    UHSb      0        0  en0     -   -      -   
ph2_boot   localhost         UGHS      0        1  lo0     -   -      -   
129.9.255.255    ph2_boot    UHSb      0    12687  en0     -   -      -   
129.10.0.0       ph2_stby    UHSb      0        0  en1     -   -      -   =>
129.10/16        ph2_stby    U         2  6107936  en1     -   -      -   
ph2_stby   localhost         UGHS      0      130  lo0     -   -      -   
129.10.255.255   ph2_stby    UHSb      0    21223  en1     -   -      -   

Route Tree for Protocol Family 24 (Internet v6):
::1              ::1               UH        0        0  lo0 16896   -      -

其中

129.9/16        ph2_boot     U         0       84  en0     -   -      -  

是缺失的

这也就导致这个机器上发往129.9网段(也即ph2_boot所在的网段)的包全部丢失了

12分钟之后1号机的网卡切换也是2号机的路由问题引发的

但是路由的缺失原因还不清楚

论坛徽章:
0
9 [报告]
发表于 2008-12-02 20:06 |只看该作者

回复 #8 arenas2007 的帖子

这个问题最终的结论:
正确的路由丢失的原因是我们自己编写的脚本有bug
脚本中使用了"."匹配IP地址的一部分,但是未加去转义字符"\"
在实际中匹配到了收发包的个数
导致正确的路由被误删
最终双机公网的心跳出现异常
其中一台机器出现了一系列的动作如swap ip地址等

确实是一个教训
时隔这么久再发出来
希望大家不要犯同样的错误
再次感谢大家对该贴的关注!

论坛徽章:
0
10 [报告]
发表于 2008-12-02 23:22 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP