免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 4842 | 回复: 9
打印 上一主题 下一主题

HACMP5.1问题,请达人帮忙看看,在线等 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2008-06-25 22:52 |只看该作者 |倒序浏览
这是双机中的2号机报的错误\r\n出现该错误之后\r\n2号机的en0和en1网卡均失效\r\n均无法ping通\r\n1号机倒是逻辑Ip地址切换到另外一块网卡上\r\n但无明显异常\r\n重启2号机之后才恢复\r\n大家给看看可能是什么原因导致的\r\n\r\nmessages:\r\n\r\nMay 30 13:34:58 ph2 topsvcs[9402]: (Recorded using libct_ffdc.a cv 2):::Error ID: 6Q8noE006tD6//ZH/.LK0/0...................:::Reference ID: :::Template ID: 90d3329c::etails File:  :::Location: rsct,nim_control.C,1.39,5466                  :::TS_NIM_ERROR_RDWR_ER NIM read/write error 1: read operation   0: write operation 0 Error detailed information value1: error count  value2: errno Error data 1 50 Error data 2 70 Interface name en0\r\n\r\nerrpt -a:\r\n\r\nLABEL:                TS_NIM_ERROR_RDWR_E\r\nIDENTIFIER:        90D3329C\r\n\r\nDate/Time:       Fri May 30 13:34:58 BEIS\r\nSequence Number: 1746\r\nMachine Id:      xxxxx\r\nNode Id:         ph2\r\nClass:           S\r\nType:            PERM\r\nResource Name:   topsvcs         \r\n\r\nDescription\r\nNIM read/write error\r\n\r\nProbable Causes\r\nRead error while trying to retrieve packets\r\nWrite error while trying to send packets\r\n\r\nFailure Causes\r\nLack of \'mbufs\'\r\nNetwork is down\r\nI/O errors while accessing heartbeating device\r\n\r\n        Recommended Actions\r\n        Correct device or network problem\r\n        Call IBM Service if problem persists\r\n\r\nDetail Data\r\nDETECTING MODULE\r\nrsct,nim_control.C,1.39,5466                  \r\nERROR ID \r\n6Q8noE006tD6//ZH/.LK0/0...................\r\nREFERENCE CODE\r\n                                          \r\n1: read operation   0: write operation\r\n           0\r\nError detailed information\r\nvalue1: error count  value2: errno\r\nError data 1\r\n          50\r\nError data 2\r\n          70\r\nInterface name\r\nen0

论坛徽章:
0
2 [报告]
发表于 2008-06-25 23:44 |只看该作者
Failure Causes\r\nLack of \'mbufs\'\r\nNetwork is down\r\nI/O errors while accessing heartbeating device\r\n\r\n这是已经写清楚的可能原因,需要配合网络部门检查事发时间点的网络实际情况。\r\n\r\n要知道准确的具体原因,你可以在任意一台节点上做snap -ec,然后把snap.pax.Z发送给我帮你看看。(QQ直传)

论坛徽章:
0
3 [报告]
发表于 2008-06-26 00:14 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
0
4 [报告]
发表于 2008-06-26 00:27 |只看该作者
楼上的看log日期就知道楼主当时不在现场,他没可能知道之前做了什么操作,而这个时间点也不是会做什么操作的时候。\r\n\r\n收snap之后,第一要看的是mbufs的数值,第二要看的是当时时间点2节点的events log。\r\n\r\n3年前我PD也是先问问题,现在不问了,给我数据就可以安心等结果了。

论坛徽章:
0
5 [报告]
发表于 2008-06-26 22:10 |只看该作者

回复 #2 yanbing 的帖子

非常感谢斑竹的关注\r\n\r\n非常感谢大家的关注\r\n\r\n相关信息我尽快反馈给你

论坛徽章:
0
6 [报告]
发表于 2008-06-27 22:32 |只看该作者

回复 #5 arenas2007 的帖子

由于一些其他的原因\r\n今天还没有拿到snap信息。。。\r\n我会尽快把信息收集回来

论坛徽章:
0
7 [报告]
发表于 2008-07-02 23:02 |只看该作者

回复 #1 arenas2007 的帖子

to yanbing:\r\n\r\nsnap信息已经收回\r\n\r\n你有空我发给你

论坛徽章:
0
8 [报告]
发表于 2008-07-24 23:33 |只看该作者

回复 #7 arenas2007 的帖子

经过一段时间的分析\r\n\r\n这个问题现在终于有了些进展\r\n\r\n应该是当时的2号机的路由出现了问题\r\n\r\n出现问题时候的路由为:\r\n\r\nRouting tables\r\nDestination      Gateway           Flags   Refs     Use  If   PMTU Exp Groups\r\n\r\nRoute Tree for Protocol Family 2 (Internet):\r\n127/8            localhost         U         6  7626558  lo0     -   -      -   \r\n129.9.0.0        localhost         UHSb      0        0  lo0     -   -      -   =>\r\n129.9.0.0        ph2_boot    UHSb      0        0  en0     -   -      -   \r\nph2_boot   localhost         UGHS      0        1  lo0     -   -      -   \r\n129.9.255.255    ph2_boot    UHSb      0    12687  en0     -   -      -   \r\n129.10.0.0       ph2_stby    UHSb      0        0  en1     -   -      -   =>\r\n129.10/16        ph2_stby    U         2  6107936  en1     -   -      -   \r\nph2_stby   localhost         UGHS      0      130  lo0     -   -      -   \r\n129.10.255.255   ph2_stby    UHSb      0    21223  en1     -   -      -   \r\n\r\nRoute Tree for Protocol Family 24 (Internet v6):\r\n::1              ::1               UH        0        0  lo0 16896   -      - \r\n\r\n其中\r\n\r\n129.9/16        ph2_boot     U         0       84  en0     -   -      -  \r\n\r\n是缺失的\r\n\r\n这也就导致这个机器上发往129.9网段(也即ph2_boot所在的网段)的包全部丢失了\r\n\r\n12分钟之后1号机的网卡切换也是2号机的路由问题引发的\r\n\r\n但是路由的缺失原因还不清楚

论坛徽章:
0
9 [报告]
发表于 2008-12-02 20:06 |只看该作者

回复 #8 arenas2007 的帖子

这个问题最终的结论:\r\n正确的路由丢失的原因是我们自己编写的脚本有bug\r\n脚本中使用了\".\"匹配IP地址的一部分,但是未加去转义字符\"\\\"\r\n在实际中匹配到了收发包的个数\r\n导致正确的路由被误删\r\n最终双机公网的心跳出现异常\r\n其中一台机器出现了一系列的动作如swap ip地址等\r\n\r\n确实是一个教训\r\n时隔这么久再发出来\r\n希望大家不要犯同样的错误\r\n再次感谢大家对该贴的关注!

论坛徽章:
0
10 [报告]
发表于 2008-12-03 12:13 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP