免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2249 | 回复: 4
打印 上一主题 下一主题

阵列突然丢失,请教怎么回事? [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2006-03-07 12:17 |只看该作者 |倒序浏览
两台HP560 + 磁盘阵列 双机集群
昨天突然出现两台服务器认不到阵列的问题,重启动服务器后一切又回复正常,message日志文件(一部分)如下记录:
Mar  5 04:02:22 localhost syslogd 1.4.1: restart.
Mar  5 04:48:51 localhost kernel: tg3: eth1: Link is down.
Mar  5 04:48:51 localhost clusvcmgrd[1523]: <crit> Invalid reply!
Mar  5 04:48:54 localhost kernel: tg3: eth1: Link is up at 1000 Mbps, full duplex.
Mar  5 04:48:54 localhost kernel: tg3: eth1: Flow control is off for TX and off for RX.
Mar  5 04:48:54 localhost kernel: scsi(0): LOOP DOWN detected.
Mar  5 04:48:56 localhost clusvcmgrd[1523]: <crit> Couldn't connect to member #0: Connection timed out
Mar  5 04:48:56 localhost clusvcmgrd[1523]: <err> Unable to obtain cluster lock: No locks available
Mar  5 04:49:02 localhost kernel: scsi(0): LOOP DEAD detected.
Mar  5 04:49:02 localhost kernel: SCSI disk error : host 0 channel 0 id 1 lun 0 return code = 10000
Mar  5 04:49:02 localhost kernel:  I/O error: dev 08:03, sector 9728
Mar  5 04:49:02 localhost kernel: SCSI disk error : host 0 channel 0 id 1 lun 0 return code = 10000
Mar  5 04:49:02 localhost kernel:  I/O error: dev 08:03, sector 9736
Mar  5 04:49:02 localhost kernel: SCSI disk error : host 0 channel 0 id 1 lun 0 return code = 10000
Mar  5 04:49:02 localhost kernel:  I/O error: dev 08:03, sector 9744
Mar  5 04:49:02 localhost kernel: SCSI disk error : host 0 channel 0 id 1 lun 0 return code = 10000
Mar  5 04:49:02 localhost kernel:  I/O error: dev 08:02, sector 289
Mar  5 04:49:04 localhost kernel: SCSI disk error : host 0 channel 0 id 1 lun 0 return code = 10000
Mar  5 04:49:04 localhost kernel:  I/O error: dev 08:03, sector 9752
Mar  5 04:49:04 localhost kernel: SCSI disk error : host 0 channel 0 id 1 lun 0 return code = 10000
Mar  5 04:49:04 localhost kernel:  I/O error: dev 08:03, sector 9760
Mar  5 04:49:04 localhost kernel: SCSI disk error : host 0 channel 0 id 1 lun 0 return code = 10000
Mar  5 04:49:04 localhost kernel:  I/O error: dev 08:03, sector 9768
Mar  5 04:49:06 localhost cluquorumd[1502]: <warning> --> Commencing STONITH <--
Mar  5 04:49:06 localhost cluquorumd[1502]: <warning> STONITH: Falsely claiming that 10.0.11.153 has been fenced
Mar  5 04:49:06 localhost cluquorumd[1502]: <crit> STONITH: Data integrity may be compromised!
Mar  5 04:52:19 localhost syslogd 1.4.1: restart.
Mar  5 04:52:19 localhost syslog: syslogd startup succeeded
Mar  5 04:52:19 localhost kernel: klogd 1.4.1, log source = /proc/kmsg started.
Mar  5 04:52:19 localhost kernel: Linux version 2.4.21-27.ELsmp (bhcompile@bugs.build.redhat.com) (gcc version 3.2.3 20030502 (Red Hat Linux 3.2.3-47)) #1 SMP Wed Dec 1 21:59:02 EST 2004
Mar  5 04:52:19 localhost kernel: BIOS-provided physical RAM map:
Mar  5 04:52:19 localhost kernel:  BIOS-e820: 0000000000000000 - 000000000009f400 (usable)
Mar  5 04:52:19 localhost kernel:  BIOS-e820: 000000000009f400 - 00000000000a0000 (reserved)
Mar  5 04:52:19 localhost kernel:  BIOS-e820: 00000000000f0000 - 0000000000100000 (reserved)
Mar  5 04:52:19 localhost kernel:  BIOS-e820: 0000000000100000 - 000000007fffa000

请教各位,这个阵列丢失是什么原因造成的?谢谢!

论坛徽章:
0
2 [报告]
发表于 2006-03-07 16:37 |只看该作者
呵呵, 其实看到你在系统管理板块贴出来的log 的时候,我让你转贴到这里来,就是因为看到log的前面几行的时候,就觉得特别眼熟,


我想问几个问题:

1. cluster 的版本和kernel 版本是否是最新的patched, 检查过RH bugtraq关于这个故障的纪录么?
2. 你的心跳线是直接corssover cable还是接到了switch上?如果是switch上,是否这个switch上除了heartbeat signal还有data在跑?
3. 出现故障的时候,这个机器在那个时间段,是否在处理很大的I/O方面的操作?

看你log 第一行,就是一个restart,估计问题之前还有发生,在不断的restart.

论坛徽章:
0
3 [报告]
发表于 2006-03-11 13:49 |只看该作者

谢谢你的回复!

1. 我使用的是LINUX AS3.0,不是最新版本的;我只查看了这一个log日志,请问RH bugtraq 关于此故障的记录在什么地方查找?
2.两台服务器上分别是oracle 和 domino,并且都在运行,我的心跳线在switch上面
3.出现故障是晚上时间,没有什么人访问,所以I/O很少。
4.检查message日志,在此之前的记录都是正常的,发生故障前系统运行正常。

麻烦在帮助分析一下,谢谢!

论坛徽章:
0
4 [报告]
发表于 2006-03-11 15:18 |只看该作者
考虑下系统和硬件的兼容性。。

论坛徽章:
0
5 [报告]
发表于 2006-03-11 16:36 |只看该作者
原帖由 wwchai 于 2006-3-11 13:49 发表
1. 我使用的是LINUX AS3.0,不是最新版本的;我只查看了这一个log日志,请问RH bugtraq 关于此故障的记录在什么地方查找?
2.两台服务器上分别是oracle 和 domino,并且都在运行,我的心跳线在switch上面
3.出现 ...



1. linux update到U5.  Cluster suite update到最新, 犯不着和已经存在,被发现和已经修正的bugs堵劲.

2. 把心跳换掉,用一根肯定没有问题的交叉线替代掉. 替掉后,仔细检查你的这个专门用来做心跳的switch 的通信状况.

3. 如果故障出现在晚上并且是人很少的时候,你就要更加当心了.  所以才建议你 第一条

4. 你贴出来的message的第一行明明是一个restart.

还有我是认真对待你这个问题的,麻烦以后回答问题的时候也稍微详细点仔细点, 另外建议认真阅读置顶的那个帖子.

AS3.0有Update 1 ,update 2 update 3 update 4 update 5 update 6 这几个版本,你总得说清楚把,都3个帖子来回了,还不说清楚.

还有我问的"是否这个switch上除了heartbeat signal还有data在跑?" 你也没有回答.....

还有你第一行messages 的restart,你也没有说明.....

这里的大家看不到,听不到,摸不到你的机器,交待的清楚点,虽然不能保证找到问题或者解决,至少可以方便大家给你更精确的建议,方便你的检查工作.
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP