论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2006-03-07 12:17 |只看该作者 |倒序浏览

两台HP560 ＋磁盘阵列双机集群
昨天突然出现两台服务器认不到阵列的问题，重启动服务器后一切又回复正常，message日志文件(一部分)如下记录：
Mar  5 04:02:22 localhost syslogd 1.4.1: restart.
Mar  5 04:48:51 localhost kernel: tg3: eth1: Link is down.
Mar  5 04:48:51 localhost clusvcmgrd[1523]: <crit> Invalid reply!
Mar  5 04:48:54 localhost kernel: tg3: eth1: Link is up at 1000 Mbps, full duplex.
Mar  5 04:48:54 localhost kernel: tg3: eth1: Flow control is off for TX and off for RX.
Mar  5 04:48:54 localhost kernel: scsi(0): LOOP DOWN detected.
Mar  5 04:48:56 localhost clusvcmgrd[1523]: <crit> Couldn't connect to member #0: Connection timed out
Mar  5 04:48:56 localhost clusvcmgrd[1523]: <err> Unable to obtain cluster lock: No locks available
Mar  5 04:49:02 localhost kernel: scsi(0): LOOP DEAD detected.
Mar  5 04:49:02 localhost kernel: SCSI disk error : host 0 channel 0 id 1 lun 0 return code = 10000
Mar  5 04:49:02 localhost kernel:  I/O error: dev 08:03, sector 9728
Mar  5 04:49:02 localhost kernel: SCSI disk error : host 0 channel 0 id 1 lun 0 return code = 10000
Mar  5 04:49:02 localhost kernel:  I/O error: dev 08:03, sector 9736
Mar  5 04:49:02 localhost kernel: SCSI disk error : host 0 channel 0 id 1 lun 0 return code = 10000
Mar  5 04:49:02 localhost kernel:  I/O error: dev 08:03, sector 9744
Mar  5 04:49:02 localhost kernel: SCSI disk error : host 0 channel 0 id 1 lun 0 return code = 10000
Mar  5 04:49:02 localhost kernel:  I/O error: dev 08:02, sector 289
Mar  5 04:49:04 localhost kernel: SCSI disk error : host 0 channel 0 id 1 lun 0 return code = 10000
Mar  5 04:49:04 localhost kernel:  I/O error: dev 08:03, sector 9752
Mar  5 04:49:04 localhost kernel: SCSI disk error : host 0 channel 0 id 1 lun 0 return code = 10000
Mar  5 04:49:04 localhost kernel:  I/O error: dev 08:03, sector 9760
Mar  5 04:49:04 localhost kernel: SCSI disk error : host 0 channel 0 id 1 lun 0 return code = 10000
Mar  5 04:49:04 localhost kernel:  I/O error: dev 08:03, sector 9768
Mar  5 04:49:06 localhost cluquorumd[1502]: <warning> --> Commencing STONITH <--
Mar  5 04:49:06 localhost cluquorumd[1502]: <warning> STONITH: Falsely claiming that 10.0.11.153 has been fenced
Mar  5 04:49:06 localhost cluquorumd[1502]: <crit> STONITH: Data integrity may be compromised!
Mar  5 04:52:19 localhost syslogd 1.4.1: restart.
Mar  5 04:52:19 localhost syslog: syslogd startup succeeded
Mar  5 04:52:19 localhost kernel: klogd 1.4.1, log source = /proc/kmsg started.
Mar  5 04:52:19 localhost kernel: Linux version 2.4.21-27.ELsmp (bhcompile@bugs.build.redhat.com) (gcc version 3.2.3 20030502 (Red Hat Linux 3.2.3-47)) #1 SMP Wed Dec 1 21:59:02 EST 2004
Mar  5 04:52:19 localhost kernel: BIOS-provided physical RAM map:
Mar  5 04:52:19 localhost kernel:  BIOS-e820: 0000000000000000 - 000000000009f400 (usable)
Mar  5 04:52:19 localhost kernel:  BIOS-e820: 000000000009f400 - 00000000000a0000 (reserved)
Mar  5 04:52:19 localhost kernel:  BIOS-e820: 00000000000f0000 - 0000000000100000 (reserved)
Mar  5 04:52:19 localhost kernel:  BIOS-e820: 0000000000100000 - 000000007fffa000

请教各位，这个阵列丢失是什么原因造成的？谢谢！

文库|博客

nntp

版主

论坛徽章:: 0

2楼 [报告]

发表于 2006-03-07 16:37 |只看该作者

呵呵，其实看到你在系统管理板块贴出来的log 的时候，我让你转贴到这里来，就是因为看到log的前面几行的时候，就觉得特别眼熟，

我想问几个问题:

1. cluster 的版本和kernel 版本是否是最新的patched, 检查过RH bugtraq关于这个故障的纪录么?
2. 你的心跳线是直接corssover cable还是接到了switch上？如果是switch上，是否这个switch上除了heartbeat signal还有data在跑?
3. 出现故障的时候，这个机器在那个时间段，是否在处理很大的I/O方面的操作?

看你log 第一行，就是一个restart,估计问题之前还有发生，在不断的restart.

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

wwchai

白手起家

论坛徽章:: 0

3楼 [报告]

发表于 2006-03-11 13:49 |只看该作者

谢谢你的回复！

1. 我使用的是LINUX AS3.0，不是最新版本的；我只查看了这一个log日志，请问RH bugtraq 关于此故障的记录在什么地方查找？
2.两台服务器上分别是oracle 和 domino，并且都在运行，我的心跳线在switch上面
3.出现故障是晚上时间，没有什么人访问，所以I/O很少。
4.检查message日志，在此之前的记录都是正常的，发生故障前系统运行正常。

麻烦在帮助分析一下，谢谢！

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

shimu

家境小康

论坛徽章:: 0

4楼 [报告]

发表于 2006-03-11 15:18 |只看该作者

考虑下系统和硬件的兼容性。。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

nntp

版主

论坛徽章:: 0

5楼 [报告]

发表于 2006-03-11 16:36 |只看该作者

原帖由 wwchai 于 2006-3-11 13:49 发表
1. 我使用的是LINUX AS3.0，不是最新版本的；我只查看了这一个log日志，请问RH bugtraq 关于此故障的记录在什么地方查找？
2.两台服务器上分别是oracle 和 domino，并且都在运行，我的心跳线在switch上面
3.出现 ...

1. linux update到U5. Cluster suite update到最新，犯不着和已经存在，被发现和已经修正的bugs堵劲.

2. 把心跳换掉，用一根肯定没有问题的交叉线替代掉. 替掉后，仔细检查你的这个专门用来做心跳的switch 的通信状况.

3. 如果故障出现在晚上并且是人很少的时候，你就要更加当心了. 所以才建议你第一条

4. 你贴出来的message的第一行明明是一个restart.

还有我是认真对待你这个问题的，麻烦以后回答问题的时候也稍微详细点仔细点，另外建议认真阅读置顶的那个帖子.

AS3.0有Update 1 ,update 2 update 3 update 4 update 5 update 6 这几个版本，你总得说清楚把，都3个帖子来回了，还不说清楚.

还有我问的"是否这个switch上除了heartbeat signal还有data在跑?" 你也没有回答.....

还有你第一行messages 的restart,你也没有说明.....

这里的大家看不到，听不到，摸不到你的机器，交待的清楚点，虽然不能保证找到问题或者解决，至少可以方便大家给你更精确的建议，方便你的检查工作.

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

返回列表

Chinaunix › 论坛 › IT运维 › 集群和高可用 › 阵列突然丢失，请教怎么回事？

阵列突然丢失，请教怎么回事？ [复制链接]

谢谢你的回复！

浏览过的版块