免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 4258 | 回复: 11
打印 上一主题 下一主题

请分析下这个群集故障 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2009-06-22 23:09 |只看该作者 |倒序浏览
这是去年发生的一个故障  本人水平有限  一直没能搞懂

去年某日,当日下班前进行例行检查,发现主服务器内存不足,于是先关闭备服务器,重启主服务器后,接着开启备服务器,奇怪的是几秒钟后主服务器报警,SQL Server服务停止,共享磁盘阵列不能访问,查看备服务器,发现显示器灯不亮,根本没有启动。于是全部关闭两台服务器,重新开启,2次下来故障依旧,于是第三次只开启了主服务器,系统能正常运行了,由于情况不明,故打算次日上午联系厂家。

次日一早,再次开启备服务器,和之前一样,备服务器显示器灯不亮,然后主服务器的SQL SERVER和共享磁盘阵列不能访问。全部关闭后,重启主服务器,问题来了,这次主服务器启动后SQL SERVER和共享磁盘阵列不能访问,整个网络瘫痪。查看系统日志,发现有两个相关的错误日志,分别是:

事件类型:        错误
事件来源:        ClusSvc
事件种类:        (12
事件 ID:        1073
Microsoft 群集服务停止了防止群集中不一致性的操作。 错误代码是 5028。

事件类型:        错误
事件来源:        ClusSvc
事件种类:        (4096)
事件 ID:        1148
Microsoft 群集服务遇到一个严重错误。重要的仲裁日志 文件 'T:\MSCS\quolog.log' 已损坏。如果您有仲裁日志文件的备份,您可以 在命令窗口输入 'clussvc -debug -noquorumlogging' 来启动群集服务,将备份的仲裁日志文件复制到仲裁 驱动器中的 MSCS 目录,停止群集服务,再用 'net start clussvc' 重新启动群集服务。 如果没有仲裁日志文件的备份,您可以用 'clussvc -debug -resetquorumlog' 启动 群集服务;这会用群集中可能已损坏的信息创建 新的仲裁日志文件。然后,您可以停止群集服务, 用 'net start clussvc' 命令重新启动。

虽然用重建仲裁日志的方法修复了群集,但是有个问题一直没有搞懂,在备服务器无法启动时,为何主服务器却不能访问资源了?似乎被接管到备机去了?

论坛徽章:
0
2 [报告]
发表于 2009-06-23 09:17 |只看该作者
不懂win cluster 路过

论坛徽章:
0
3 [报告]
发表于 2009-06-23 10:50 |只看该作者
微软的东西没有太关心过,虽然碰过MSCS。
看你说的这个现象好象是出现仲裁竞争,你的仲裁盘上记录的信息应该是由备服务器管理盘阵,但是由于某些原因,备服务器无法接管磁盘阵列。这样主服务器先启动,接管了磁盘阵列,但当备服务器启动的时候,根据仲裁信息,要将磁盘阵列切到备机去,而备机又因为出现问题无法接管,就导致了这样的现象。
不知道你当时是否观察MSCS管理器,再提供更多点的现象。

论坛徽章:
0
4 [报告]
发表于 2009-06-23 11:01 |只看该作者
原帖由 难飞之猪 于 2009-6-23 10:50 发表
微软的东西没有太关心过,虽然碰过MSCS。
看你说的这个现象好象是出现仲裁竞争,你的仲裁盘上记录的信息应该是由备服务器管理盘阵,但是由于某些原因,备服务器无法接管磁盘阵列。这样主服务器先启动,接管了磁 ...


多谢,分析得有些道理,但是不清楚仲裁盘上记录的信息为何是由备服务器管理盘阵? 我平时都是严格按照顺序开机的,先主后备。
由于快一年了,已经记不清当时的群集管理器里信息了。

论坛徽章:
0
5 [报告]
发表于 2009-06-24 13:55 |只看该作者
和你探讨一下,主服务器发生内存不足?先关闭备服务器,再重启主,为啥?
另外,你启动主服务器和备用服务器时间间隔是多少? 如果时间相差不大的话,有可能造成服务器互抢资源,

论坛徽章:
0
6 [报告]
发表于 2009-06-24 14:13 |只看该作者
我一般是固定的顺序 开启先主后备 关机先备后主 主机上安装了一些程序 备机上没有 再者最初接触存储时 集成商告诉我开关机的顺序 所以就一直延续到今
主机启动完毕 各类服务运行后 再开备机的

论坛徽章:
1
CU十二周年纪念徽章
日期:2013-10-24 15:41:34
7 [报告]
发表于 2009-06-24 14:24 |只看该作者
说句题外的话,换成VCS就没这问题了,

论坛徽章:
0
8 [报告]
发表于 2009-06-24 17:22 |只看该作者
原帖由 无牙 于 2009-6-24 14:24 发表
说句题外的话,换成VCS就没这问题了,


对,没这个问题,但是会出其他的问题

论坛徽章:
0
9 [报告]
发表于 2009-06-24 23:00 |只看该作者
原帖由 难飞之猪 于 2009-6-24 17:22 发表


对,没这个问题,但是会出其他的问题



怎么讲?VCS很稳定啊!

论坛徽章:
0
10 [报告]
发表于 2011-02-22 15:05 |只看该作者
微软的东西没有太关心过,虽然碰过MSCS。
看你说的这个现象好象是出现仲裁竞争,你的仲裁盘上记录的信息应 ...
难飞之猪 发表于 2009-06-23 10:50


一年多了,又看到自己的文章,还是不明白,假如仲裁日志记录的信息是由备服务器管理磁盘阵列,我先开主机,然后开备服务器,但备机主板故障,有电但无法点亮显示器,为何要根据仲裁信息,要将磁盘阵列切到备机去??此时备机还没启动起来呢。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP