免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2561 | 回复: 7
打印 上一主题 下一主题

请教linux重起原因 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2008-09-10 13:55 |只看该作者 |倒序浏览
liunx环境是Linux 2.6.18-8.el5

通过SAN连接了一个存储设备,运行了一oracle数据库,最近数据库备份过程中挂接的存储盘后掉掉,然后从系统message日志里发现,系统接着就自己重起了,具体日志请看附件

我的疑问是盘掉了,有可能让操作系统重起吗?有谁遇到过这样的case吗?

message.rar

9.29 KB, 下载次数: 31

论坛徽章:
1
寅虎
日期:2015-01-23 02:35:47
2 [报告]
发表于 2008-09-10 13:57 |只看该作者
最好把message直接贴上来

论坛徽章:
0
3 [报告]
发表于 2008-09-10 14:05 |只看该作者

回复 #1 root521 的帖子

你好!附件里的就是系统log

论坛徽章:
381
CU十二周年纪念徽章
日期:2014-01-04 22:46:58CU大牛徽章
日期:2013-03-13 15:32:35CU大牛徽章
日期:2013-03-13 15:38:15CU大牛徽章
日期:2013-03-13 15:38:52CU大牛徽章
日期:2013-03-14 14:08:55CU大牛徽章
日期:2013-04-17 11:17:19CU大牛徽章
日期:2013-04-17 11:17:32CU大牛徽章
日期:2013-04-17 11:17:37CU大牛徽章
日期:2013-04-17 11:17:42CU大牛徽章
日期:2013-04-17 11:17:47CU大牛徽章
日期:2013-04-17 11:17:52CU大牛徽章
日期:2013-04-17 11:17:56
4 [报告]
发表于 2008-09-10 14:14 |只看该作者
看起来像是磁盘故障。。

论坛徽章:
0
5 [报告]
发表于 2008-09-10 14:16 |只看该作者

回复 #1 root521 的帖子

是啊,连接的IBM存储,通过光纤卡,做的dmp,但我想不通的是盘掉了没关系,系统为什么立即会重起

论坛徽章:
0
6 [报告]
发表于 2008-09-10 17:56 |只看该作者
原帖由 root521 于 2008-9-10 14:16 发表
是啊,连接的IBM存储,通过光纤卡,做的dmp,但我想不通的是盘掉了没关系,系统为什么立即会重起




Aug 27 03:34:31 qs_ora_01 logger: Oracle CSSD failure 134.
Aug 27 03:34:31 qs_ora_01 logger: Oracle CRS failure.  Rebooting for cluster integrity.
Aug 27 03:34:31 qs_ora_01 logger: Oracle clsomon failed with fatal status 12.

Aug 27 03:39:23 qs_ora_01 syslogd 1.4.1: restart.
Aug 27 03:39:23 qs_ora_01 audispd: starting audispd

    楼主,你的系统不是立即重启好不,你阵列坏后,中间有5分钟时间.中间还有oracle down掉的过程.你有没有做过oracle RAC、或vcs之类的东西呀。你日志里有一个 Oracle CRS failure.  Rebooting for cluster integrity.  信息,是不是由它引起的呢?

论坛徽章:
0
7 [报告]
发表于 2008-09-10 23:18 |只看该作者

回复 #1 root521 的帖子

是的,是两台linux主机做的oracle RAC,datafile用的ASM管理的,请问中间间隔5分钟,oracle down掉了,您的意思是oracle造成主机重起?

论坛徽章:
0
8 [报告]
发表于 2008-09-10 23:48 |只看该作者
LZ的机器不错嘛!
16个CORE,8G内存,一堆LUN再加上磁带机,还有multipath多路径......

不过重启原因也比较明显,因为一些底层硬件错误造成原来路径失效,原因其实很多,可能在卡,可能在线,也可能在其他地方,我需要明天查一下这个return的scsi code的含义。不过我可以保证的一点是底层错误引发的集群软件动作。
针对做了rac的oracle集群来说,为了保护集群的完整性,极有可能是cluster在硬件出错的时候为了保护存储将其干掉,这个地方:Aug 27 03:34:31 qs_ora_01 logger: Oracle CRS failure.  Rebooting for cluster integrity.我认为说明了这一点。
我不熟oracle rac,不过我认为大多数HA集群中都应该有这种机制和能力。
最后如果确认是否是由集群软件将其干掉,最好能提供另外一台机器的message对着看。而且说实话单单从一个message中看到的信息毕竟有限。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP