Chinaunix

标题: 急-进不去系统,救援模式也没法用 [打印本页]

作者: liyis永恒    时间: 2012-07-18 15:53
标题: 急-进不去系统,救援模式也没法用
今天发现公司服务器(Centos5)起不来了,提示如下:
/sbin/init:error while loading shared libraries:/lib/libsepol.so.1:invalid ELF header
Kernerl panic - not syncing :Attempted to kill init!

用光盘进入rescue模式,输入chroot /mnt/sysimage提示:
chroot:cannot run command '/bin/sh':no such a file or dictory.

在此模式下输入常见命令,如ls cp vi等命令都报错:
error while loading shared libraries:/mnt/sysimage/lib/libselinux.so.1:invalid ELF header

不能vi不能ln,不知道怎么解决,请问各位给点意见。
作者: chenyx    时间: 2012-07-18 15:55
本帖最后由 chenyx 于 2012-07-18 15:55 编辑

貌似是selinux出问题了.楼主救援模式下尝试不进入chroot,直接修改selinux的配置文件,将selinux关闭测试下 .
作者: liyis永恒    时间: 2012-07-18 16:01
回复 2# chenyx


    多谢,怎么修改? vi命令提示:
error while loading shared libraries:/mnt/sysimage/lib/libm.so.6 :invalid ELF header

我猜测是我的库哪里出问题了
作者: chenyx    时间: 2012-07-18 16:06
库文件全部出错了?楼主的机器是不是中招了?
作者: liyis永恒    时间: 2012-07-18 16:13
有可能,现在问题是怎样恢复,输入什么命令就提示上面类似的error
作者: chenyx    时间: 2012-07-18 16:14
不行只能重装系统了,安装的时候选择升级安装.
作者: GangLin_Lan    时间: 2012-07-18 16:14
回复 3# liyis永恒


    楼主,RHEL5的rescue有三种模式,Continue、Read-only、Skip,你选择Skip模式进去,然后fdisl -l ,手工把系统的分区mount上,然后查看试试
作者: GangLin_Lan    时间: 2012-07-18 16:16
查看下/lib、/lib64目录和目录下库文件的权限信息有没什么问题
作者: chenyx    时间: 2012-07-18 16:17
不挂载硬盘测试确实是好主意.
楼主的库文件可能都损坏了,文件的ELF头部都出问题了 @GangLin_Lan
作者: GangLin_Lan    时间: 2012-07-18 16:18
好像可以通过重编译库文件,重新生成这些文件
作者: chenyx    时间: 2012-07-18 16:19
貌似不行吧,看楼主的提示,很多基础的库都出问题了,系统损坏很严重啊
作者: chenyx    时间: 2012-07-18 16:20
要是知道那个库出问题倒是好办了,在救援模式下用rpm安装,可以指定安装位置的
作者: GangLin_Lan    时间: 2012-07-18 16:24
请问楼主系统出问题之前,对系统做了哪些操作呢
作者: liyis永恒    时间: 2012-07-18 16:30
回复 7# GangLin_Lan


    你说的mount是指我直接mount -t ext3 /dev/hdc5 /test ?
然后呢?

之前没有任何操作,只是不知道为什么,今天打开系统后机器就直接进入redhat的安装欢迎界面了。我就进去rescue看看,结果就这样了。进入第三种rescue后发现lib 和lib64下文件权限没有什么问题。
作者: GangLin_Lan    时间: 2012-07-18 16:30
rescue下测试下服务器磁盘有没有问题,服务器做的raid几,有没坏盘
作者: GangLin_Lan    时间: 2012-07-18 16:42
chenyx 发表于 2012-07-18 16:17
不挂载硬盘测试确实是好主意.
楼主的库文件可能都损坏了,文件的ELF头部都出问题了 @GangLin_Lan

  
我觉得可能跟磁盘或raid有关系,http://comments.gmane.org/gmane. ... dora.general/356543,这也有一个类似的例子
作者: liyis永恒    时间: 2012-07-18 16:42
怎样查看磁盘阵列情况?
作者: chenyx    时间: 2012-07-18 16:43
回复 16# GangLin_Lan


    谢谢共享经验
作者: chenyx    时间: 2012-07-18 16:44
回复 17# liyis永恒


    这个要看你的硬盘是否有raid,另外是否是硬件raid
    硬件raid只能通过开机进入raid卡管理界面查看,软件raid,可以查看/proc/mdstate来查看
作者: liyis永恒    时间: 2012-07-18 16:55
回复 19# chenyx


    我记得以前有的么,dell的,开机ctrl+M的, 刚刚看没了
作者: GangLin_Lan    时间: 2012-07-18 16:57
本帖最后由 GangLin_Lan 于 2012-07-18 16:59 编辑

服务器应该都有集成的raid卡,如果可以的话,去机房看看服务器,看硬盘有没亮黄灯或红灯,重启机器看看raid信息,HP服务器开机按F8,会有提示的,或者在rescue下面检查下盘上的其他数据有没什么问题,测试下读写
作者: liyis永恒    时间: 2012-07-18 17:18
测试读写没什么问题,服务器就在我旁边,重启过程中没有看到raid配置的提示,以前有的。
作者: GangLin_Lan    时间: 2012-07-18 17:19
本帖最后由 GangLin_Lan 于 2012-07-18 17:23 编辑

回复 20# liyis永恒


    没有看到raid配置界面,就得联系硬件提供商了,检查下raid卡有没坏,raid信息好像是保存在硬盘上,所以即使换个新raid卡,数据应该也不会丢,我也不太确定
作者: liyis永恒    时间: 2012-07-18 17:24
确定跟raid有关系么?
作者: GangLin_Lan    时间: 2012-07-18 17:28
回复 24# liyis永恒


    按理说开机看不到raid的配置提醒,raid卡可能就有问题了,我遇到过一次,但是你得确定开机确实没看到raid配置提醒,你可以打dell售后电话问问
作者: liyis永恒    时间: 2012-07-18 17:34
多谢,这么说raid卡和我系统库报错肯定是有联系的了?  
作者: GangLin_Lan    时间: 2012-07-18 17:36
回复 26# liyis永恒


   那是肯定的,如果raid卡坏了,盘上的数据都会出问题,比如出现只读什么的,我就遇到一次,是一个低端存储,raid卡上的cache坏了,但是换个卡就好了,数据也没问题
作者: chenyx    时间: 2012-07-18 18:35
本帖最后由 chenyx 于 2012-07-18 18:36 编辑

如果真是raid卡坏了,楼主千万别动了,找厂商解决,否则会扩大故障
作者: liyis永恒    时间: 2012-07-18 19:40
问过厂家,我这边超保了,如果raid卡坏了,系统可能也没了。那不悲剧了。
作者: GangLin_Lan    时间: 2012-07-18 19:48
回复 29# liyis永恒


    厂商当然会这么说了,就算有十万分之一概率丢失数据他们也会说数据可能会丢失,他们不敢担数据丢失的责啊,但是有些情况并没有那么严重,我觉得像你这种情况假如只是raid卡坏了,磁盘没问题的话,数据应该没问题的,毕竟raid信息保存在磁盘上,不过我也不敢担那个责,数据还是有丢失的可能性。
作者: chenyx    时间: 2012-07-18 19:48
你的机房还有没有相同的机器了?如果有的话,尝试把好使的raid卡接到你现在的机器上测试下.
作者: GangLin_Lan    时间: 2012-07-18 19:58
回复 31# chenyx

我记得换raid卡,启动机器的时候有一个提示信息,大概是说raid卡上没有raid信息,是否把硬盘上的raid信息加载进去,yes or no,yes的话有可能导致数据丢失,no的话,跳过raid卡,启动系统,说等于白说,只能选yes了,一般没问题,我自己也亲手操作过几次
   
作者: chenyx    时间: 2012-07-18 20:05
一般换raid卡没有问题.
不过,凡事都有例外,看楼主的服务器的数据是否有备份了,如果有的话,重建也未尝不可.
作者: liyis永恒    时间: 2012-07-18 20:07
多谢各位了。我先看换个raid试试。
作者: chenyx    时间: 2012-07-18 20:12
我现在感兴趣的是楼主在14楼提到的
今天打开系统后机器就直接进入redhat的安装欢迎界面了

你这个是光盘启动还是pxe?无论什么方式,都不建议这么做.
作者: liyis永恒    时间: 2012-07-18 20:30
没有,没有任何介质,不知道为啥子
作者: chenyx    时间: 2012-07-18 20:45
光驱里面没有光盘?
那你的网络有pxe的服务器吗?如果有,建议你平时关闭pxe的功能,需要的时候再开启
作者: Hongqiyaodao    时间: 2012-07-18 23:03
提示: 作者被禁止或删除 内容自动屏蔽
作者: GangLin_Lan    时间: 2012-07-18 23:25
本帖最后由 GangLin_Lan 于 2012-07-18 23:37 编辑

回复 38# Hongqiyaodao


    能不能进rescue和系统在不在没关系,即使把硬盘拔了都能进rescue,因为rescue是运行在内存里的,你的意思是不是进rescue还能看到磁盘上的系统文件?那些文件是存储在磁盘上,但是需要通过raid卡来读取数据,毕竟数据是由raid组织起来的,raid卡都坏了数据当然不能正常读取了。
作者: Hongqiyaodao    时间: 2012-07-18 23:34
提示: 作者被禁止或删除 内容自动屏蔽
作者: GangLin_Lan    时间: 2012-07-18 23:51
回复 40# Hongqiyaodao


    我明白你的意思,他系统通过grub引导,并且加载了部分内核文件,我之所以觉得是raid的问题,第一,在google上查到了和楼主类似的问题,并且确定是raid问题,第二,楼主经过确认,服务器的raid配置提示没了,说明raid有可能出现了问题,第三,我也曾经遇到过raid卡坏了的情况,对raid卡坏了可能出现的问题知道一点
作者: yanu    时间: 2012-07-19 00:04
.... 这种生产系统莫名其妙不能启动,找不到文件,文件损坏,IO错误,各种不认识的离奇古怪的错误,应该先查硬件再查软件

用硬件厂商提供的工具盘启动,检测硬件,收集下硬件报错,

如果没有硬件故障,像这种未知原因的文件损坏问题,应该备份数据后重装系统.
因为文件系统已经不可靠了,你不知道还有什么文件坏了,也不知道什么时候再发作


作者: hannius_lei    时间: 2012-07-19 00:33
看了这么多,只想问一个问题:LZ的问题解决没有?具体故障是什么?呵呵。lol
作者: chenyx    时间: 2012-07-19 08:25
回复 38# Hongqiyaodao


    楼主在1楼已经明确了,进入的是安装界面,也就是说,可能是某种安装介质在起作用(本地光盘或者是网络)
作者: GangLin_Lan    时间: 2012-07-19 08:50
回复 44# chenyx


    这么说楼主的服务器重启过,为什么会自己重启?也许这个时候服务器就有问题了,在rescue下面查看下系统的log信息也许能看出点什么
作者: chenyx    时间: 2012-07-19 09:26
问题是楼主的机器现在不正常,连ls都出问题,怎么查看?
作者: GangLin_Lan    时间: 2012-07-19 09:38
回复 46# chenyx


    楼主已经能进rescue的skip模式,能用命令查看系统文件了,可是我们讨论了这么多,都没见楼主回复……
作者: chenyx    时间: 2012-07-19 09:44
可能是他找raid卡去了.如果真是raid卡的问题,现在不动是正确的选择,否则会扩大故障.
作者: GangLin_Lan    时间: 2012-07-19 09:56
回复 48# chenyx


    嗯,也是,等楼主回复,看看是什么情况
作者: chenyx    时间: 2012-07-19 09:59
现在,我最大的怀疑,或者是困惑,就是楼主说的,启动之后进入安装界面.据他说,光驱里面没有光盘,那么这个启动界面是如何出来的呢?
另外,他的系统已经损坏,不可能通过硬盘启动到安装界面啊 @GangLin_Lan
作者: GangLin_Lan    时间: 2012-07-19 10:06
chenyx 发表于 2012-07-19 09:59
现在,我最大的怀疑,或者是困惑,就是楼主说的,启动之后进入安装界面.据他说,光驱里面没有光盘,那么这个启动界 ...


有没可能是别人操作过,然后把盘拿走了,,如果真是楼主说的那样的情况,不排除是人为啊。
作者: chenyx    时间: 2012-07-19 10:07
人为因素?那样的话,楼主的服务器的安全性也太差了.
作者: Hongqiyaodao    时间: 2012-07-19 10:22
提示: 作者被禁止或删除 内容自动屏蔽
作者: chenyx    时间: 2012-07-19 10:24
楼主在前面提到过,是Dell的机器,具体型号不详,是否集成的raid卡不详! @Hongqiyaodao
作者: Hongqiyaodao    时间: 2012-07-19 10:33
提示: 作者被禁止或删除 内容自动屏蔽
作者: chenyx    时间: 2012-07-19 10:34
现在我们只能等楼主的反馈了,不知道他的服务器现在状况如何了.
类似楼主现在的问题,你在hp机器上遇到过吗?如何解决? @Hongqiyaodao
作者: zongg    时间: 2012-07-19 10:37
楼主这个问题,我也遇到过,不过是个pc,测试用的.没有raid.  

最后也没弄明白,怀疑中招了,
作者: chenyx    时间: 2012-07-19 10:39
你当时检查过硬盘没有? @zongg
作者: Hongqiyaodao    时间: 2012-07-19 10:40
提示: 作者被禁止或删除 内容自动屏蔽
作者: chenyx    时间: 2012-07-19 10:44
嗯,我也觉得问题和奇怪,阵列卡损坏,楼主是如何读取到硬盘的数据的.或者,可能是楼主的阵列卡没有完全失效? @Hongqiyaodao
作者: zongg    时间: 2012-07-19 10:46
本帖最后由 zongg 于 2012-07-19 10:47 编辑

没查硬盘,但是用光盘进去,把几个命令重新安装是可能恢复的,但是不能用的命令很多。

感觉硬盘是没有问题的。

如果楼的是做的raid ,如果不是raid0,就没问题,(如果是raid 0,硬盘坏了的话肯定是进不去系统,)raid 1 和5 坏一块都不是事。

所以感觉不是硬盘的问题,不知道对不对。个人看法。

@chenyx
作者: Hongqiyaodao    时间: 2012-07-19 10:47
提示: 作者被禁止或删除 内容自动屏蔽
作者: chenyx    时间: 2012-07-19 10:49
楼主说机器就在他的旁边,服务器的硬盘如果损坏的话,很直观的就能通过硬盘灯看出来.
楼主到现在也没说硬盘灯的状况,估计硬盘没坏. @zongg
作者: chenyx    时间: 2012-07-19 10:51
回复 62# Hongqiyaodao


    嗯,硬盘出现介质有坏道的可能性也有.
作者: GangLin_Lan    时间: 2012-07-19 10:51
Hongqiyaodao 发表于 2012-07-19 10:22
回复 48# chenyx

我昨天也问了一下我做硬件的朋友,他主要对hp和IBM熟悉,戴尔也不太清楚,不过这三家的共同点是raid信息同时存在raid卡和硬盘上,至于raid卡坏了可能出现的问题也许有点莫名其妙
作者: chenyx    时间: 2012-07-19 10:53
raid信息肯定硬盘上应该有的.
作者: zongg    时间: 2012-07-19 10:53
恩,情况比较复杂,不知道楼主之前开防火墙没?还是裸奔状态?
作者: GangLin_Lan    时间: 2012-07-19 10:57
回复 57# zongg


    你的这个情况是怎么出现的?也是突然就出现了,还是有做什么操作?我看过一个例子是系统升级后出现这样的问题,解决办法是磁盘驱动降级回去
作者: chenyx    时间: 2012-07-19 10:58
确实,楼主的这个问题非常复杂,最重要的是,楼主的机器还过保了,没有技术支持,唉. @zongg@GangLin_Lan@Hongqiyaodao
作者: Hongqiyaodao    时间: 2012-07-19 11:01
提示: 作者被禁止或删除 内容自动屏蔽
作者: zongg    时间: 2012-07-19 11:02
恩,我这机器就是突然出现的这个情况,是做测试用的,应该没有操作过,不过是裸奔状态下。

没找到原因。


@GangLin_Lan
作者: Hongqiyaodao    时间: 2012-07-19 11:02
提示: 作者被禁止或删除 内容自动屏蔽
作者: chenyx    时间: 2012-07-19 11:06
raid5坏2个,除非专业的公司,否则没戏
作者: zongg    时间: 2012-07-19 11:06
回复 72# Hongqiyaodao


    恩,是的。那两个都坏了,就悲剧了。

这个谁也说不好。
作者: GangLin_Lan    时间: 2012-07-19 11:10
本帖最后由 GangLin_Lan 于 2012-07-19 11:11 编辑
zongg 发表于 2012-07-19 11:02
恩,我这机器就是突然出现的这个情况,是做测试用的,应该没有操作过,不过是裸奔状态下。

没找到原因。 ...

类似这样的问题,我还遇到过一种情况,服务器中病毒了,大多命令不能用,大量的socket进程,系统文件被替换,重启就悲剧了,这种情况的话最好重装了。
作者: zongg    时间: 2012-07-19 11:16
恩,是的,

在保证系统稳定的情况下,安全绝对也是个大问题。

感觉最好是自己写一些小脚本,来做安全方面的问题,


线上的有硬件防火墙,问题不大。外网只开80端口,其它的全封掉。用nginx 来做反代,这样感觉会好一些。
作者: Hongqiyaodao    时间: 2012-07-19 11:17
提示: 作者被禁止或删除 内容自动屏蔽
作者: chenyx    时间: 2012-07-19 11:18
服务器保修一般都是3年吧.

作者: chenyx    时间: 2012-07-19 11:20
另外,服务器的硬盘,不应该这么脆弱吧,3年就坏了?
作者: zongg    时间: 2012-07-19 11:23
恩,要是用的比较费的,三年连机器都需要更换了。

用的不费的估计5年以上。

@Hongqiyaodao @chenyx
作者: chenyx    时间: 2012-07-19 11:26
我的机器有的已经服役快8年了.
作者: Hongqiyaodao    时间: 2012-07-19 11:29
提示: 作者被禁止或删除 内容自动屏蔽
作者: GangLin_Lan    时间: 2012-07-19 11:29
回复 81# chenyx


    这么长,硬件故障的概率很大啊,我以前维护一个机房的两百多刀片服务器,都五六年的,几乎每天都有坏的机器,大多是电源模块烧了,硬盘挂了,主板坏了……
作者: chenyx    时间: 2012-07-19 14:15
楼上两位,楼主的机器坏了,不是我的.我的机器8年了,依然健康
作者: ulovko    时间: 2012-07-19 14:16
chenyx 发表于 2012-07-19 14:15
楼上两位,楼主的机器坏了,不是我的.我的机器8年了,依然健康

长跑健将 耐力冠军 ^_^
作者: lolizeppelin    时间: 2012-07-19 15:57
我说你们管理服务器连个 livecd都没么?全靠救援模式?
上个livecd就是,一般情况用毛救援模式。
作者: vermouth    时间: 2012-07-19 16:30
抢救模式用的不是光盘里面的系统么?
作者: lolizeppelin    时间: 2012-07-19 17:46
vermouth 发表于 2012-07-19 16:30
抢救模式用的不是光盘里面的系统么?


抢救模式工具太少
livecd方便多了
作者: liyis永恒    时间: 2012-07-19 21:10
很感谢各位这么热心,今天找了下raid卡厂商,这里说几点:
1. 服务器是联想万全T168的,是线下环境,公司内部服务器,公司做网站,线下做好了传线上,线上是dell的,抱歉我记错了。
2. 上周末我关机了服务器,周一过来打开机器就出现安装redhat界面,光驱里面没有光盘,没有U盘,网络介质不详。
3. 然后我进入rescue模式,进完命令提示错误后重启系统,发现进入grub选择centos的正常界面,然后就报错。
4. 人为行为不存在,周末没有人来公司。
5. 如chenyx所说,我现在没敢动,所以机器情况还是如此。
6. 明天拿个raid卡试试,让他给我配配,但是我希望能保住系统,如果各位有什么建议,请告知。

作者: yanu    时间: 2012-07-19 21:37
raid 1 还是5啊 .

raid卡坏了的现象经常比较诡异,但我遇到的几次都没丢数据..
作者: chenyx    时间: 2012-07-19 21:39
线下系统啊,这样压力能小点,数据实在找不回来,大不了重做系统,从线上的系统下载数据下来,相当于线上线下的系统调换位置.
作者: GangLin_Lan    时间: 2012-07-19 21:41
回复 89# liyis永恒


   要拿和现在raid卡相同型号的raid卡,联想服务器更不熟了,不知道会出现什么问题,拭目以待啊
作者: chenyx    时间: 2012-07-19 21:55
楼主raid如果数据需要重新同步,一定要确保电力供应不能中断,否则,一旦同步过程中电力中断,很可能数据再也找不到了.
作者: GangLin_Lan    时间: 2012-07-19 22:15
回复 93# chenyx


    换raid卡需要那么麻烦啊?我换过几次,只是重新加载raid信息而已,很快的啊,几秒搞定,硬盘上的数据不会动,不知道你说的数据同步是指什么?
作者: chenyx    时间: 2012-07-19 22:17
做最坏的打算,万一硬盘也有坏的,那么raid必须重新同步数据啊
作者: liyis永恒    时间: 2012-07-20 12:25
悲催了,服务器raid卡的集成的。。如果换要换主板。
作者: GangLin_Lan    时间: 2012-07-20 13:04
回复 96# liyis永恒


    这就真够悲剧了,检测下硬件,确定是不是raid卡有问题,如果真有问题要换也没办法啊,不过系统可能就保不住了
作者: chenyx    时间: 2012-07-20 13:49
本帖最后由 chenyx 于 2012-07-20 13:49 编辑

集成的,有空闲插槽没有,单独买raid卡也可以啊
作者: liyis永恒    时间: 2012-07-20 15:17
回复 97# GangLin_Lan


    如果要重装系统,怎样保证原来的数据不丢失呢?
作者: GangLin_Lan    时间: 2012-07-20 15:30
回复 99# liyis永恒


    先拿别的硬盘重装系统,或者如果你原来做的是raid1的话,拿走一块盘,用剩下那块盘重装,但是不通过raid卡,你现在这些盘上的数据就算拿出来也不能用啊




欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2