免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1189 | 回复: 0
打印 上一主题 下一主题

Linux文件服务器故障排除教程之突发故障排除 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2008-03-20 15:02 |只看该作者 |倒序浏览
请大家使用树形模式查看!!! 突发型故障疑难排除在服务器的运作过程中,也会出现一些突发性的故障,譬如不能启动等。一般,如果能够很快修复,那么则尽快修复,如果修复比较麻烦,则采取重新安装的方式更有效率。与其花几个小时进行调试还不如直接花20分钟重新安装一遍。文件系统损坏或者硬盘损坏导致无法启动当服务器多次非正常关机或者硬盘出现坏道的时候,会导致系统无法正常启动,并提示输入root用户密码进入文件系统修复模式或者按Ctrl+D重新启动系统。一般的,当文件系统没有被正常的卸载系统就断电,那么系统将会记录这一信息,并在启动的时候自动检查文件结构,另外,ext3文件格式规定,即使文件系统被正常的挂载和卸载,当次数操作20次的时候,系统也会强行的对文件系统进行一次检查。这些检查一般可以正常的通过,只是检查的时间会根据文件数量的多少而不等,正常的情况下,一次文件检查的时间可能超过10分钟。请耐心等待,千万不要在这个时候强行重新启动机器,那将会对文件系统造成更大的破坏。如果自动文件系统检查无法通过,则系统会提示需要进入文件系统修复模式进行手动的文件检查或者按Ctrl+D重新启动计算机。这个时候,请输入root用户的密码,系统将引导进文件系统修复模式。此时,请按照系统的提示,对无法完成自动检查的硬盘分区进行手动文件系统检查,例如系统提示/dev/hdc1 无法完成自动检查,则请输入:fsck.ext3 /dev/hdc1 然后耐心等待文件系统检查完成,再输入exit 重新启动计算机,就可以了。如果系统提示文件系统已经挂载,是否强行执行检查,这个时候,请选择N,手动将文件分区umount再执行fsck命令。有些情况下,文件系统破坏十分严重,已经无法修复,在执行文件系统检查的时候,会持续性的报错,那么,就不必再检查下去了,因为即使检查完成,最后数据将全部到 lost+found里面,无法恢复,全部丢失。碰到这种情况,则请直接拷贝硬盘。以解决时间。如果硬盘出现坏道,则可能会导致系统死机,内核会在屏幕上告警,提示DMA错误,或者直接停止响应,键盘灯将持续闪烁。这种情况则请根据提示更换硬盘。在更换硬盘的时候,可以让没有损坏的硬盘继续工作,除非系统盘损坏。当然,在你拔掉一块硬盘,而没有更改fstab文件的时候,系统也将会无法启动,并且报告文件系统中硬盘丢失,并提示进入文件系统修复模式,则只需要将你取下的硬盘挂载从fstab里注销掉就可以了。引导进入单用户模式在很多情况下,需要进入单用户模式来修复系统。譬如root密码丢失,或者某一自动启动的服务出现问题导致服务器在启动服务的时候进程僵死等。一般的,我们现在安装的文件服务器系统都是通过grub来引导的。如果要在grub的引导下引导进入单用户模式,则请在系统引导界面出现,等待10秒以让你选择引导内核的时候,选种你要引导进入单用户模式的内核,然后按“e”键,将会出现编辑界面,提示和下面的情况类似:kernel /boot/vmlinuz-2.4.21-15.EL ro root=LABEL=/ 则请在最后空一格,输入single,即如下所示。?? kernel /boot/vmlinuz-2.4.21-15.EL ro root=LABEL=/ single 回车确认,然后在该内核选项上按“b“键。则系统将引导进入单用户模式。此时,可以通过passwd命令对root密码进行修改。或者进行其他的修复操作。如果是服务器是通过lilo来引导的,则更加简单,在系统提示选择内核的时候按esc键,进入boot:提示符,按tab键,显示可以引导的内核,然后在内核后面空一格,加上single就可以了。具体情况不在赘述。网络故障排除这里的网络故障仅仅只指服务器网络无法接通的情况,不包括整体网络结构上的其他故障。一般来讲,当服务器无法ping通同一子网的某台机器的时候,则认为服务器出现了网络故障。同时,也有可能出现服务器可以ping通对端,但是,对端无法访问服务器的相关服务。?? 如果出现服务器无法ping通对端,则请先检查网络物理线路是否正常。网络线路检查完毕后,连接服务器的交换设备是否有VLAN的限制。确认外部条件都正常后,请参照上面章节中所提到的网卡设置部分,检查网卡的设置。或者通过ifconfig 命令来看网卡是否被正确的指定了IP地址。正确的ifconfig显示如下:??eth0 Link encap:Ethernet HWaddr 00:0A:5E:3C:BD:94 ?? inet addr:192.168.1.254 Bcast:192.168.1.255 Mask:255.255.255.0 ?? UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1 ?? RX packets:113 errors:0 dropped:0 overruns:1 frame:0 ?? TX packets:66 errors:0 dropped:0 overruns:0 carrier:0 ?? collisions:0 txqueuelen:1000 ?? RX bytes:18479 (18.0 Kb) TX bytes:8075 (7.8 Kb) ?? Interrupt:11 Base address:0xa000 ????lo Link encap:Local Loopback ?? inet addr:127.0.0.1 Mask:255.0.0.0 ?? UP LOOPBACK RUNNING MTU:16436 Metric:1 ?? RX packets:10 errors:0 dropped:0 overruns:0 frame:0 ?? TX packets:10 errors:0 dropped:0 overruns:0 carrier:0 ?? collisions:0 txqueuelen:0 ?? RX bytes:700 (700.0 b) TX bytes:700 (700.0 b) 如果eth0 中inet addr部分没有正确的IP地址,则很可能是因为配置文件不统一而导致的混乱状况。这个时候,可以通过ifconfig eth0 192.168.1.254 netmask 255.255.255.0 up 命令来临时激活eth0 口的协议状态。再测试是否能正常通信。在上述的配置中,请注意netmask的配置。因为IP地址只有和netmask同时使用才有意义,如果netmask设置不正确,也会导致无法正常通信。在多层交换的环境中或者在跨网段的环境中,还需要注意路由的配置状况。这些问题,请参考网络知识部分。如果上述检查都没问题,则请检查服务器上是否应用了防火墙策略。iptables –L 网络故障还有一种情况是因为驱动程序丢失而导致网卡无法找到,这种情况一般是由于网卡质量不好造成的,遇到这边的情况,请参考驱动程序安装部分。或者简单的关闭计算机,然后把网卡拔出,让kudzu自动检查到硬件改动,卸载网卡驱动程序。再关闭计算机,插上网卡让kudzu自动安装网卡驱动。性能故障排除如果服务器出现性能严重退化的情况,或者在安装好后便发现性能很差。那么请首先参考上面章节的安装部分,看是否是因为硬件驱动的性能问题导致的。如果使用的是兼容性比较好的硬件,则请执行如下检查步骤。首先,测试硬盘的读取速度是否正常。hdparm –tT /dev/hda第一个输出是从缓存中读取文件的速度,这一速度主要表征主板的性能。一般的,普通的主板,如一般的845系列的主板上缓存读取速度大概在600-700M每秒。比较好的服务器主板则在1.2G每秒。这也就是服务器主板和普通主板的区别所在了。当然,这一性能指标还受内存大小和硬盘的速度影响。第二个输出是直接从硬盘上读取数据的速度,正常情况下7200转的IDE硬盘和SATA硬盘的速度一般在55M每秒左右。如果测试得到的数据和上面的正常数据相差很大,则请使用lspci命令检查IDE控制芯片是否被正确识别。当然,一般的,IDE驱动会被正确安装。如果IDE驱动未被正确安装,则一般可认为是硬件兼容问题。服务故障的排除我们这里讨论的服务主要是指Samba服务。Samba服务包括smbd和nmbd两个主要服务。其中smbd是提供smb文件传输的主体服务,nmbd是进行netbios的服务.服务出现故障一般表现为可以ping通服务器的IP地址,却无法ping通服务器的netbios机器名,如ecofe2。当然,更无法通过机器名来访问服务器的smb共享。出现这种故障可能是samba整个服务就没有启动,即smbd和nmbd都没有启动;或者是smbd服务已经启动但是nmbd服务没有启动。如果只是nmbd服务没有启动,而smbd服务已经启动,那么可以通过“\\服务器的IP地址\game$”这样类似的方式来访问文件服务器。检查服务是否正常启动的命令是:service smb status ?? 正常的状况应该输出smbd (pid 2657) is running... nmbd (pid 2661) is running... ??如果服务中任何一个出现停止,可以将服务重新启动,使用命令??service smb restart ??Shutting down SMB services: [ OK ] ??Shutting down NMB services: [ OK ] ??Starting SMB services: [ OK ] ??Starting NMB services: [ OK ] ??这里有两个地方要引起注意:一个是,netbios广播是间隔型的,并不是一直在广播,因此,如果在工作站开机的时候,恰好处于netbios广播的间隙,可能会出现短暂的找不到ecofe2的情况,当然,工作站可以通过广播方式来查询netbios机器名的IP地址。也有可能是网当中出现了两个名称都叫ecofe2的机器,但是IP地址和MAC地址都不同,这种情况在公司多台服务器拔插网线进行调试的时候容易出现。这个时候,请把samba服务重新启动一次。第二个是,如果服务器上有两块网卡,而且都被激活,设置了IP地址,但是却只有块网卡接了网线。则会造成nmbd服务工作一段时间后异常终止的状况。要解决这个问题,要么将另外一个网卡也接上网线,要么就把另外一块网卡关闭。关闭空闲的网卡可以从BIOS上进行设置,也可以通过删除网卡的配置文件或者将网卡的配置文件中的ONBOOT 选项改成no来实现。

本文来自ChinaUnix博客,如果查看原文请点:http://blog.chinaunix.net/u2/61273/showart_500957.html
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP