Chinaunix

标题: AIX 怪异现象~ [打印本页]

作者: wzknet    时间: 2007-12-10 09:58
标题: AIX 怪异现象~
平台如下:
System Model: IBM,9117-570
Machine Serial Number: xxxxxxxx
Processor Type: PowerPC_POWER5
Number Of Processors: 4
Processor Clock Speed: 1504 MHz
CPU Type: 64-bit
Kernel Type: 64-bit
Memory Size: 7808 MB
Good Memory Size: 7808 MB
Firmware Version: IBM,SF230_145
Console Login: enable
Auto Restart: true
Full Core: false

操作系统版本:
5.2.0.0

目前故障症状:
有一个200G的文件系统:
Filesystem    GB blocks      Free %Used    Iused %Iused Mounted on
/dev/filelv1     200.00     62.32   69%    31435     1% /FILE1

在文件系统/FILE1下建有多个目录,其中一个目录是用来存放应用日志文件的,名称为:/FILE1/logBak,现在对该目录执行命令均"hang"住, 如:
cd /FILE1/logBak # 这个可正常执行
ls -l   # 回车后"hang"住,按Ctrl +c 无反应


但对/FILE1文件系统下的其它目录执行命令则正常。


现通过ps -ef | grep logBak发现所有关于logBak相关的所有进程均在,执行kill -9(以root执行)也杀不掉。
请问如何处理?欢迎讨论。
作者: 1224    时间: 2007-12-10 10:09
无反应的时候,系统负载如何? 进程所占资源多少?
作者: yu330    时间: 2007-12-10 10:23
你这个分区是不是NFS分区,如果是,先把网络停掉,就可以操作命令了,然后检查NFS服务器有没有问题,如果没有问题,再把网络开起来,应该OK了。
作者: wzknet    时间: 2007-12-10 10:51
原帖由 1224 于 2007-12-10 10:09 发表
无反应的时候,系统负载如何? 进程所占资源多少?

Topas Monitor for host:    xxxxxxx                   EVENTS/QUEUES    FILE/TTY
Mon Dec 10 10:41:18 2007   Interval:  2         Cswitch     971  Readch   539.8K
                                                Syscall    3919  Writech  464.4K
Kernel    3.6   |##                          |  Reads       630  Rawin        12
User      0.6   |#                           |  Writes      506  Ttyout     1131
Wait     24.8   |#######                     |  Forks         1  Igets         0
Idle     71.0   |####################        |  Execs         1  Namei        19
                                                Runqueue    0.0  Dirblk        0
Network  KBPS   I-Pack  O-Pack   KB-In  KB-Out  Waitqueue   1.0
en2     530.0    470.5   362.5    33.1   496.9
en1       0.3      1.0     2.0     0.1     0.2  PAGING           MEMORY
lo0       0.2      2.0     2.0     0.1     0.1  Faults      135  Real,MB    7807
                                                Steals        0  % Comp     35.9
Disk    Busy%     KBPS     TPS KB-Read KB-Writ  PgspIn        0  % Noncomp  58.2
hdisk0   12.5    106.5    23.0     0.0   106.5  PgspOut       0  % Client   58.6
hdisk1   11.5    104.5    23.0     0.0   104.5  PageIn       64
hdisk10   1.0    256.0     1.5   256.0     0.0  PageOut      11  PAGING SPACE
dac2      0.0      0.0     0.0     0.0     0.0  Sios         76  Size,MB    8192
dac2-utm  0.0      0.0     0.0     0.0     0.0                   % Used     18.6
dac1      0.0    256.0     1.5   256.0     0.0  NFS (calls/sec)  % Free     81.3
dac1-utm  0.0      0.0     0.0     0.0     0.0  ServerV2       0
dac3      0.0      0.0     0.0     0.0     0.0  ClientV2       0   Press:
dac3-utm  0.0      0.0     0.0     0.0     0.0  ServerV3       0   "h" for help
hdisk2    0.0      0.0     0.0     0.0     0.0  ClientV3       0   "q" to quit
dac0      0.0      4.0     1.0     0.0     4.0
hdisk3    0.0      0.0     0.0     0.0     0.0

Name            PID  CPU%  PgSp Owner
j2pg         315558   2.0   0.3 root
dtgreet      360642   0.5   1.5 root
topas       2232458   0.5   2.2 root
java        1024056   0.1  37.1 root
java        1691866   0.1  88.5 root
hatsd       2404464   0.1   8.2 root
java        2879550   0.0  88.9 root
java        2154674   0.0  85.4 root
syncd        348394   0.0   0.6 root
java        2056338   0.0  88.7 root
java        1831158   0.0  88.4 root
gil          299154   0.0   0.1 root
lrud         274566   0.0   0.1 root
java        2215980   0.0  89.7 root
作者: yddll    时间: 2007-12-10 12:00
这个目录下文件是不是超多?
作者: wzknet    时间: 2007-12-10 14:01
标题: 回复 #5 yddll 的帖子
613E5F38   1206101607 P H LVDD           I/O ERROR DETECTED BY LVM
D5385D18   1206101607 T H hdisk10        ARRAY OPERATION ERROR
D5385D18   1206101607 T H hdisk10        ARRAY OPERATION ERROR
EA88F829   1206080107 I O SYSJ2          USER DATA I/O ERROR
613E5F38   1206080007 P H LVDD           I/O ERROR DETECTED BY LVM
D5385D18   1206080007 T H hdisk10        ARRAY OPERATION ERROR
D5385D18   1206080007 T H hdisk10        ARRAY OPERATION ERROR
D5385D18   1206080007 T H hdisk10        ARRAY OPERATION ERROR
EA88F829   1206054207 I O SYSJ2          USER DATA I/O ERROR
613E5F38   1206054107 P H LVDD           I/O ERROR DETECTED BY L
-----------
/FILE1文件系统所在的PV有报错。
作者: 1224    时间: 2007-12-10 16:26
看看这几个错误的详细信息
作者: spender    时间: 2007-12-10 16:48
原帖由 yddll 于 2007-12-10 12:00 发表
这个目录下文件是不是超多?


应给是这个目录下文件太多,没有清理,没有归类
作者: wzknet    时间: 2007-12-10 20:36
标题: 回复 #8 spender 的帖子
咋说?我想跟这个应该没有关系吧。
作者: yddll    时间: 2007-12-10 21:37
把文件系统umount下来fsck一下

[ 本帖最后由 yddll 于 2007-12-10 21:38 编辑 ]
作者: wzknet    时间: 2007-12-11 00:44
原帖由 yddll 于 2007-12-10 21:37 发表
把文件系统umount下来fsck一下

这样会有数据丢失的风险吧?
作者: yanbing    时间: 2007-12-11 05:00
有这种可能性,但是你不马上fsck的话,以后迟早还是要做,到时候丢的数据就更多了
作者: lg110128    时间: 2007-12-11 10:00
执行fsck,在什么情况下,会发生数据丢失。
作者: wzknet    时间: 2007-12-11 21:45
报告处理结果:
shutdown -Fr重启一直停在Unmounting the file systems...状态。
等了30分钟后手按电源开关强行重启,然后以root用户login,执行fsck -y /dev/file1_lv后恢复正常。
作者: yddll    时间: 2007-12-11 23:00
如果文件系统坏了,就可能已经有些数据读不了了,你fsck不fsck,结果是一样的

只不过你执行了,损失从你这儿体现了。
作者: wzknet    时间: 2007-12-13 23:42
谢谢各位。
作者: sunney    时间: 2007-12-15 02:54
小文件超多的情况下ls -l会hang,用ls.但首先得排除I/O错.




欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2