- 论坛徽章:
- 0
|
事情是这个样子的。
一个客户在将一台D40移动到另一个机柜的时候,在主机6M1没关机,也没umount 文件系统的情况下,就关闭了D40电源,当时也没有错误报警,不过幸亏在此文件系统上的应用也停了,没有读写。然后就关闭主机6M1和D40一起移动到新机柜,加电开机,D40电源报错,并提示Pdisk2 rejected,有热备盘,重新rebuild。到了第三天客户来电话说应用不能启动,errpt中错误一堆,多数是
613E5F38 0627012907 P H LVDD I/O ERROR DETECTED BY LVM,
还有
D2A1B43E 0627012807 P U SYSPFS FILE SYSTEM CORRUPTION
3DB7729E 0627012707 P H ssa0 ADAPTER PERFORMANCE DEGRADED
FE9E9357 0627012707 P H ssa0 DISK OPERATION ERROR
看报错时间都是在凌晨1点多,此时可以保证没有人使用,难道是自检,查看vg状态正常,SSA卡,阵列Hdisk2状态也是good,客户需要的 /data文件系统不能启动,提示“superblock is dirty”,fsck以后可以正常mount了,应用也可以使用,但在此第二天去换电源的时候,又是类似的报错:
625E6B9A 0628080407 P H ssa0 ADAPTER DETECTED OPEN SERIAL LINK
FE9E9357 0628080207 P H ssa0 DISK OPERATION ERROR
AA8AB241 0628050107 T O OPERATOR OPERATOR NOTIFICATION
CD546B25 0628025907 I O SYSPFS FILE SYSTEM RECOVERY REQUIRED
1ED0A744 0628025907 P U SYSPFS FILE SYSTEM LOGGING SUSPENDED
625E6B9A 0628020007 P H ssa0 ADAPTER DETECTED OPEN SERIAL LINK
3DB7729E 0628020007 P H ssa0 ADAPTER PERFORMANCE DEGRADED
613E5F38 0628015907 P H LVDD I/O ERROR DETECTED BY LVM
613E5F38 0628015807 P H LVDD I/O ERROR DETECTED BY LVM
613E5F38 0628015707 P H LVDD I/O ERROR DETECTED BY LVM
....................
而且重新启动主机后,/data还是不能正常mount,还是dirty,fsck后也是可以mount。crontab中也没发现有在凌晨作的检测,客户也保证在凌晨没人动任何东西,可每次都是在凌晨出现了“613E5F38”错误。
难道是因为上次没有正常umount导致/data这个文件系统出错,每次mount必须fsck??
可同一个vg中的另一个文件系统/databak却没这个问题。
昨天更换了电源,今天看看还会不会出错了。
后附crontab -l中无#部分
0 11 * * * /usr/bin/errclear -d S,O 30
0 12 * * * /usr/bin/errclear -d H 90
0 15 * * * /usr/lib/ras/dumpcheck >/dev/null 2>&1
# SSA warning : Deleting the next two lines may cause errors in redundant
# SSA warning : hardware to go undetected.
01 5 * * * /usr/lpp/diagnostics/bin/run_ssa_ela 1>/dev/null 2>/dev/null
0 * * * * /usr/lpp/diagnostics/bin/run_ssa_healthcheck 1>/dev/null 2>/dev/null
# SSA warning : Deleting the next line may allow enclosure hardware errors to go
undetected
30 * * * * /usr/lpp/diagnostics/bin/run_ssa_encl_healthcheck 1>/dev/null 2>/dev/
null
# SSA warning : Deleting the next line may allow link speed exceptions to go und
etected
30 4 * * * /usr/lpp/diagnostics/bin/run_ssa_link_speed 1>/dev/null 2>/dev/null
大家帮忙分析一下,谢谢了。 |
|