免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 5073 | 回复: 8
打印 上一主题 下一主题

[故障求助] 请教 LVM_IO_FAIL错误 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2007-12-19 10:55 |只看该作者 |倒序浏览
p650双机,通过两台brocade交换机连接共享存储,用cambex做路径冗余.正常情况下a机接管阵列上的共享卷组.当b机接管共享卷组后,a机重启动会遇到不能识别共享阵列的问题,机器停在检测fc卡不能完成启动.拔掉光纤线后重启动,插线执行cfgmgr,有时顺利检测到共享阵列的磁盘,有时检测不到.基本环境和问题如上
突发问题:共享卷组已接管到b机.卷组用做db2数据库的裸设备表空间容器.下午突然出现系统高io等待,系统错误日志如下,持续短时间后数据库崩溃.检查表空间状态发现共享卷组上属于数据库用户的lv属主被更改为root用户.更改属主后备份数据库,开始读写速度正常,20分钟后出现数据基本不读写的情况,持续30分钟后又恢复正常读写速度.此时未注意cambex活动路径.数据备份完成后重新启动阵列和b机,cambex只识别到一条路径.到目前为止数据读写正常.

请问该采取哪些测试以确定问题发生的原因.或者从此错误日志可以判断出哪些问题,请高手指教,晚上好做测试.阵列为netstor9210,本身没有报任何错误信息.
LABEL:          LVM_IO_FAIL
IDENTIFIER:     613E5F38

Date/Time:       Tue Dec 18 00:18:32 BEIS
Sequence Number: 33232
Machine Id:      0050BE4C4C00
Node Id:         jlserver2
Class:           H
Type:            PERM
Resource Name:   LVDD            
Resource Class:  NONE
Resource Type:   NONE
Location:        

Description
I/O ERROR DETECTED BY LVM

Probable Causes
POWER, DRIVE, ADAPTER, OR CABLE FAILURE

        Recommended Actions
        RUN DIAGNOSTICS AGAINST THE FAILING DEVICE

Detail Data
PHYSICAL VOLUME DEVICE MAJOR/MINOR
0030 0001
ERROR CODE AS DEFINED IN sys/errno.h
          16
BLOCK NUMBER
             499826968
LOGICAL VOLUME DEVICE MAJOR/MINOR
002F 0003
PHYSICAL BUFFER TRANSACTION TIME
                   128
SENSE DATA
0000 0000 000E E560 0050 B8EC 0000 4C00 0000 0100 789B 2524 0050 B8EC 789B 03D5
0000 0000 0000 0000

LABEL:          SC_DISK_ERR2
IDENTIFIER:     B6267342

Date/Time:       Tue Dec 18 00:18:32 BEIS
Sequence Number: 33227
Machine Id:      0050BE4C4C00
Node Id:         jlserver2
Class:           H
Type:            PERM
Resource Name:   hdisk5         
Resource Class:  disk
Resource Type:   IFT
Location:        U0.1-P2-I5/Q1-W220000D023000008-L1000000000000-W220000D023000008-L1000000000000
VPD:            
        Manufacturer................IFT     
        Machine Type and Model......F16F-S2A2      
        Part Number.................9 Infortrend
        ROS Level and ID............33343252
        Serial Number...............44F3D81B
        EC Level..................... All righ
        FRU Number..................ts reserved.
        Device Specific.(Z0)........00000332F7000002
        Device Specific.(Z1)........-00
        Device Specific.(Z2)........opyr
        Device Specific.(Z3)........ight
        Device Specific.(Z4)........C) 1
        Device Specific.(Z5)........99
        Device Specific.(Z6)........

Description
DISK OPERATION ERROR

Probable Causes
DASD DEVICE

Failure Causes
DISK DRIVE
DISK DRIVE ELECTRONICS
Recommended Actions
        PERFORM PROBLEM DETERMINATION PROCEDURES

Detail Data
PATH ID
           0
SENSE DATA
0A00 2A00 1DCA C118 0000 0804 0000 0000 0000 0000 0000 0000 0128 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0001 04F4 0007 7100 0000 0001 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000

论坛徽章:
0
2 [报告]
发表于 2007-12-19 11:17 |只看该作者
LOGICAL VOLUME DEVICE MAJOR/MINOR
002F 0003
这个是什么?

论坛徽章:
0
3 [报告]
发表于 2007-12-19 13:44 |只看该作者
我也不知道,要怎么才能知道?

论坛徽章:
0
4 [报告]
发表于 2007-12-19 13:58 |只看该作者
POWER, DRIVE, ADAPTER, OR CABLE FAILURE原因引起的

论坛徽章:
0
5 [报告]
发表于 2007-12-19 15:23 |只看该作者

回复 #3 thesins 的帖子

MAJOR/MINOR
002F 0003
转换一下进制

论坛徽章:
0
6 [报告]
发表于 2007-12-19 15:28 |只看该作者
jnpiero 能否说的详细一点,转换成多少进制,然后怎么判断 ? 002F 0003 这个代码是什么我一点也不知道

论坛徽章:
1
荣誉版主
日期:2011-11-23 16:44:17
7 [报告]
发表于 2007-12-19 15:31 |只看该作者
2F=2*16+15=47
03=3

ls -l /dev |grep '47,  3'

论坛徽章:
0
8 [报告]
发表于 2007-12-20 09:45 |只看该作者
谢谢楼上
截取错误日志的部分内容
Detail Data
PHYSICAL VOLUME DEVICE MAJOR/MINOR
0030 0001
ERROR CODE AS DEFINED IN sys/errno.h
          16
BLOCK NUMBER
             499826968
LOGICAL VOLUME DEVICE MAJOR/MINOR
002F 0003
PHYSICAL BUFFER TRANSACTION TIME
                   128
SENSE DATA
0000 0000 000E E560 0050 B8EC 0000 4C00 0000 0100 789B 2524 0050 B8EC 789B 03D5
0000 0000 0000 0000
按楼上所说,执行命令返回结果如下:
#ls -l /dev |grep '47,  3'       47,3为LOGICAL VOLUME DEVICE MAJOR/MINOR
brw-rw----   1 db2inst1 db2grp1      47,  3 Dec 17 20:12 idxsale02
crw-rw----   1 db2inst1 db2grp1      47,  3 Dec 20 09:26 ridxsale02
#ls -l /dev |grep '48,  1'      48,1为PHYSICAL VOLUME DEVICE MAJOR/MINOR
brw-------   1 root     system       48,  1 Dec 18 01:11 hdisk5
crw-------   1 root     system       48,  1 Dec 18 01:11 rhdisk5


ridxsale02是用做数据库表空间容器的裸设备
我看了一下,系统有很多lvm_io_fail的日志,物理设备都指向hdisk5,逻辑设备基本都是47,3.也有一个47,2是hdisk5上用做数据库表空间容器的另一个裸设备.
在这里想请问通过
ERROR CODE AS DEFINED IN sys/errno.h
          16
BLOCK NUMBER
             499826968
SENSE DATA
0000 0000 000E E560 0050 B8EC 0000 4C00 0000 0100 789B 2524 0050 B8EC 789B 03D5
0000 0000 0000 0000
这些信息可以做哪些判断?  
另:到目前为止系统运行正常,没有新的错误,也没出现io性能问题,想请问熟悉存储的朋友,有可能是阵列出现临时性错误执行自我修复,导致当时的性能下降吗

论坛徽章:
0
9 [报告]
发表于 2007-12-20 12:20 |只看该作者

回复 #1 thesins 的帖子

看起來你的 hdisk5 是由 Infortrend 的 RAID Controller 作出來的 RAID Disk
可能這個 Logical Drive 有問題了...
目前沒再出現 Error , 但有可能 Read/Write 到有問題的磁區的檔案,Error Report 又會吐訊息...
觀察一陣子看看吧...
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP