免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
123下一页
最近访问板块 发新帖
查看: 9846 | 回复: 21

求助SUN M8000磁盘报错 [复制链接]

论坛徽章:
3
技术图书徽章
日期:2014-02-18 11:00:13操作系统版块每日发帖之星
日期:2016-05-24 06:20:00操作系统版块每日发帖之星
日期:2016-08-11 06:20:00
发表于 2016-05-17 17:34 |显示全部楼层
本帖最后由 有机天使 于 2016-05-30 11:01 编辑

各位大神,求助个问题
  系统环境:两台SUN M8000,每台SUN M8000两个域,总共四个域,两个磁盘(一个1713.69GB,一个1142.46GB)全部挂载在四台主机上做了oracle rac。

  现在的问题是:
  
  域1主机: iostat -E 查看显示
   
                 ssd1      Soft Errors: 0 Hard Errors: 0 Transport Errors: 0
                Vendor: HITACHI  Product: OPEN-V*6    -SUN Revision: 6008 Serial No:  
                Size: 1713.69GB <1713691033600 bytes>
                Media Error: 0 Device Not Ready: 0 No Device: 0 Recoverable: 0
                Illegal Request: 2 Predictive Failure Analysis: 0

                ssd28     Soft Errors: 0 Hard Errors: 17 Transport Errors: 17
              Vendor: HITACHI  Product: OPEN-V*4    -SUN Revision: 6008 Serial No:  
              Size: 1142.46GB <1142461300736 bytes>
             Media Error: 0 Device Not Ready: 0 No Device: 0 Recoverable: 0
              Illegal Request: 2 Predictive Failure Analysis: 0

域2主机:iostat -E 查看显示
                ssd1      Soft Errors: 0 Hard Errors: 2 Transport Errors: 2
               Vendor: HITACHI  Product: OPEN-V*4    -SUN Revision: 6008 Serial No:  
              Size: 1142.46GB <1142461300736 bytes>
              Media Error: 0 Device Not Ready: 0 No Device: 0 Recoverable: 0
              Illegal Request: 2 Predictive Failure Analysis: 0

              ssd24     Soft Errors: 0 Hard Errors: 5 Transport Errors: 5
             Vendor: HITACHI  Product: OPEN-V*6    -SUN Revision: 6008 Serial No:  
             Size: 1713.69GB <1713691033600 bytes>
            Media Error: 0 Device Not Ready: 0 No Device: 0 Recoverable: 0
              Illegal Request: 2 Predictive Failure Analysis: 0

域3主机:iostat -E之前每报错,目前也开始报错
           ssd1      Soft Errors: 0 Hard Errors: 3 Transport Errors: 3
         Vendor: HITACHI  Product: OPEN-V*6    -SUN Revision: 6008 Serial No:  
         Size: 1713.69GB <1713691033600 bytes>
        Media Error: 0 Device Not Ready: 0 No Device: 0 Recoverable: 0
        Illegal Request: 2 Predictive Failure Analysis: 0
        ssd27     Soft Errors: 0 Hard Errors: 3 Transport Errors: 3
       Vendor: HITACHI  Product: OPEN-V*4    -SUN Revision: 6008 Serial No:  
      Size: 1142.46GB <1142461300736 bytes>
      Media Error: 0 Device Not Ready: 0 No Device: 0 Recoverable: 0
       Illegal Request: 2 Predictive Failure Analysis: 0

域4主机:iostat -E
            
             ssd1      Soft Errors: 0 Hard Errors: 2 Transport Errors: 1
            Vendor: HITACHI  Product: OPEN-V*6    -SUN Revision: 6008 Serial No:  
            Size: 1713.69GB <1713691033600 bytes>
            Media Error: 0 Device Not Ready: 0 No Device: 0 Recoverable: 0
            Illegal Request: 2 Predictive Failure Analysis: 0

          ssd28     Soft Errors: 0 Hard Errors: 4 Transport Errors: 3
          Vendor: HITACHI  Product: OPEN-V*4    -SUN Revision: 6008 Serial No:  
          Size: 1142.46GB <1142461300736 bytes>
           Media Error: 0 Device Not Ready: 0 No Device: 0 Recoverable: 0
           Illegal Request: 2 Predictive Failure Analysis: 0

    这四台主机挂载一样的磁盘,怎么有的主机上报错,有的主机上又没报错呢?该如何处理呢?
    另外在磁盘报错的主机上,有过如下的错误日志:
May 12 20:31:14 rdms02b         /scsi_vhci/ssd@g60060e80056389000000638900000000 (ssd22): Command failed to complete (3) on path fp3/ssd@w50060e8005638924,0
May 12 20:31:14 rdms02b         SCSI transport failed: reason 'tran_err': retrying command
May 12 20:31:14 rdms02b scsi: [ID 107833 kern.warning] WARNING: /scsi_vhci/ssd@g60060e80056389000000638900000000 (ssd22):


请问大家该如何处理?

更新:

最近又开始报错了,但这次只是2个域(域1与域2)主机增多报错,另外两台却没变化,请教下是为什么呢

数字已经增长到3了:

ssd28     Soft Errors: 0 Hard Errors: 3 Transport Errors: 3

警告日志也又增多了:


May 12 15:52:51 rdms01a         /scsi_vhci/ssd@g60060e80056389000000638900000008 (ssd2: Command failed to complete (3) on path fp3/ssd@w50060e8005638900,1
May 12 15:52:51 rdms01a         SCSI transport failed: reason 'tran_err': retrying command
May 12 15:52:51 rdms01a scsi: [ID 107833 kern.warning] WARNING: /scsi_vhci/ssd@g60060e80056389000000638900000008 (ssd2:
May 20 10:40:33 rdms01a         /scsi_vhci/ssd@g60060e80056389000000638900000008 (ssd2: Command failed to complete (3) on path fp3/ssd@w50060e8005638900,1
May 20 10:40:35 rdms01a         /scsi_vhci/ssd@g60060e80056389000000638900000008 (ssd2: Command failed to complete (3) on path fp3/ssd@w50060e8005638900,1
May 21 11:28:20 rdms01a         /scsi_vhci/ssd@g60060e80056389000000638900000000 (ssd1): Command failed to complete (3) on path fp3/ssd@w50060e8005638900,0
May 21 11:28:20 rdms01a         SCSI transport failed: reason 'tran_err': retrying command
May 21 11:28:20 rdms01a scsi: [ID 107833 kern.warning] WARNING: /scsi_vhci/ssd@g60060e80056389000000638900000000 (ssd1):



现在几乎每天都开始报错了,持续增长,每天就这么1-2条,这是链路故障码?我检查存储交换机也没发现交换机出问题~~检查存储设备,也没有存储告警,这能什么问题呢?要是HBA卡的问题这4台系统 四个HBA卡不能都出问题吧,而且检查主机底层硬件也没发现告警日志~~

   有没有过来人给个指点啊~~

论坛徽章:
3
技术图书徽章
日期:2014-02-18 11:00:13操作系统版块每日发帖之星
日期:2016-05-24 06:20:00操作系统版块每日发帖之星
日期:2016-08-11 06:20:00
发表于 2016-05-17 23:19 |显示全部楼层
请问大家这个  Hard Errors: 1 Transport Errors: 1 有什么影响吗?我这个是存储的磁盘,存储这边并没有告警,而且如果是存储磁盘故障,那应该四台系统全部报错才对,但现在却是有的报了,有的没报~~是为什么尼?我应该如何查看?

论坛徽章:
0
发表于 2016-05-18 06:17 |显示全部楼层
高大上的机器。一般人接触不到。存储没有告警,说明硬盘还没有彻底坏掉,只是有坏块。

论坛徽章:
7
荣誉会员
日期:2011-11-23 16:44:17水瓶座
日期:2013-08-28 21:20:16丑牛
日期:2013-10-02 21:01:462015年迎新春徽章
日期:2015-03-04 09:54:45操作系统版块每日发帖之星
日期:2016-06-05 06:20:0015-16赛季CBA联赛之吉林
日期:2016-06-20 08:24:0515-16赛季CBA联赛之四川
日期:2016-08-18 15:02:02
发表于 2016-05-18 08:10 |显示全部楼层
回复 1# 有机天使
  就1个transport报错根本不需要去关心它,你去看看volume manager那层有没有报错就可以了。

论坛徽章:
3
技术图书徽章
日期:2014-02-18 11:00:13操作系统版块每日发帖之星
日期:2016-05-24 06:20:00操作系统版块每日发帖之星
日期:2016-08-11 06:20:00
发表于 2016-05-18 10:28 |显示全部楼层
回复 4# nimysun

但是有个Hard Errors: 1 还有最后写的那个日志,我怀疑是链路问题~~,但我查看了链路状态,目前也都正常~~
     这个Hard Errors: 1 这类错误信息能清除不

论坛徽章:
7
荣誉会员
日期:2011-11-23 16:44:17水瓶座
日期:2013-08-28 21:20:16丑牛
日期:2013-10-02 21:01:462015年迎新春徽章
日期:2015-03-04 09:54:45操作系统版块每日发帖之星
日期:2016-06-05 06:20:0015-16赛季CBA联赛之吉林
日期:2016-06-20 08:24:0515-16赛季CBA联赛之四川
日期:2016-08-18 15:02:02
发表于 2016-05-18 22:14 |显示全部楼层
回复 5# 有机天使
  这个数字如果不是持续快速增加,一般不用理会。这个报错也不一定表示硬件有问题,也可能是软件驱动层的误报。盲目更换硬件可能会让问题更加复杂化,也可能会带来新的风险。

   

论坛徽章:
3
技术图书徽章
日期:2014-02-18 11:00:13操作系统版块每日发帖之星
日期:2016-05-24 06:20:00操作系统版块每日发帖之星
日期:2016-08-11 06:20:00
发表于 2016-05-19 09:01 |显示全部楼层
nimysun 发表于 2016-05-18 22:14
回复 5# 有机天使
  这个数字如果不是持续快速增加,一般不用理会。这个报错也不一定表示硬件有问题,也可 ...



那想再请教下:

/scsi_vhci/ssd@g60060e80056389000000638900000000 (ssd22): Command failed to complete (3) on path fp3/ssd@w50060e8005638924,0
May 12 20:31:14 rdms02b         SCSI transport failed: reason 'tran_err': retrying command
May 12 20:31:14 rdms02b scsi: [ID 107833 kern.warning] WARNING: /scsi_vhci/ssd@g60060e80056389000000638900000000 (ssd22):
这个日志在3个机子上都出现了,只有一个机子没出现,但3个机子出现的时间却不一样,我怀疑是不同时间点链路出现了问题~~正准备检查交换机
另外我想问问这个iostat-E里面的报错数字 是否能消除?

论坛徽章:
3
技术图书徽章
日期:2014-02-18 11:00:13操作系统版块每日发帖之星
日期:2016-05-24 06:20:00操作系统版块每日发帖之星
日期:2016-08-11 06:20:00
发表于 2016-05-19 09:32 |显示全部楼层
回复 6# nimysun

查了链路和交换机没有报错~~那这个日志是怎么来的。。。。我这个磁盘是存储的磁盘,如果是磁盘故障,那应该是挂载的所有机子都报警,存储也会告警,但现在并没有~~


   

论坛徽章:
7
荣誉会员
日期:2011-11-23 16:44:17水瓶座
日期:2013-08-28 21:20:16丑牛
日期:2013-10-02 21:01:462015年迎新春徽章
日期:2015-03-04 09:54:45操作系统版块每日发帖之星
日期:2016-06-05 06:20:0015-16赛季CBA联赛之吉林
日期:2016-06-20 08:24:0515-16赛季CBA联赛之四川
日期:2016-08-18 15:02:02
发表于 2016-05-19 13:51 |显示全部楼层
有机天使 发表于 2016-05-19 09:32
回复 6# nimysun

查了链路和交换机没有报错~~那这个日志是怎么来的。。。。我这个磁盘是存储的磁盘,如 ...


  我之前说过了,这个日志是驱动程序提供给操作系统日志的。所以下手点是从驱动方向开始。transport error,这样的报错,有可能发出端正常发出,接收端解码出现问题。

  你实在想搞清楚,最好把几个厂商都扯进来讨论分析一下,存储,交换机,HBA, Hba driver(os),不过大概率是找不到具体的问题点。 存储我不知道是否有端口镜像机制,你把所有的流量存储下来,逐帧分析对比。

论坛徽章:
0
发表于 2016-05-20 08:57 |显示全部楼层
没有关系,iOstat -E 要重启才能消除!
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP