免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 8160 | 回复: 5

[FreeBSD] zfs做的raidz2机器运行中坏一块硬盘竟然机器宕机了... [复制链接]

论坛徽章:
0
发表于 2015-11-26 20:51 |显示全部楼层
freebsd10.2
6块300G的sas做的raidz2
lsi的9211-8i卡

下午出现机器ssh上不去,ssh密码验证通过,但是光标闪,出不来ssh登录成功界面.
网站还能打开,sftp能上去,pureftp上不去

傍晚的时候网站也打不开了

在机房插显示器,显示如下错误:

Nov 26 13:23:58 server kernel: (da3:mps0:0:8:0): WRITE(10). CDB: 2a 00 04 de e8 c0 00 00 40 00
Nov 26 13:23:58 server kernel: (da3:mps0:0:8:0): CAM status: SCSI Status Error
Nov 26 13:23:58 server kernel: (da3:mps0:0:8:0): SCSI status: Check Condition
Nov 26 13:23:58 server kernel: (da3:mps0:0:8:0): SCSI sense: HARDWARE FAILURE asc:3,0 (Peripheral device write fault)
Nov 26 13:23:58 server kernel: (da3:mps0:0:8:0): Info: 0x4dee8f7
Nov 26 13:23:58 server kernel: (da3:mps0:0:8:0): Field Replaceable Unit: 8
Nov 26 13:23:58 server kernel: (da3:mps0:0:8:0): Actual Retry Count: 24
Nov 26 13:23:58 server kernel: (da3:mps0:0:8:0): Retrying command (per sense data)
Nov 26 13:23:58 server kernel: (da3:mps0:0:8:0): WRITE(10). CDB: 2a 00 04 de e9 00 00 00 40 00
Nov 26 13:23:58 server kernel: (da3:mps0:0:8:0): CAM status: SCSI Status Error
Nov 26 13:23:58 server kernel: (da3:mps0:0:8:0): SCSI status: Check Condition
Nov 26 13:23:58 server kernel: (da3:mps0:0:8:0): SCSI sense: HARDWARE FAILURE asc:3,0 (Peripheral device write fault)
Nov 26 13:23:58 server kernel: (da3:mps0:0:8:0): Info: 0x4dee900
Nov 26 13:23:58 server kernel: (da3:mps0:0:8:0): Field Replaceable Unit: 8
Nov 26 13:23:58 server kernel: (da3:mps0:0:8:0): Actual Retry Count: 24
Nov 26 13:23:58 server kernel: (da3:mps0:0:8:0): Retrying command (per sense data)
Nov 26 13:23:58 server kernel: (da3:mps0:0:8:0): WRITE(10). CDB: 2a 00 04 de e9 40 00 00 40 00
Nov 26 13:23:58 server kernel: (da3:mps0:0:8:0): CAM status: SCSI Status Error
Nov 26 13:23:58 server kernel: (da3:mps0:0:8:0): SCSI status: Check Condition
Nov 26 13:23:58 server kernel: (da3:mps0:0:8:0): SCSI sense: HARDWARE FAILURE asc:3,0 (Peripheral device write fault)
Nov 26 13:23:58 server kernel: (da3:mps0:0:8:0): Info: 0x4dee940
Nov 26 13:23:58 server kernel: (da3:mps0:0:8:0): Field Replaceable Unit: 8
Nov 26 13:23:58 server kernel: (da3:mps0:0:8:0): Actual Retry Count: 24
Nov 26 13:23:58 server kernel: (da3:mps0:0:8:0): Retrying command (per sense data)
Nov 26 13:23:58 server kernel: (da3:mps0:0:8:0): WRITE(10). CDB: 2a 00 04 de e2 78 00 00 40 00
Nov 26 13:23:58 server kernel: (da3:mps0:0:8:0): CAM status: SCSI Status Error
Nov 26 13:23:58 server kernel: (da3:mps0:0:8:0): SCSI status: Check Condition


控制台无法登录root,
强制重启,还是出现上面的错误一直刷,无法进入系统.
最后热拔掉da3,系统引导成功,进入系统.

root@server:/var/log # zpool status
  pool: zroot
state: DEGRADED
status: One or more devices has been removed by the administrator.
        Sufficient replicas exist for the pool to continue functioning in a
        degraded state.
action: Online the device using 'zpool online' or replace the device with
        'zpool replace'.
  scan: scrub repaired 0 in 0h1m with 0 errors on Sat Oct 24 05:52:02 2015
config:

        NAME                     STATE     READ WRITE CKSUM
        zroot                    DEGRADED     0     0     0
          raidz2-0               DEGRADED     0     0     0
            da0p3                ONLINE       0     0     0
            da1p3                ONLINE       0     0     0
            da2p3                ONLINE       0     0     0
            6636317080889922059  REMOVED      0     0     0  was /dev/da3p3
            da4p3                ONLINE       0     0     0
            da5p3                ONLINE       0     0     0

errors: No known data errors


不知道是哪部分引起的这种死循环,导致系统宕掉...

论坛徽章:
54
2017金鸡报晓
日期:2017-02-08 10:39:42操作系统版块每日发帖之星
日期:2016-03-08 06:20:00操作系统版块每日发帖之星
日期:2016-03-07 06:20:00操作系统版块每日发帖之星
日期:2016-02-22 06:20:00操作系统版块每日发帖之星
日期:2016-01-29 06:20:00操作系统版块每日发帖之星
日期:2016-01-27 06:20:00操作系统版块每日发帖之星
日期:2016-01-20 06:20:00操作系统版块每日发帖之星
日期:2016-01-06 06:20:0015-16赛季CBA联赛之江苏
日期:2015-12-21 20:00:24操作系统版块每日发帖之星
日期:2015-12-21 06:20:00IT运维版块每日发帖之星
日期:2015-11-17 06:20:002015亚冠之广州恒大
日期:2015-11-12 10:58:02
发表于 2015-11-27 07:57 |显示全部楼层
难道是那块坏硬盘把整个raid卡拖死了?

论坛徽章:
12
数据库技术版块每日发帖之星
日期:2015-07-08 22:20:00IT运维版块每日发帖之星
日期:2016-05-01 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44IT运维版块每月发帖之星
日期:2016-03-07 16:25:25IT运维版块每日发帖之星
日期:2016-02-21 06:20:00IT运维版块每日发帖之星
日期:2016-02-20 06:20:00数据库技术版块每日发帖之星
日期:2016-02-06 06:20:00IT运维版块每日发帖之星
日期:2016-01-30 06:20:00IT运维版块每日发帖之星
日期:2016-01-03 06:20:00IT运维版块每日发帖之星
日期:2015-11-29 06:20:00IT运维版块每日发帖之星
日期:2015-08-10 06:20:00数据库技术版块每日发帖之星
日期:2016-06-16 06:20:00
发表于 2015-11-27 09:12 |显示全部楼层
有raid卡还做什么软件raid啊?闲的

论坛徽章:
0
发表于 2015-11-27 10:08 |显示全部楼层
lsstarboy 发表于 2015-11-27 07:57
难道是那块坏硬盘把整个raid卡拖死了?


插上显示器的时候一直显示那个错误信息,刷新很快,怀疑是这个原因导致拖死系统的.

论坛徽章:
0
发表于 2015-11-30 07:23 |显示全部楼层
我在考虑是不是有一种可能性?


机器是老机器,硬盘口[0,1,2,3,4,5]一共6个sas口.

当时我拔掉da3,位置在5口,也就是最后一个口,机器顺利启动.
后来我关机,把5口反复插拔几次,启动机器,机器竟然启动了,zpool status一切正常.scrub后同步了点数据,没有任何错误.机器运行到现在没有任何问题.

所以我在想一种可能:
本来45两个口没有插硬盘.接口有氧化之类的或其他问题导致接触不良.所以看错误提示热插拔设备错误,造成读不出来一直读,拖死机器导致宕机.
后来我反复插拔几次,接触好了就没问题了.

那么热插拔设备读取错误为何不降级运行?为何会一直读取?导致机器宕机???

论坛徽章:
0
发表于 2015-11-30 07:25 |显示全部楼层
rtm009 发表于 2015-11-27 09:12
有raid卡还做什么软件raid啊?闲的


raid卡不光周围朋友遇到过好多发生错误找不回数据,我自己都遇到过出现问题的情况.
而且zfs的大部分特性,稳定性,弹性是raid卡永远无法提供的.
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP