免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
123下一页
最近访问板块 发新帖
查看: 5614 | 回复: 25

v880内置光纤通道问题 [复制链接]

论坛徽章:
0
发表于 2009-11-12 19:15 |显示全部楼层
20可用积分
最近碰到个问题,一台v880内置4块硬盘,solaris9,无存储和HBA卡,一直稳定运行。某一天突然发现日志中出现大量类似下面的错误,我只截了一段,其他都是重复和类似的,prtdiag,metastat,format都没有发现错误,iostat -E中有大量的hard error,比如no device,一直到现在;原先怀疑是power服务相关,关闭rc2.d下的power服务无效;怀疑FC-AL背板问题,更换背板依旧。
现在有几个问题需要确认:
v880中内置磁盘的FC通道用的是qlogic的控制芯片,该芯片是否在IO背板上?
是否一定要更换IO背板,solaris9是否存在某个patch需要打上的可能性?
是否需要升级IO背板的frimware?

各位老大过来看看吧,这是生产机,停个机很麻烦,我是打算更换IO背板了,是否还有更好的办法和建议?



Oct 4 09:23:04 test qlc: [ID 686697 kern.info] NOTICE: Qlogic qlc(0): Loop OFFLINE

Oct 4 09:23:07 test qlc: [ID 686697 kern.info] NOTICE: Qlogic qlc(0): Loop ONLINE

Oct 4 09:23:07 test scsi: [ID 107833 kern.warning] WARNING: /pci@8,600000/SUNW,qlc@2/fp@0,0/ssd@w2100000c50b87ac6,0 (ssd3):

Oct 4 09:23:07 test         Error for Command: write(10)               Error Level: Retryable

Oct 4 09:23:07 test scsi: [ID 107833 kern.notice]   Requested Block: 17316112                  Error Block: 55834

Oct 4 09:23:07 test scsi: [ID 107833 kern.notice]   Vendor: SEAGATE                            Serial Number: 0409B71BRG  

Oct 4 09:23:07 test scsi: [ID 107833 kern.notice]   Sense Key: Unit Attention

Oct 4 09:23:07 test scsi: [ID 107833 kern.notice]   ASC: 0x29 (<vendor unique code 0x29>), ASCQ: 0x2, FRU: 0xcc

Oct 4 09:23:07 test scsi: [ID 107833 kern.warning] WARNING: /pci@8,600000/SUNW,qlc@2/fp@0,0/ssd@w2100000c50b87ac6,0 (ssd3):

Oct 4 09:23:07 test         Error for Command: write(10)               Error Level: Retryable

Oct 4 09:23:07 test scsi: [ID 107833 kern.notice]   Requested Block: 17316112                  Error Block: 17316112

Oct 4 09:23:07 test scsi: [ID 107833 kern.notice]   Vendor: SEAGATE                            Serial Number: 0409B71BRG  

Oct 4 09:23:07 test scsi: [ID 107833 kern.notice]   Sense Key: Unit Attention

Oct 4 09:23:07 test scsi: [ID 107833 kern.notice]   ASC: 0x29 (power on, reset, or bus reset occurred), ASCQ: 0x0, FRU: 0x3

Oct 4 09:23:07 test scsi: [ID 107833 kern.warning] WARNING: /pci@8,600000/SUNW,qlc@2/fp@0,0/ssd@w2100000c5080819b,0 (ssd4):

Oct 4 09:23:07 test         Error for Command: write(10)               Error Level: Retryable

Oct 4 09:23:07 test scsi: [ID 107833 kern.notice]   Requested Block: 17316112                  Error Block: 17316112

Oct 4 09:23:07 test scsi: [ID 107833 kern.notice]   Vendor: SEAGATE                            Serial Number: 0347B6GYA7  

Oct 4 09:23:07 test scsi: [ID 107833 kern.notice]   Sense Key: Unit Attention

Oct 4 09:23:07 test scsi: [ID 107833 kern.notice]   ASC: 0x29 (power on, reset, or bus reset occurred), ASCQ: 0x0, FRU: 0x3

Oct 4 09:23:09 test scsi: [ID 107833 kern.warning] WARNING: /pci@8,600000/SUNW,qlc@2/fp@0,0/ssd@w500000e01535e271,0 (ssd2):

Oct 4 09:23:09 test         Error for Command: write(10)               Error Level: Retryable

Oct 4 09:23:09 test scsi: [ID 107833 kern.notice]   Requested Block: 36137136                  Error Block: 36137136

Oct 4 09:23:09 test scsi: [ID 107833 kern.notice]   Vendor: FUJITSU                            Serial Number: 0617C0BM4C  

Oct 4 09:23:09 test scsi: [ID 107833 kern.notice]   Sense Key: Unit Attention

Oct 4 09:23:09 test scsi: [ID 107833 kern.notice]   ASC: 0x29 (<vendor unique code 0x29>), ASCQ: 0x3, FRU: 0x0

Oct 4 09:23:09 test scsi: [ID 107833 kern.warning] WARNING: /pci@8,600000/SUNW,qlc@2/fp@0,0/ssd@w500000e012a6a521,0 (ssd1):

Oct 4 09:23:09 test         Error for Command: write(10)               Error Level: Retryable

Oct 4 09:23:09 test scsi: [ID 107833 kern.notice]   Requested Block: 36137136                  Error Block: 36137136

Oct 4 09:23:09 test scsi: [ID 107833 kern.notice]   Vendor: FUJITSU                            Serial Number: 0634C09FB4  

Oct 4 09:23:09 test scsi: [ID 107833 kern.notice]   Sense Key: Unit Attention

Oct 4 09:23:09 test scsi: [ID 107833 kern.notice]   ASC: 0x29 (<vendor unique code 0x29>), ASCQ: 0x3, FRU: 0x0

Oct 4 11:18:33 test qlc: [ID 686697 kern.info] NOTICE: Qlogic qlc(0): Loop OFFLINE

Oct 4 11:18:36 test qlc: [ID 686697 kern.info] NOTICE: Qlogic qlc(0): Loop ONLINE

Oct 4 11:18:36 test scsi: [ID 107833 kern.warning] WARNING: /pci@8,600000/SUNW,qlc@2/fp@0,0/ssd@w2100000c50b87ac6,0 (ssd3):

Oct 4 11:18:36 test         Error for Command: write(10)               Error Level: Retryable

Oct 4 11:18:36 test scsi: [ID 107833 kern.notice]   Requested Block: 16780276                  Error Block: 55834

Oct 4 11:18:36 test scsi: [ID 107833 kern.notice]   Vendor: SEAGATE                            Serial Number: 0409B71BRG  

Oct 4 11:18:36 test scsi: [ID 107833 kern.notice]   Sense Key: Unit Attention

Oct 4 11:18:36 test scsi: [ID 107833 kern.notice]   ASC: 0x29 (<vendor unique code 0x29>), ASCQ: 0x2, FRU: 0xcc

Oct 4 11:18:36 test scsi: [ID 107833 kern.warning] WARNING: /pci@8,600000/SUNW,qlc@2/fp@0,0/ssd@w2100000c50b87ac6,0 (ssd3):

Oct 4 11:18:36 test         Error for Command: write(10)               Error Level: Retryable

Oct 4 11:18:36 test scsi: [ID 107833 kern.notice]   Requested Block: 16780276                  Error Block: 16780276

Oct 4 11:18:36 test scsi: [ID 107833 kern.notice]   Vendor: SEAGATE                            Serial Number: 0409B71BRG  

Oct 4 11:18:36 test scsi: [ID 107833 kern.notice]   Sense Key: Unit Attention

Oct 4 11:18:36 test scsi: [ID 107833 kern.notice]   ASC: 0x29 (power on, reset, or bus reset occurred), ASCQ: 0x0, FRU: 0x3

Oct 4 11:18:36 test scsi: [ID 107833 kern.warning] WARNING: /pci@8,600000/SUNW,qlc@2/fp@0,0/ssd@w2100000c5080819b,0 (ssd4):

Oct 4 11:18:36 test         Error for Command: write(10)               Error Level: Retryable

Oct 4 11:18:36 test scsi: [ID 107833 kern.notice]   Requested Block: 58951348                  Error Block: 58951348

Oct 4 11:18:36 test scsi: [ID 107833 kern.notice]   Vendor: SEAGATE                            Serial Number: 0347B6GYA7  

Oct 4 11:18:36 test scsi: [ID 107833 kern.notice]   Sense Key: Unit Attention

Oct 4 11:18:36 test scsi: [ID 107833 kern.notice]   ASC: 0x29 (power on, reset, or bus reset occurred), ASCQ: 0x0, FRU: 0x3

Oct 4 11:18:37 test scsi: [ID 107833 kern.warning] WARNING: /pci@8,600000/SUNW,qlc@2/fp@0,0/ssd@w500000e012a6a521,0 (ssd1):

Oct 4 11:18:37 test         Error for Command: write(10)               Error Level: Retryable

Oct 4 11:18:37 test scsi: [ID 107833 kern.notice]   Requested Block: 134775360                 Error Block: 134775360

Oct 4 11:18:37 test scsi: [ID 107833 kern.notice]   Vendor: FUJITSU                            Serial Number: 0634C09FB4  

Oct 4 11:18:37 test scsi: [ID 107833 kern.notice]   Sense Key: Unit Attention

Oct 4 11:18:37 test scsi: [ID 107833 kern.notice]   ASC: 0x29 (<vendor unique code 0x29>), ASCQ: 0x3, FRU: 0x0

论坛徽章:
0
发表于 2009-11-12 21:47 |显示全部楼层
首先看你的硬盘是否坏了!然后才是FC通道。

在有硬盘时和没有硬盘时boot cdrom -s比较一下;

IO板的FW升级一下。

最后,其实也是要最先做得:最大化自检一下。

论坛徽章:
0
发表于 2009-11-13 10:03 |显示全部楼层
不应该是硬盘坏了,这可是同时报了四个硬盘,四个硬盘同时坏。。。。不是没可能,几率太小了。而且前面还提示了loop offline & online

论坛徽章:
0
发表于 2009-11-13 10:40 |显示全部楼层
兄弟你仔细看看handbook上的硬盘背板连接图,应该是连向主板的,不是连接在IO板上的吧。
看看是否背板和主板之间的线缆的问题?

论坛徽章:
2
双鱼座
日期:2014-02-23 12:10:03操作系统版块每日发帖之星
日期:2015-12-17 06:20:00
发表于 2009-11-13 12:23 |显示全部楼层
prtconf -V
uname -a
看看是不是要升下补丁了

115663-02

4886938 informational level warnings seen on Chalupa (ASC 0x29/ASCQ 0x3)

论坛徽章:
0
发表于 2009-11-13 14:07 |显示全部楼层

回复 #1 todaypuzzleme 的帖子

楼主可QQ我聊聊,这样快一些!392465524

论坛徽章:
0
发表于 2009-11-13 18:27 |显示全部楼层
原帖由 easybegin 于 2009-11-12 21:47 发表
首先看你的硬盘是否坏了!然后才是FC通道。

在有硬盘时和没有硬盘时boot cdrom -s比较一下;

IO板的FW升级一下。

最后,其实也是要最先做得:最大化自检一下。



硬盘不大可能,我前面说了,format,metastat等未见异常,在这天之前的日志可看到没有任何硬盘故障的提示,某一天突然出现上面的日志,而且是4块硬盘一起,可以排除硬盘的原因;最大化自检已经做过,没有问题;用cdrom启动的方式,没有硬盘肯定不会出现上面的信息,这些信息是在系统访问磁盘的过程中随机产生的,其实数量并不是很多,一天也就10来次,在应用级别上暂时也没发现问题,只是日志一直产生大量的告警,肯定是不好的征兆,先谢谢这为兄弟

论坛徽章:
0
发表于 2009-11-13 18:30 |显示全部楼层
原帖由 zhmzhouming 于 2009-11-13 10:40 发表
兄弟你仔细看看handbook上的硬盘背板连接图,应该是连向主板的,不是连接在IO板上的吧。
看看是否背板和主板之间的线缆的问题?


今天让一个同事去看了IO背板,确实没有qlogic的控制器,这个我去确认一下,谢谢这位兄弟提醒,如果在motherboard上那估计是要更换了,天啦,这个貌似挺麻烦的

论坛徽章:
1
技术图书徽章
日期:2014-04-24 15:56:22
发表于 2009-11-13 20:14 |显示全部楼层
建议先升一下firmware

论坛徽章:
0
发表于 2009-11-14 00:46 |显示全部楼层
我已经确认光纤通道的控制器芯片在motherboard上,看照片里的ISP2200就是,看这情况,很有可能是控制芯片出现故障,升级OBP的firmware或者FC-AL背板的firmware
估计是没关系了;至于打补丁,原先系统已经正常运行了N年而没打补丁,为什么打个补丁就能解决问题呢?
这不好跟客户解释了
客户那边的explo还没拿到,关于打补丁的方式暂时没办法确认,蜘蛛大哥几位的建议等等再考虑了

motherboard

motherboard
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

SACC2021中国系统架构师大会

【数字转型 架构重塑】2021年5月20日-22日第十三届中国系统架构师大会将在云端进行网络直播。

大会为期3天的议程,涉及20+专场,近120个主题,完整迁移到线上进行网络直播对会议组织来说绝非易事;但考虑到云端会议的直播形式可以实现全国各地技术爱好者的参与,也使ITPUB作为技术共享交流平台得到更好的普及,我们决定迎难而上。
http://sacc.it168.com/


大会官网>>
  

北京盛拓优讯信息技术有限公司. 版权所有 16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP