免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 29269 | 回复: 15

[系统管理] 请教光纤链路CRC-err和enc-out问题 [复制链接]

论坛徽章:
0
发表于 2014-07-05 13:23 |显示全部楼层
整体环境为全HP产品
存储为3par
SAN switch为博客系列
小型机为 rx8640
下面反应业务有中断现象,出现频率较小,大部分时间是可以正常业务的。
分别对操作系统、SAN交换、存储进行分析
1、在存储中发现异常如下:
Message                                                                                        Repeat Count        First Time
Port 0:1:1 Degraded (Intermittent CRC Errors Detected)                1173                        Dec 07  2013 04:43:09 CST
Host Port 0:1:1 experienced over 50 CRC errors (53) in 24 hours        1171                        Dec 07  2013 04:43:09 CST

2、查看了SAN switch日志,在连接小型机(两台)的端口上发现以下情况:
porterrshow:
            frames      enc    crc    crc     too    too    bad    enc     disc   link   loss    loss   frjt   fbsy   c3timeout
             tx     rx      in    err    g_eof  shrt   long   eof     out     c3     fail    sync   sig                    tx    rx
      
  1:    1.5g   4.1g   56      14      1        0      0     13    398.4k   1       0     14     16      0      0      0      0   
  6:    3.7g   3.4g   22      11      6        0      0      5      1.0m    4       0      7      10      0      0      0      0
(如果看起来较乱请见谅)  
端口情况:
Index Port Address Media Speed State        Proto
==============================================
   1     1     010100   id      N4     Online      FC  F-Port  50:01:43:80:11:00:02:da
   6     6     010600   id      N4     Online      FC  F-Port  50:01:43:80:16:e7:ec:1c
其他端口有N4,N8不通速率混用,我查看的机房管理员所说的存储与SAN switch链接线路状态为No_Light状态,速率为N8,不知道速率是否有影响。

3、主机上MP查看硬件没发现故障,其他不知道如何排查(正在协调收集系统日志分析)

疑问是不确定这是什么问题造成的?该问题是否会导致业务异常?尝试换过光纤线,问题依旧存在,另外机房EMC设备中也出现类似问题,还请大神指教下一步该如何做,有什么需要的信息我会搜集并贴上

论坛徽章:
0
发表于 2014-07-06 12:37 |显示全部楼层
自己的顶一下
求指导

论坛徽章:
48
15-16赛季CBA联赛之青岛
日期:2021-01-07 13:41:2315-16赛季CBA联赛之上海
日期:2020-12-01 18:02:0720周年集字徽章-20	
日期:2020-10-28 14:14:2620周年集字徽章-20	
日期:2020-10-28 14:04:3015-16赛季CBA联赛之天津
日期:2020-10-18 22:51:412016猴年福章徽章
日期:2016-02-18 15:30:3415-16赛季CBA联赛之北控
日期:2015-12-22 13:30:48操作系统版块每日发帖之星
日期:2015-12-07 06:20:00操作系统版块每日发帖之星
日期:2015-09-04 06:20:002015亚冠之德黑兰石油
日期:2015-08-05 18:46:082015年亚洲杯之巴勒斯坦
日期:2015-04-19 10:42:502015年亚洲杯之巴林
日期:2015-04-09 08:03:23
发表于 2014-07-06 18:43 |显示全部楼层
1. EMC的存储也有类似问题?那么这个EMC的存储是否连接到同一个交换机上?
2. 之前尝试更换过交换机端的SFP么?没的话可以用命令portstatsclear先清掉历史的统计数值,过段时间再看结果(可以等到再出现问题后)。如果端口的enc_out和crc_err都有增加的话就更换SFP。

论坛徽章:
2
技术图书徽章
日期:2013-11-15 00:23:25双鱼座
日期:2013-11-25 13:13:29
发表于 2014-07-07 09:00 |显示全部楼层
如果EMC的设备也连接的此光交,那重启一下光交试试呢

论坛徽章:
0
发表于 2014-07-07 09:15 |显示全部楼层
回复 3# lbseraph


    EMC使用单独的光交,同是博科系列的5300B。
HP这一套光交主机链接端口除了RX power,TX power值在130+-,感觉稍微偏小,同时存在crc_err,enc_out外,其他没看出什么问题来

论坛徽章:
0
发表于 2014-07-07 09:23 |显示全部楼层
光交轻易不可重启。
另外主机上HPUX dmesg信查看,还发现存在lun offline现象,不知道这是不是个问题,信息显示lun容量连续减小,但是甲方称HP原厂发现过此问题,并表示没什么影响
附上原始信息:
class : disk, instance 320
LUN (dev=0xd000020) capacity has shrunk from 62914559 to 4194303.

class : disk, instance 310
LUN (dev=0xd00001f) capacity has shrunk from 838860799 to 629145599.

class : lunpath, instance 95
lun path (class = lunpath, instance = 95) belonging to LUN (default minor = 0x1f) has gone offline.  The lunpath hwpath is 0/0/12/0/0/0/0.0x50001fe1501c745a.0x4012000000000000

class : lunpath, instance 89
lun path (class = lunpath, instance = 89) belonging to LUN (default minor = 0x1e) has gone offline.  The lunpath hwpath is 1/0/12/0/0/0/0.0x50001fe1501c745d.0x4011000000000000

class : lunpath, instance 84
lun path (class = lunpath, instance = 84) belonging to LUN (default minor = 0x1d) has gone offline.  The lunpath hwpath is 1/0/12/0/0/0/0.0x50001fe1501c7459.0x4010000000000000

论坛徽章:
0
发表于 2014-07-07 09:25 |显示全部楼层
查看到的主机连接端口sfp为:
swd77:admin> sfpshow 1
Identifier:  3    SFP
Connector:   7    LC
Transceiver: 540c404000000000 2,4,8_Gbps M5,M6 sw Short_dist
Encoding:    1    8B10B
Baud Rate:   85   (units 100 megabaud)
Length 9u:   0    (units km)
Length 9u:   0    (units 100 meters)
Length 50u:  5    (units 10 meters)
Length 62.5u:2    (units 10 meters)
Length Cu:   0    (units 1 meter)
Vendor Name: HP-F     BROCADE
Vendor OUI:  00:05:1e
Vendor PN:   AJ716B         
Vendor Rev:  A   
Wavelength:  850  (units nm)
Options:     003a Loss_of_Sig,Tx_Fault,Tx_Disable
BR Max:      0   
BR Min:      0   
Serial No:   UAF412110000101
Date Code:   120312  
DD Type:     0x68
Enh Options: 0xfa
Status/Ctrl: 0xa0
Alarm flags[0,1] = 0x5, 0x0
Warn Flags[0,1] = 0x5, 0x0
                                           Alarm                  Warn
                                    low        high       low         high
Temperature: 41      Centigrade    -10         90         -5          85
Current:     8.352   mAmps          1.000      17.000     2.000       14.000
Voltage:     3291.4  mVolts         2900.0      3700.0    3000.0       3600.0
RX Power:    -8.9    dBm (128.0uW) 10.0   uW 1258.9 uW   15.8   uW  1000.0 uW
TX Power:    -3.3    dBm (465.0 uW)125.9  uW   631.0  uW  158.5  uW   562.3  uW

State transitions: 2
多谢指点

论坛徽章:
0
发表于 2014-07-07 10:56 |显示全部楼层
光纤供应商配置准则
在 HP 3PAR StoreServ Storage 连接的光纤上配置端口之前,请使用以下光纤供应商准则。
• 应将连接到主机服务器 HBA 端口或 HP 3PAR StoreServ Storage 端口的 Brocade 交换机端
口设置为其默认模式。在运行 Brocade 固件 3.0.2 版或更高版本的 Brocade 3xxx 交换机
上,使用 Brocade Telnet 接口和 portcfgshow 命令验证每个交换机端口是否处于正确模
式,如下所示:
brocade2_1:admin> portcfgshow
Ports 0 1 2 3 4 5 6 7
-----------------+--+--+--+--+----+--+--+--
Speed AN AN AN AN AN AN AN AN
Trunk Port ON ON ON ON ON ON ON ON
Locked L_Port .. .. .. .. .. .. .. ..
Locked G_Port .. .. .. .. .. .. .. ..
Disabled E_Port .. .. .. .. .. .. .. ..
where AN:AutoNegotiate, ..:OFF, ??:INVALID.
在运行 FOS 固件 6.3.1a 及更高版本的 Brocade 8 Gb/s 交换机上支持以下 fill-word 模式:
admin>portcfgfillword
Usage: portCfgFillWord PortNumber Mode [Passive]
Mode: 0/-idle-idle - IDLE in Link Init, IDLE as fill word (default)
1/-arbff-arbff - ARBFF in Link Init, ARBFF as fill word
2/-idle-arbff - IDLE in Link Init, ARBFF as fill word (SW)
3/-aa-then-ia - If ARBFF/ARBFF failed, then do IDLE/ARBFF
HP 建议使用 portcfgfillword 命令将 fill word 设置为模式 3 (aa-then-ia),其为首选
模式。如果 fill word 设置不正确,er_bad_os 计数器(无效命令集)将在您连接至 8 Gb
HBA 端口且使用 portstatsshow 命令时增加计数,因为它们需要 ARBFF-ARBFF fill word。
模式 3 也将适用于速度较低的 HBA,例如 4 Gb/2 Gb HBA。有关详细信息,请参阅 Brocade
《Fabric OS 命令参考手册》,该手册可从以下网站获取:
www.brocade.com
此外,某些 HP 交换机(例如 HP SN8000B 8 槽 SAN 主干控制器交换机、HP SN8000B 4
槽 SAN 控制器交换机、HP SN6000B 16 Gb FC 交换机或 HP SN3000B 16 Gb FC 交换
机)可自动选择适当的 fill-word 模式 3 作为默认设置。
• McDATA 交换机或控制器端口应设为其默认模式 G 或 GX-port(取决于交换机型号),并且
它们的速度设置要支持它们自动协商。
• 应将连接到 HP 3PAR StoreServ Storage 端口或主机 HBA 端口的 Cisco 交换机端口设置为
AdminMode = FX 和 AdminSpeed = auto port,并将速度设置为 auto negotiate。


评分

参与人数 1可用积分 +5 收起 理由
lbseraph + 5 谢谢积极回复!

查看全部评分

论坛徽章:
0
发表于 2014-07-07 10:56 |显示全部楼层
Target Port Limits and Specifications
To avoid overwhelming a target port and ensure continuous I/O operations, observe the following
limitations on a target port:
• Maximum of 64 host server ports per HP 3PAR StoreServ Storage port, with a maximum total
of 1,024 host server ports per HP 3PAR StoreServ Storage.
• I/O queue depth on each HP 3PAR StoreServ Storage HBA model, as follows:
◦ QLogic 2G: 497
◦ LSI 2G: 510
◦ Emulex 4G: 959
◦ HP 3PAR HBA 4G: 1638
◦ HP 3PAR HBA 8G: 3276 (HP 3PAR StoreServ 10000 and HP 3PAR StoreServ 7000
systems only)
• The I/O queues are shared among the connected host server HBA ports on a first-come,
first-served basis.
• When all queues are in use and a host HBA port tries to initiate I/O, it receives a target queue
full response from the HP 3PAR StoreServ Storage port. This condition can result in erratic I/O
performance on each host server. If this condition occurs, each host server should be throttled
so that it cannot overrun the HP 3PAR StoreServ Storage port's queues when all host servers
are delivering their maximum number of I/O requests.
NOTE: When host server ports can access multiple targets on fabric zones, the assigned
target number assigned by the host driver for each discovered target can change when the
host server is booted and some targets are not present in the zone. This situation may change
the device node access point for devices during a host server reboot. This issue can occur
with any fabric-connected storage, and is not specific to the HP 3PAR StoreServ Storage.

论坛徽章:
0
发表于 2014-07-07 10:59 |显示全部楼层
1.建议检查一下交换机的设置是否满足3PAR的要求;
2.有可能的话先更换SFP观察;
3.有备用光钎线的话可以更换备用光钎线观察;
4.主机侧的光钎卡驱动版本注意更新

评分

参与人数 1可用积分 +5 收起 理由
lbseraph + 5 谢谢积极回复!

查看全部评分

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP