免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 5358 | 回复: 6
打印 上一主题 下一主题

[网络管理] 网卡不定时闪断 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-02-10 14:13 |只看该作者 |倒序浏览
本帖最后由 ayalastrike 于 2014-02-10 15:08 编辑

Dell R710的服务器,跑redis服务
服务器信息如下:
CentOS release 6.3 (Final)
Linux YHG-L15-03-redis12 2.6.32-279.el6.x86_64 #1 SMP Fri Jun 22 12:19:21 UTC 2012 x86_64 x86_64 x86_64 GNU/Linux

几乎一周有一次报eth0 down,几十秒后eth0 up。
网卡型号,Broadcom Corporation NetXtreme II BCM5709,目前驱动版本2.2.1
网卡里已经禁用了disable_msi,这个有影响吗?
目前网卡使用的中断方式是MSI(网上提到MSI会使中断落到一个cpu上),是否需要改为MSI-X?

监控查看当时redis的连接数和负载不高,

/var/log/message当时的报错:
Jan 16 22:45:00 localhost kernel: do_IRQ: 4.231 No irq handler for vector (irq -1)
Jan 16 22:45:09 localhost kernel: bnx2 0000:0b:00.0: eth0: DEBUG: intr_sem[0] PCI_CMD[00100446]
Jan 16 22:45:09 localhost kernel: bnx2 0000:0b:00.0: eth0: DEBUG: PCI_PM[19002008] PCI_MISC_CFG[92000088]
Jan 16 22:45:09 localhost kernel: bnx2 0000:0b:00.0: eth0: DEBUG: EMAC_TX_STATUS[00000008] EMAC_RX_STATUS[00000000]
Jan 16 22:45:09 localhost kernel: bnx2 0000:0b:00.0: eth0: DEBUG: RPM_MGMT_PKT_CTRL[40000088]
Jan 16 22:45:09 localhost kernel: bnx2 0000:0b:00.0: eth0: DEBUG: HC_STATS_INTERRUPT_STATUS[01df0020]
Jan 16 22:45:09 localhost kernel: bnx2 0000:0b:00.0: eth0: DEBUG: PBA[00000000]
Jan 16 22:45:09 localhost kernel: bnx2 0000:0b:00.0: eth0: <--- start MCP states dump --->
Jan 16 22:45:09 localhost kernel: bnx2 0000:0b:00.0: eth0: DEBUG: MCP_STATE_P0[0003610e] MCP_STATE_P1[0003600e]
Jan 16 22:45:09 localhost kernel: bnx2 0000:0b:00.0: eth0: DEBUG: MCP mode[0000b880] state[80004000] evt_mask[00000500]
Jan 16 22:45:09 localhost kernel: bnx2 0000:0b:00.0: eth0: DEBUG: pc[0800b2ec] pc[08009b30] instr[9382ff8c]
Jan 16 22:45:09 localhost kernel: bnx2 0000:0b:00.0: eth0: DEBUG: shmem states:
Jan 16 22:45:09 localhost kernel: bnx2 0000:0b:00.0: eth0: DEBUG: drv_mb[01030006] fw_mb[00000006] link_status[0000006f] drv_pulse_mb[00006496]
Jan 16 22:45:09 localhost kernel: bnx2 0000:0b:00.0: eth0: DEBUG: dev_info_signature[44564903] reset_type[01005254] condition[0003610e]
Jan 16 22:45:09 localhost kernel: bnx2 0000:0b:00.0: eth0: DEBUG: 000003cc: 44444444 44444444 44444444 00000a14
Jan 16 22:45:09 localhost kernel: bnx2 0000:0b:00.0: eth0: DEBUG: 000003dc: 0004ffff 00000000 00000000 00000000
Jan 16 22:45:09 localhost kernel: bnx2 0000:0b:00.0: eth0: DEBUG: 000003ec: 00000000 00000000 00000000 00000000
Jan 16 22:45:09 localhost kernel: bnx2 0000:0b:00.0: eth0: DEBUG: 0x3fc[0000ffff]
Jan 16 22:45:09 localhost kernel: bnx2 0000:0b:00.0: eth0: <--- end MCP states dump --->
Jan 16 22:45:09 localhost kernel: bnx2 0000:0b:00.0: eth0: NIC Copper Link is Down
Jan 16 22:45:12 localhost kernel: bnx2 0000:0b:00.0: eth0: NIC Copper Link is Up, 1000 Mbps full duplex

网卡信息:
# modinfo bnx2
filename:       /lib/modules/2.6.32-279.el6.x86_64/kernel/drivers/net/bnx2.ko
firmware:       bnx2/bnx2-rv2p-09ax-6.0.17.fw
firmware:       bnx2/bnx2-rv2p-09-6.0.17.fw
firmware:       bnx2/bnx2-mips-09-6.2.1b.fw
firmware:       bnx2/bnx2-rv2p-06-6.0.15.fw
firmware:       bnx2/bnx2-mips-06-6.2.3.fw
version:        2.2.1
license:        GPL
description:    Broadcom NetXtreme II BCM5706/5708/5709/5716 Driver
author:         Michael Chan <mchan@broadcom.com>
srcversion:     DD3C21C3B426C4D3E2A68B9
alias:          pci:v000014E4d0000163Csv*sd*bc*sc*i*
alias:          pci:v000014E4d0000163Bsv*sd*bc*sc*i*
alias:          pci:v000014E4d0000163Asv*sd*bc*sc*i*
alias:          pci:v000014E4d00001639sv*sd*bc*sc*i*
alias:          pci:v000014E4d000016ACsv*sd*bc*sc*i*
alias:          pci:v000014E4d000016AAsv*sd*bc*sc*i*
alias:          pci:v000014E4d000016AAsv0000103Csd00003102bc*sc*i*
alias:          pci:v000014E4d0000164Csv*sd*bc*sc*i*
alias:          pci:v000014E4d0000164Asv*sd*bc*sc*i*
alias:          pci:v000014E4d0000164Asv0000103Csd00003106bc*sc*i*
alias:          pci:v000014E4d0000164Asv0000103Csd00003101bc*sc*i*
depends:        
vermagic:       2.6.32-279.el6.x86_64 SMP mod_unload modversions
parm:           disable_msiisable Message Signaled Interrupt (MSI) (int)


[root@YHG-L15-03-redis12 ~]# cat /proc/interrupts | grep eth0
  60:   48214413 2199870191          0          0          0          0          0  135455676  IR-PCI-MSI-edge      eth0-0
  61:          0          0          0  810729081          0          0  333309739          0  IR-PCI-MSI-edge      eth0-1
  62: 1725524919          0          0          0          0          0          0          0  IR-PCI-MSI-edge      eth0-2
  63: 1485952449          0          0          0          0          0          0          0  IR-PCI-MSI-edge      eth0-3
  64: 1460318087          0          0          0          0          0          0          0  IR-PCI-MSI-edge      eth0-4
  65: 1491387485          0          0          0          0          0          0          0  IR-PCI-MSI-edge      eth0-5
  66:         15  888532251          0          0  345968622          0          0          0  IR-PCI-MSI-edge      eth0-6
  67:          3          0  567823275          0          0  322033836          0          0  IR-PCI-MSI-edge      eth0-7

论坛徽章:
71
15-16赛季CBA联赛之同曦
日期:2018-08-23 15:41:42辰龙
日期:2014-08-15 09:07:43狮子座
日期:2014-06-03 13:55:33亥猪
日期:2014-06-02 11:17:08巨蟹座
日期:2014-05-06 10:02:03午马
日期:2014-05-04 08:18:27亥猪
日期:2014-04-29 11:11:32技术图书徽章
日期:2014-04-24 15:51:26技术图书徽章
日期:2014-04-17 11:01:53辰龙
日期:2014-04-15 12:45:46亥猪
日期:2014-04-11 09:06:23射手座
日期:2014-04-01 15:28:10
2 [报告]
发表于 2014-02-10 15:28 |只看该作者
排除交换机的问题了吗?

论坛徽章:
33
荣誉会员
日期:2011-11-23 16:44:17天秤座
日期:2014-08-26 16:18:20天秤座
日期:2014-08-29 10:12:18丑牛
日期:2014-08-29 16:06:45丑牛
日期:2014-09-03 10:28:58射手座
日期:2014-09-03 16:01:17寅虎
日期:2014-09-11 14:24:21天蝎座
日期:2014-09-17 08:33:55IT运维版块每日发帖之星
日期:2016-04-17 06:23:27操作系统版块每日发帖之星
日期:2016-04-18 06:20:00IT运维版块每日发帖之星
日期:2016-04-24 06:20:0015-16赛季CBA联赛之天津
日期:2016-05-06 12:46:59
3 [报告]
发表于 2014-02-10 17:23 |只看该作者
http://www.spinics.net/lists/netdev/msg169900.html

https://bugzilla.redhat.com/show ... tiple&id=873215


第一个URL上是dump mcp 这一段的代码, 我不是太懂C, 看大意是说 fw_sync 出现问题的时候会调用 mcp dump.

第二个 URL 上说 fw 是有两部分的, 一部分是在 BIOS中, 另一部分是随kernel/driver来的.

建议楼主升级一下这两部分, 或者先升级一下 kernel/driver这一部分试试, 因为BIOS 降级好象没有kernel/driver容易.

论坛徽章:
15
射手座
日期:2014-02-26 13:45:082015年迎新春徽章
日期:2015-03-04 09:54:452015年辞旧岁徽章
日期:2015-03-03 16:54:15羊年新春福章
日期:2015-02-26 08:47:552015年亚洲杯之卡塔尔
日期:2015-02-03 08:33:45射手座
日期:2014-12-31 08:36:51水瓶座
日期:2014-06-04 08:33:52天蝎座
日期:2014-05-14 14:30:41天秤座
日期:2014-04-21 08:37:08处女座
日期:2014-04-18 16:57:05戌狗
日期:2014-04-04 12:21:33技术图书徽章
日期:2014-03-25 09:00:29
4 [报告]
发表于 2014-02-10 23:54 来自手机 |只看该作者
看似固件或驱动的问题,建议升级后观察

论坛徽章:
0
5 [报告]
发表于 2014-02-11 13:30 |只看该作者
查了交换机日志,也显示网卡连不上

论坛徽章:
0
6 [报告]
发表于 2014-05-19 15:34 |只看该作者
最后怎么样了,问题解决了么回复 1# ayalastrike


   

论坛徽章:
0
7 [报告]
发表于 2014-05-21 10:58 |只看该作者
就是网卡驱动问题,我们这批m3机器不用了,换成了m4和dell R710就没问题了
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP