免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3211 | 回复: 8

fmdump 出来的内容,请大虾们分析下,万分感谢! [复制链接]

论坛徽章:
0
发表于 2012-02-16 18:28 |显示全部楼层
请各位大虾也看看我的这个问题,/var/fm/fmd/errlog不停增长,看看是什么硬件问题。
现场服务器为dell r310,网卡为主板集成,pci插槽中只有2G内存条;

显示的是内存条问题还是网卡有问题?

cps@sac2>fmdump
TIME                 UUID                                 SUNW-MSG-ID
12月 01 12:40:08.0948 62f4c76b-b576-6629-9e01-93cf4f0fd3c5 SUNOS-8000-FU
1月 03 13:16:59.7560 31f1ef05-88d0-c167-aec8-e95c37f7c818 PCIEX-8000-KP
cps@sac2>fmdump -ev
TIME                 CLASS                                 ENA
2月 15 14:05:59.6423 ereport.io.pci.fabric                 0x0de8a42883700001
2月 15 14:05:59.6423 ereport.io.pciex.rc.ce-msg            0x0de8a42883700001
2月 15 14:37:48.0184 ereport.io.pci.fabric                 0x29ade56704100001
2月 15 14:37:48.0184 ereport.io.pci.fabric                 0x29ade56b65f00001
2月 15 14:37:48.0184 ereport.io.pciex.dl.btlp              0x29ade56704100001
2月 15 14:37:48.0184 ereport.io.pci.fabric                 0x29ade56d21600001
2月 15 14:37:48.0184 ereport.io.pciex.rc.ce-msg            0x29ade56704100001
2月 15 14:37:48.0184 ereport.io.pciex.rc.mce-msg           0x29ade56704100001
2月 15 14:37:48.0184 ereport.io.pciex.correctable          0x29ade56b65f00001
2月 15 14:37:48.0184 ereport.io.pciex.rc.ce-msg            0x29ade56b65f00001
2月 15 14:37:48.0184 ereport.io.pciex.correctable          0x29ade56d21600001
2月 15 14:37:48.0184 ereport.io.pciex.rc.ce-msg            0x29ade56d21600001
2月 15 14:46:48.0668 ereport.io.pci.fabric                 0x3189bbb952900001
2月 15 14:46:48.0668 ereport.io.pciex.rc.ce-msg            0x3189bbb952900001
2月 15 15:49:32.9292 ereport.io.pci.fabric                 0x6852f04046800001
2月 15 15:49:32.9292 ereport.io.pciex.rc.ce-msg            0x6852f04046800001
2月 15 20:47:17.7207 ereport.io.pci.fabric                 0x6c4a7914ca400001
2月 15 20:47:17.7207 ereport.io.pciex.rc.ce-msg            0x6c4a7914ca400001
2月 15 21:00:16.0147 ereport.io.pci.fabric                 0x779dd82581400001
2月 15 21:00:16.0147 ereport.io.pciex.rc.ce-msg            0x779dd82581400001
2月 15 21:13:25.4312 ereport.io.pci.fabric                 0x831aa65ccba00001
2月 15 21:13:25.4312 ereport.io.pciex.rc.ce-msg            0x831aa65ccba00001
2月 15 21:15:05.3139 ereport.io.pci.fabric                 0x848ebdec02100001
2月 15 21:15:05.3139 ereport.io.pciex.rc.ce-msg            0x848ebdec02100001
2月 15 21:16:31.2019 ereport.io.pci.fabric                 0x85ceb32335100001
2月 15 21:16:31.2019 ereport.io.pciex.rc.ce-msg            0x85ceb32335100001
2月 15 21:29:11.3232 ereport.io.pci.fabric                 0x90de5f429d100001
2月 15 21:29:11.3232 ereport.io.pciex.rc.ce-msg            0x90de5f429d100001
2月 15 21:35:18.9400 ereport.io.pci.fabric                 0x9637d9f14b900001
2月 15 21:35:18.9400 ereport.io.pciex.rc.ce-msg            0x9637d9f14b900001
2月 15 21:40:04.6094 ereport.io.pci.fabric                 0x9a600d8d01200001
2月 15 21:40:04.6094 ereport.io.pciex.rc.ce-msg            0x9a600d8d01200001
2月 15 21:44:53.9714 ereport.io.pci.fabric                 0x9e9602a59ab00001
2月 15 21:44:53.9714 ereport.io.pciex.rc.ce-msg            0x9e9602a59ab00001
2月 15 21:46:20.4595 ereport.io.pci.fabric                 0x9fd83418b2400001
2月 15 21:46:20.4595 ereport.io.pciex.rc.ce-msg            0x9fd83418b2400001
2月 15 21:47:33.4692 ereport.io.pci.fabric                 0xa0e82f8d1b700001
2月 15 21:47:33.4692 ereport.io.pciex.rc.ce-msg            0xa0e82f8d1b700001
2月 15 21:47:39.6889 ereport.io.pci.fabric                 0xa0ff5b2b0f400001
2月 15 21:47:39.6889 ereport.io.pciex.rc.ce-msg            0xa0ff5b2b0f400001
2月 15 21:47:56.1563 ereport.io.pci.fabric                 0xa13cb3b76e300001
2月 15 21:47:56.1563 ereport.io.pciex.rc.ce-msg            0xa13cb3b76e300001
2月 15 21:47:56.8468 ereport.io.pci.fabric                 0xa13f463716f00001
2月 15 21:47:56.8468 ereport.io.pciex.rc.ce-msg            0xa13f463716f00001
2月 15 21:51:01.9469 ereport.io.pci.fabric                 0xa3f0d376a5000001
2月 15 21:51:01.9469 ereport.io.pciex.rc.ce-msg            0xa3f0d376a5000001
2月 15 21:51:12.2268 ereport.io.pci.fabric                 0xa4171f1411700001
2月 15 21:51:12.2268 ereport.io.pciex.rc.ce-msg            0xa4171f1411700001
2月 15 21:53:43.6022 ereport.io.pci.fabric                 0xa64b09e338600001
2月 15 21:53:43.6022 ereport.io.pciex.rc.ce-msg            0xa64b09e338600001

论坛徽章:
0
发表于 2012-02-17 19:41 |显示全部楼层
谢谢zzsg提醒我用fmdump -v -u <event_id>查看;

今天去试了下,内容如下,大家帮帮忙分析下:

cps@sac1>fmdump
TIME                 UUID                                 SUNW-MSG-ID
10月 10 11:27:50.5468 d9f3d893-497d-6aa0-f698-fe0358d5b1d3 SUNOS-8000-FU
12月 22 18:02:22.2472 f06c9a2b-bc38-efae-c624-aecd1601ae82 PCIEX-8000-KP
cps@sac1>fmdump -v -u f06c9a2b-bc38-efae-c624-aecd1601ae82
TIME                 UUID                                 SUNW-MSG-ID
12月 22 18:02:22.2472 f06c9a2b-bc38-efae-c624-aecd1601ae82 PCIEX-8000-KP
   29%  fault.io.pciex.device-interr-corr

        Problem in: hc://:product-id=PowerEdge-R310:server-id=sac1:chassis-id=CX
2F43X/motherboard=0/hostbridge=1/pciexrc=1/pciexbus=4/pciexdev=0/pciexfn=1
           Affects: dev:////pci@0,0/pci8086,d138@3/pci1462,1833@0,1
               FRU: hc://:product-id=PowerEdge-R310:server-id=sac1:chassis-id=CX
2F43X/motherboard=0/hostbridge=1/pciexrc=1/pciexbus=4/pciexdev=0
          Location: PCIE1

   29%  fault.io.pciex.device-interr-corr

        Problem in: hc://:product-id=PowerEdge-R310:server-id=sac1:chassis-id=CX
2F43X/motherboard=0/hostbridge=1/pciexrc=1/pciexbus=4/pciexdev=0/pciexfn=0
           Affects: dev:////pci@0,0/pci8086,d138@3/display@0
               FRU: hc://:product-id=PowerEdge-R310:server-id=sac1:chassis-id=CX
2F43X/motherboard=0/hostbridge=1/pciexrc=1/pciexbus=4/pciexdev=0
          Location: PCIE1

   14%  fault.io.pciex.device-interr-corr

        Problem in: hc://:product-id=PowerEdge-R310:server-id=sac1:chassis-id=CX
2F43X/motherboard=0/hostbridge=1/pciexrc=1
           Affects: dev:////pci@0,0/pci8086,d138@3
               FRU: hc://:product-id=PowerEdge-R310:server-id=sac1:chassis-id=CX
2F43X/motherboard=0
          Location: MB

   14%  fault.io.pciex.bus-linkerr-corr

        Problem in: hc://:product-id=PowerEdge-R310:server-id=sac1:chassis-id=CX
2F43X/motherboard=0/hostbridge=1/pciexrc=1/pciexbus=4/pciexdev=0/pciexfn=1
           Affects: dev:////pci@0,0/pci8086,d138@3/pci1462,1833@0,1
               FRU: hc://:product-id=PowerEdge-R310:server-id=sac1:chassis-id=CX
2F43X/motherboard=0/hostbridge=1/pciexrc=1/pciexbus=4/pciexdev=0
          Location: PCIE1

   14%  fault.io.pciex.bus-linkerr-corr

        Problem in: hc://:product-id=PowerEdge-R310:server-id=sac1:chassis-id=CX
2F43X/motherboard=0/hostbridge=1/pciexrc=1/pciexbus=4/pciexdev=0/pciexfn=0
           Affects: dev:////pci@0,0/pci8086,d138@3/display@0
               FRU: hc://:product-id=PowerEdge-R310:server-id=sac1:chassis-id=CX
2F43X/motherboard=0/hostbridge=1/pciexrc=1/pciexbus=4/pciexdev=0
          Location: PCIE1

论坛徽章:
0
发表于 2012-02-20 19:57 |显示全部楼层
今天去现场看了下,问题还没解决;在网上找不到相关资料;这方面没人能帮下忙么,大虾们指点下,万分感谢呀;

fmdump -m 如下:
cps@sac1>fmdump -m
SUNW-MSG-ID: SUNOS-8000-FU, TYPE: Defect, VER: 1, SEVERITY: Major
EVENT-TIME: Mon Oct 10 11:27:50 GMT 2011
PLATFORM: PowerEdge-R310, CSN: CX2F43X, HOSTNAME: sac1
SOURCE: eft, REV: 1.16
EVENT-ID: d9f3d893-497d-6aa0-f698-fe0358d5b1d3
DESC: The diagnosis engine encountered telemetry for which it was unable to perf
orm a diagnosis.  Refer to http://sun.com/msg/SUNOS-8000-FU for more information
.
AUTO-RESPONSE: Error reports have been logged for examination by Sun.
IMPACT: Automated diagnosis and response for these events will not occur.
REC-ACTION: Ensure that the latest Solaris Kernel and Predictive Self-Healing (P
SH) patches are installed.

SUNW-MSG-ID: PCIEX-8000-KP, TYPE: Fault, VER: 1, SEVERITY: Major
EVENT-TIME: Thu Dec 22 18:02:22 GMT 2011
PLATFORM: PowerEdge-R310, CSN: CX2F43X, HOSTNAME: sac1
SOURCE: eft, REV: 1.16
EVENT-ID: f06c9a2b-bc38-efae-c624-aecd1601ae82
DESC: Too many recovered bus errors have been detected, which indicates a proble
m with the specified bus or with the specified transmitting device. This may deg
rade into an unrecoverable fault.
  Refer to http://sun.com/msg/PCIEX-8000-KP for more information.
AUTO-RESPONSE: One or more device instances may be disabled
IMPACT: Loss of services provided by the device instances associated with this f
ault
REC-ACTION: If a plug-in card is involved check for badly-seated cards or bent p
ins. Otherwise schedule a repair procedure to replace the affected device.  Use
fmadm faulty to identify the device or contact Sun for support.

论坛徽章:
0
发表于 2012-02-21 07:03 |显示全部楼层
报错显示的是PCI-E设备有问题
        Problem in: hc://:product-id=PowerEdge-R310:server-id=sac1:chassis-id=CX
2F43X/motherboard=0/hostbridge=1/pciexrc=1/pciexbus=4/pciexdev=0/pciexfn=1
           Affects: dev:////pci@0,0/pci8086,d138@3/pci1462,1833@0,1
               FRU: hc://:product-id=PowerEdge-R310:server-id=sac1:chassis-id=CX
2F43X/motherboard=0/hostbridge=1/pciexrc=1/pciexbus=4/pciexdev=0
          Location: PCIE1
查看一下DELL服务器PCI-E1号插槽插了什么设备,试着重新插拔一下,如果故障依旧,需要更换这个设备。
如果插槽上没有任何设备,主板问题的可能性较大。

论坛徽章:
0
发表于 2012-02-21 09:40 |显示全部楼层
报了这么多错,直接更换PCIE1槽位设备吧

论坛徽章:
0
发表于 2012-02-21 10:22 |显示全部楼层
谢谢doging,Aaron811218;万分感谢;
现场机箱打开后,pci插槽部分只有内存条,怎样在机箱里看到某个插槽是PCIE1,它有标示么?

论坛徽章:
0
发表于 2012-02-21 13:02 |显示全部楼层
Aaron811218 ,谢谢你;我到现场了,打开机箱查看过了,pcie1插槽内没有插件;那是主板问题了么?
另现有dell服务器我装的是solaris,如装linux系统该问题能缓解么?

论坛徽章:
0
发表于 2012-02-21 13:08 |显示全部楼层
还有我做过实验,如不插网线;errlog文件就不会增长;现场也出现过服务器网络通信异常,切该现象出现时候,errlog文件把var分区填满;
服务器网卡我查看了下是主板集成网卡。。。那是不是最大的怀疑对象就是主板集成网卡出错了?

论坛徽章:
0
发表于 2012-02-22 01:23 |显示全部楼层
主板问题的可能性非常大。solairs 10的自我诊断功能很强大,如果换成linux,可能会正常运行。因为两种操作系统的诊断机制是不同的。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP