免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2715 | 回复: 1
打印 上一主题 下一主题

[小机硬件] IBM p5 590/595的RAS分析 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2006-11-15 09:22 |只看该作者 |倒序浏览
IBM p5 590/595的RAS分析
东莞市农村信用合作联社科技管理部 陆成新
        IBM给开放式系统RS/6000命名为p系列,其中p取自于单词Perfomance,说明p系列机器是最看重计算性能的,p系列服务器也更多地被认为计算服务器。但如今,p系列也在一步步进入联机事务处理阵地,现在在其高端的p5 590及595中,特别加强了其可靠性、可用性、可服务性,三样特性分别取其第一个字母,合称为RAS。RAS确保系统能可靠运行,并在必要时能有效处理任何可能发生的故障。RAS能力是通过硬件以及AIX 5L操作系统共同取得的。
        RAS一般包含这样几层意思:
        · 用好的工程设计尽可能避免问题的发生
· 一旦问题发生了,试图恢复或重试操作
· 必要时能准确地诊断问题并重新配置系统
· 能自动启动修复并发起服务请求
一、        可靠性、容错及数据完整性
系统的可靠性贯穿于整个p5的设计与制造过程中。其设计的初衷就是将非计划停机降低到最低限度。
作为一款采用POWER5+处理器的服务器,p5-590及p5-595在POWER4处理器的基础上又有了加强。RAS的加强主要体现在:
· 大部分firmware更新可在系统不停机的情况下进行
· ECC已经扩充到了处理器之间的连接
· 部分2级cache的取消分配已成为可能
· L3 Cache Line Delete的数目从2改进到10,使系统有更好的自我修复能力
1、故障避免
        p5-590及p5-595服务器是在高质量的设计下建造的,其设计包含了这样一些特性:
· 功耗降低后,更低的操作温度也增强了系统的可靠性,这包括绝缘圭,铜连线等技术的使用
        · 借用了大机系统的部件及技术
        2、首次故障数据捕获(First Failure Data Capture,简写为FDDC)
        有问题发生时,是否能准确诊断就成为可用性的关键因素之一。p5-590及p5-595服务器在启动诊断以及运行时首次故障数据捕获方面,因在处理器内部构造了一些策略性的错误检查器,而使其拥有先进的能力。
        被常用错误检查器检测到的任何错误,都会捕获进故障孤立寄存器(Fault Isolation Register,简写为FIR),该寄存器被安排在服务处理器中。系统中的服务处理器可以通过专用端口访问系统部件,也可以访问该故障孤立寄存器来获取故障数据。
        FIR的作用很重要,因为这使系统可以采取恰当的行动,比如总线重试,ECC(Error Checking and Correcting)纠错,或系统firmware恢复例程。该恢复例程包括潜在故障部件的动态取消分配。
        错误被记录在系统的NVRAM以及服务处理器的事件历史日志中,同时把事件通报给AIX操作系统错误日志。操作系统的诊断错误日志分析程序(diagela)会分析该错误日志入口,并可能启动相应的动作,比如发布告警消息。如果该错误可以恢复,或是经过了恰当的维护后,服务处理器就会重置FIR,使其能准确地记录任何后面发生的错误。
        在做任何动态或永久地部件取消分配,甚至重新配置前,准确地诊断任何正要发生的或固有的错误都是非常关键的。
        3、永久监控
        p5-590及p5-595服务器含有的服务处理器,是作为系统诊断,检查状态以及感应远端系统的操作条件的中间手段设计的,它甚至在主处理器不能工作时仍能如此。
        · 服务处理器让系统可以做firmware及操作系统监控,远程电源控制,环境监控,重启,引导特性,远程维护以及诊断行为等。
        · 服务处理器能通过发布呼叫报告监督故障,重要环境故障,以及重要的处理故障。
        (1)相互监督
        服务处理器在引导过程中能监控firmware的操作,也能监控到操作系统是否失去控制。这使服务处理器可以采取适当的行动,比如在检测到firmware或操作系统失去控制时发起服务请求,使系统能获得适当的服务。互相监督还使操作系统可以监控服务处理器行为,并在必要时请求一次服务处理器的修复操作。
        (2)环境监控
        环境监控关系到电源,风扇,以及周边温度,这都是通过SPCN(System Power Control Network,即系统电源控制网络)来完成的。环境的关键和非关键错误都会生成EPOW(Early Power-off Warning)事件。关键事件(比如失去主电源)会从硬件引发适当的信号给被影响的部件,以防止在没有操作系统或firmware干预下造成数据丢失。非关键环境事件只是被记录下来,并可通过Event Scan报告出来。
        EPOW事件可能会引发诸如下列这些动作:
        · 温度监控:当稳定超出了预置的操作范围时,会增加风扇的转速
· 温度监控会把潜在的环境问题报警给系统管理员。当操作温度超出某个重要关口时,它还会行使一种有序的系统关机
· 当电压超出了操作规范时,电压监控会告警,并行使一种有序的系统关机
4、自我修复
对一个具有自我修复能力的系统,它必须能通过检测并孤立失效部件,让其脱机,修复或孤立之,然后重新引入固定或替换部件而使系统从故障部件恢复,所有这些操作全都是在不中断应用操作的情况下完成的。这包括:
· Bit steering实现内存的冗余,使得有故障的内存模块出现时,服务器仍能工作
· Bit Scattering,用于纠错,并使系统在有整块芯片失败时仍能继续工作
· 从处理器接收到cache芯片上的数据也有ECC,这保护了处理器到cache之间的接口。
· 处理器接收接口上有ECC,保护了从cache接收到处理器的数据
· 从eDRAM中读出的数据上有ECC
· L3 Cache Line Delete从2扩展到10以获得额外的自我修复能力
· ECC扩展到了芯片之间的连接
· 内存擦除(Memory scrubbing)有助于防止内存故障的软错误
(1)内存可靠性、容错以及完整性
p5-590及p5-595采用了ECC电路给系统内存纠正一位错并可以检测到双位内存故障。双位内存故障的检测有助于维护数据的完整性。更神奇的是,它的内存芯片的排列还使得任何内存模块上的故障都只影响到长度为4位的ECC字(bit scattering)中的一位,因此让系统即使有一个内存芯片出现故障时仍能够纠正并继续工作。这种内存的DIMM还采用了内存擦除及门限来决定什么时候用空余的内存模块来替换那些错误数超出了门限的内存模块。内存擦除是指系统在空闲时间,读取内存中的内容,并把数据传送到ECC逻辑以检查一位错。这是内存控制器中的一项硬件功能,因此不会影响正常的系统内存性能。
        5、N+1冗余
        冗余部件的使用,使p5-590及p5-595拥有更高的可用性:
        · 在L1,L2,L3高速缓存及主存中均有冗余的空余内存位
· 冗余风扇
· 冗余服务处理器(可选)
· 冗余电源
· 冗余系统时钟
6、故障屏蔽
如果纠错或重试获得成功,而且没超出门限的限制,系统仍然会用全部资源来工作,并且不需要任何干预
· CEC总线重试与恢复
· PCI-X总线恢复
· ECC Chipkill 软错误
7、资源取消分配
如果可恢复错误超出了门限的限制,资源可以在取消分配后使系统仍保持工作,这使系统维护可以延缓到一个方便的时间。
(1)动态或永久取消分配
潜在故障部件的动态取消分配是非中断性的,即它可在不中断系统正常运行下进行。一个失效部件被检测到后取消分配了,那么在下次重启时就会对它永久地取消分配。
动态取消分配包括对:
· 处理器
· L3 cache line delete
· 部分L2高速缓存的取消分配
· PCI-X总线和槽
对于动态的处理器取消分配,服务处理器会基于已经记录下来的任何可恢复处理器错误,做一个预言性的故障分析。如果这些间歇性错误超出了某个事先定义的门限,该事件就会被日志,而该处理器也会从系统中取消分配,而操作系统仍然继续运行。该特性(被取名为CPU Guard)使维护可以延缓到一个合适的时间。处理器取消分配只有在有足够的处理器(至少2个)时才可以做。
验证CPU Guard是否被启用,运行下面的命令:
lsattr -El sys0 |grep cpuguard
如果系统启用了,输出就会类似成这样子:
cpuguard        enable        CPU Guard        True
如果输出显示CPU Guard是被禁用的,用下面的命令启用它:
chdev –l sys0 –a cpuguard=’enable’
Cache或cache-line的取消分配,旨在进行动态的重新配置,以避开潜在的故障部件。该项能力在L2和L3 cache中都提供了。如果L1或L2恢复错误超出了某个门限,系统提供了动态的运行时重新配置。
PCI-X热插拔插槽的故障跟踪,有助于防止系统在插槽出现错误时产生machine check中断(要知道在通常的UNIX类系统中,该中断是会引起系统重启的),并造成机器的重启。它会形成最好的故障孤立,使错误仅仅影响到一个适配器。故障适配器造成的PCI总线上的运行时错误,也会导致恢复动作。如果恢复还不成功,则该PCI设备将会平滑地关闭。PCI总线自身的奇偶错会导致总线重试,而且如果未得到纠正的话,该总线以及该总线上的任何适配器或设备都会被取消配置。
如果PCI-X适配器支持的话,p5-590及p5-595还支持PCI Extended Error Handling(EEH)。在过去,PCI总线的奇偶错会产生一个全局的machine check中断,只有让系统重启后才可能继续工作。在p5-590及p5-595中,硬件,系统firmware以及AIX 5L已经允许间歇性PCI总线奇偶错误能透明地恢复,并在PCI总线上出现永久的奇偶错时能平滑地将可用状态传递给其I/O设备。
拥有EEH能力的适配器通过调用系统firmware回应一个特别的数据包,系统会因此检查被影响的总线,允许设备驱动程序重置,因此使系统不重启的情况下继续运行。
永久取消分配功能包括:
· 处理器
· 内存
· 取消配置或旁路故障I/O适配器
· L3 Cache
按照已经被服务处理器标出的硬件错误,随后的系统重启将引出更大范围的诊断。如果某个处理器或L3 Cache已经被永久处理器取消分配标记为取消配置,引导过程将会着手完成该故障设备的动态取消配置。在该引导过程中,故障I/O适配器将会被取消配置或旁路。
二、可服务性
        作为高端服务器,p5-590及p5-595都被认为是要让IBM服务代表去安装和配置的。p5-590及p5-595的可服务特性主要包括:
        · p5-590及p5-595服务器的服务处理器使得系统可以进行自行分析,而不需要重启。
        · 一经安装,Online Diagnostics就同AIX 5L驻留在磁盘或系统中。它们可被引导成单用户模式(服务模式),运行在维护模式,或与其他应用并发运行(并发模式)。它们会访问AIX 5L的错误日志以及AIX 5L配置数据。
                - 服务模式下,检查系统设备及特性
                - 并发模式下,所选资源被检查的同时,其它功能将正常使用
                - 维护模式下,将检查大多数系统资源
· SMS(System Management Services)错误日志可从SMS菜单访问,。对于服务处理器测试结果,从服务处理器菜单中访问该错误日志。
1、并发维护
并发维护让服务人员在系统正常运行时能够替换下列部件:
· I/O抽屉
· 系统时钟
· 磁盘
· 风扇
· 电源子系统
· PCI-X适配器卡
· 操作面板(需要HMC指导支持)


作者通讯地址:东莞市旗峰路2号东莞农信科技管理部
邮政编码:523007

论坛徽章:
0
2 [报告]
发表于 2012-07-04 01:01 |只看该作者
谢谢,有些作用,)))
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP