免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2191 | 回复: 0
打印 上一主题 下一主题

探索 SDMC:第 9 部分: 对 Power 服务器的故障管理 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2012-01-19 09:59 |只看该作者 |倒序浏览
引言
SDMC(Systems Director Management Console),作为 IBM 的新一代的 Power System 的管理工具,将会完全取代 HMC/IVM,实现对 Power 服务器(包括机架服务器和刀片服务器)的集中管理。而对 Power 服务器的硬件监控和故障管理,SDMC 采用了 SSM(Service and Support Manager)和自动化计划,完全取代了原先 HMC 的故障管理方式,实现了全新的自动报修和故障响应机制。本文将通过实例详细介绍如何使用这种全新方式对 Power 服务器进行硬件监控、自动报修和自动化响应。

SDMC 对 Power 服务器的故障管理机制
SDMC 对 Power 服务器的故障管理机制的简单介绍
与传统的 HMC 相比,SDMC 既可以对 Power 服务器的 Serviceable 故障进行实时监控和自动报修,也可以使用自动化计划对这些故障采取自动化的响应机制,以帮助系统管理员轻松实现硬件故障管理。而这一功能的实现,正是由于 SDMC 扩展使用了 Systems Director 的故障管理组件和 SSM 的高级管理组件。
SDMC 实时地监控所有 Power 服务器的硬件故障,定制自动化计划任务对特定的故障进行自动化处理。而 SSM 集成了 ESA(Electronic Service Agent)工具,一旦发现有 Serviceable 的硬件故障,就从 Power 服务器中自动收集相关的服务支持日志文件,以服务请求(Service Request)的形式自动提交到 IBM 客户支持中心。同时,用户可以定制自动化计划发送邮件通知 Power 服务器管理员。在 IBM 客户支持中心服务人员收到服务请求后,会根据相应的机器信息和联系方式及时电话联系 Power System 管理员并提供相应的客户支持和保修服务。
SDMC 对 Power 服务器的故障管理机制的流程图
图 1 就是是 Power 服务器的故障管理机制的流程图。

图 1. SDMC 对 Power 服务器的故障管理机制流程图

对于被 SDMC 监控的 Power 服务器,无论发生任何硬件故障,都会被 SDMC 实时地捕获并记录到 SDMC 的事件日志中去,也就是是最上面的分支。同时,如果用户针对一些专门的硬件故障设置了专门的自动化计划任务,那么 SDMC 将根据故障类别进行过滤,按照用户的要求自动触发专门的自动化任务。而本文重点讨论的是第三种情况,也就是图 1 红框所包围的区域,SDMC 使用 SSM 组件对 Serviceable 硬件故障的处理机制。
SDMC 根据用户的设置自动收集硬件日志文件,创建和提交服务请求到 IBM 客户支持中心自动报修。通过这种自动化的报修和响应机制,客户支持工程师可以在故障发生的第一时间得到有用的故障信息,有利于缩短发现和修复故障的周期,加速故障处理。下面的章节中,我们将以实例来对 SDMC 的这一全新功能进行介绍。
SDMC 对 Power 服务器 Serviceable 故障管理的特点
基于 SSM 的特点,SDMC 对 Power 服务器的 Serviceable 故障管理具有以下特点:
  • 根据用户要求自动监控 Power 服务器的硬件故障,收集故障服务器的日志文件,并自动发送到 IBM 客户支持中心,提交服务请求。
  • 通过 ESA 工具,收集故障信息数据并进行安全传输,通过加密和认证的方法来保证数据传输的安全可靠。
  • 除了自动提交地故障数据之外,根据 Power 服务器的类别不同,收集一些额外的服务器数据文件并手动提交到客户支持中心。

使用 SDMC 对 Serviceable 的硬件故障的实时监控和处理
对 Power System 管理员来说,通过系统发现把 Power 服务器(机架服务器和刀片服务器)加入到 SDMC 管理环境,SDMC 就会自动开始对这些服务器实时地监控,并可以为专门的硬件故障设定自动的计划任务;但缺省配置下,SDMC 对 Serviceable 的故障并不进行自动处理,如果管理员想要实现自动的故障日志收集和自动报修,就需要启动 SDMC 的 SSM 管理功能。
启动 SDMC 的 SSM 功能对 Power 服务器进行实时监控
要启动 SDMC 的 SSM 功能,需要通过启动向导配置一些需要的信息。
首先,打开 SDMC 的 Setting 页面,点击在 Serviceability Task 下面的 Getting Started Wizard 链接,如图 2 所示,进入启动向导。

图 2. 从 SDMC 配置界面打开 SSM 启动向导

如下图 3、图 4 所示,在联系人和服务器位置页面,根据实际情况,填下公司名称、联系人电话、邮件以及服务器位置信息,对于没有星号标注的可忽略不填。IBM 客户支持中心将根据这些信息和管理员取得联系,确认提交的服务请求,安排技术支持进行服务器故障排除和维修。

图 3. 输入联系人信息


图 4.输入服务器位置信息

在接下来的网络连接页面,可以选用直接(或者代理方式)连接,通过运行 Test Connection 以确认和 IBM 支持中心连接正常。

图 5. SDMC 使用的网络连接信息

Authorized IBM IDs 页面,提供用于访问服务请求的 ID 信息,完成启动向导后,SDMC 的 SSM 功能就被成功激活。 现在,SDMC 开始实时监控所有管理的 Power 服务器,对发生的 Serviceable 的硬件故障自动收集故障日志和提交报修服务请求。
使用 SDMC 修改 SSM 配置信息
从 SDMC 欢迎页面打开 Manage 页面,可以确认 SSM 的当前状态,点击 Service And Support Manager 链接,可以进入它的概览页面,如图 6 所示。

图 6. SDMC 的 SSM 概览页面

使用 SDMC 对 Power 服务器 Serviceable 故障处理,基本上可以从这个页面开始。这个页面分为三部分,分别是 Problem ReportingStatusSetup and Configuration
最上面的 Problem Reporting 部分图形化地给出当前管理的 Power 服务器 Serviceable 故障概况, Status 部分显示出 SSM 当前的工作状态,Setup and Configuration 部分提供了任务菜单以修改 SSM 的一些配置信息。
首先,我们使用 Setup and Configuration 下的任务 Manage Settings 先看一下 SSM 的一些配置信息。如图 7 所示,在启动 SSM 之后,缺省情况下 SDMC 会对所有管理的 Power 服务器进行实时监控,并自动报修 Serviceable 的硬件故障。

图 7. 在 SDMC 上管理 SSM 的设置

实际上,系统管理员也可以通过修改 SSM 配置,取消特定(或所有服务器)自动报修服务,如选取上图中红框所示区域选项,在此情况下,系统管理员就需要根据实际情况对 Serviceable 的硬件故障手工收集故障日志,进行报修。
使用 SDMC 的 SSM 管理和查看 Serviceable 故障
使用 SSM 概览页面最上面的 Problem Reporting 部分,可以直观的了解当前 Power 服务器的 Serviceable 故障信息。它以饼图的形式直观的概括出当前 SDMC 所监控的 Power 服务器的故障情况,给出有故障的系统和工作正常的系统所占的比例和数目。其中黄色三角表示系统存在 Serviceable 故障,绿色方块表示系统工作正常。在概览页面,也会列出过去 24 小时内与 Serviceable 故障相关的活动信息。

图 8. SDMC 的 SSM 概览页面 - Problem Reporting

在这个页面还有 Serviceable ProblemsAll Problems 的链接,区别在于 All Problems 列表会包含所有的故障信息,包括 Serviceable 的故障和非 Serviceable 的故障。
通过点击 Serviceable Problems 链接,可以浏览当前 SDMC 监控的 Power 服务器 Serviceable 故障描述及其详细信息。

图 9. SDMC 的 Serviceable 故障列表

正常情况下,SDMC 会对这些 Serviceable 故障自动收集日志并提交报修请求,但也会发生自动报修失败的情况(或者管理员设置对 Power 服务器的 serviceable 故障不采取自动报修),这时使用故障右键菜单 Submit to IBM 任务允许管理员再次手工创建并提交服务请求,参见下图 10。

图 10. 手工提交 Serviceable 故障到 IBM 支持中心

点击列表中任意故障可以看到该故障的详细信息,包括提交的服务请求(Service),推荐的修复方法(Recommendation),收集的故障日志(Support Files)等。

图 11. Serviceable 故障的服务信息

Service 页面,可以看到对这一故障的概括,包括提交的服务请求的编号,故障状态和服务请求的状态,以及故障发生的次数等信息。为了避免发送重复的服务请求,SDMC 做了这样的设计,如果在 24 小时内收到多次相同的 Serviceable 故障,那么只会记录发生的次数,不会提交多次服务请求。
这里还需要注意的是服务请求的状态(Service Status),通常情况下,当 Power 服务器故障解决之后,服务请求不会自动关闭,需要管理员通过故障 Action 菜单下 Close Service Request 任务请求关闭,参见上图。关闭后的 Serviceable 故障不会从故障列表中消失,管理员必须手工把它从列表中删除。
在下图的 Recommendation 页面,点击 Repair 按钮,SDMC 将根据这一硬件故障的情况提供一些维修建议和指导。

图 12. Serviceable 故障的维修指导

Support Files 页面,如图 13,提供了自动收集的故障日志文件信息,包括位置类型、状态等。正常情况下,当故障服务请求产生时,这些相关的故障日志文件也会自动上传到 IBM 客户支持中心。使用该页面提供的按钮项,可以对这些故障日志文件进行简单的管理。

图 13. Serviceable 故障的日志文件的提交

这里我们需要注意,实际上除了那些自动提交的故障日志信息外,系统管理员还可以针对不同的 Power 服务器手工收集一些支持的故障日志并传送到 IBM 客户支持中心,下面我们来看一下如何手工收集故障日志。
使用 SDMC 手工收集和管理 Power 服务器的故障日志文件
如下图所示,在 SDMC 上启动 SSM 功能后,被 SSM 监控的所有 Power 服务器会自动归类到 Monitored Systems 组中。

图 14. 被 SSM 监控的 Power System 列表

选取在此组中的任意服务器,通过右键点击 SSMSupport File 任务可以在打开的 Manage Support File 口查看所有与该服务器相关的故障日志文件,也可以定制收集不同类型的日志文件,参见图 15。

图 15. 对 Power 服务器查看并收集特定的故障日志文件

一般来说,根据 Power 服务器类型的不同,可选的日志文件类型也不尽相同,手工收集完成后,日志文件将会出现在上图列表中。选取任意日志文件,使用 Action 菜单下的不同任务,可以把该文件拷贝到光盘,或者传送到 IBM 客户支持中心。

图 16. 对 Power 服务器传送收集到故障日志文件到 IBM 客户支持中心

对于所有的故障日志文件,SDMC 一般会存放在系统 /dump 分区。由于该文件系统缺省大小为 120M,SDMC 会自动从系统清除超过 7 天的日志文件,同时,为了节省 SDMC 空间,建议用户在随时删除无用的日志文件。
前面的例子中我们介绍了如何使用 SDMC 的 SSM 功能监控处理 Serviceable 硬件故障,查看提交的故障服务请求,自动和手工收集和管理故障日志,这些基本功能的使用,非常有助于 Power 服务器故障的快速定位和维修。
结合使用自动化计划任务,可以做到一旦有严重的硬件故障发生,第一时间通知系统管理员采取快速地处理。

使用自动化计划对 Serviceable 硬件故障发送邮件通知
下面我们以发送邮件通知为例,实例说明如何在发生 Serviceable 硬件故障时使用自动化计划任务发送邮件通知给系统管理员。
在 SDMC 左侧导航栏中 Automation 相关的条目中,我们可以看到自动化计划相关的任务,包括自动化计划(Event Automation Plans)、事件响应(Event Actions)、事件过滤器(Event Filters)。
首先,我们需要创建发送邮件通知的事件响应。
打开 Event Action 页面, 点击 Create 按钮,在 Create Event Action 窗口中选取类型为 Send an e-mail (Internet SMTP), 如图 17 所示,弹出创建发送邮件通知的窗口,输入邮箱地址,邮件服务器,端口信息等必要信息,并保存该自动化响应名字为 Email_notification。

图 17. 创建发送邮件通知的自动化响应

然后,我们创建自动化计划对所有被监控的 Power 服务器进行实时监控,当有 Serviceable 的故障出现时,自动发送邮件通知。在Event Automation Plans 页面点击 Create 按钮打开自动化计划创建向导,如图 18 所示。

图 18. 创建自动化计划任务

Target 页面选取 All Systems ,对所有被管理的 Power 服务器进行实时监控;
Events 页面选取 Advanced Event Filters 下的 Electronic Service Requests
Event Actions 页面选取前面创建的发送邮件通知的事件响应 Email_notification;
其余页面使用缺省值,保存该自动化计划名字为 notification。

图 19. 自动化计划任务实时监控 Power 服务器上 Serviceable 故障

创建完成的自动化计划出现在上图列表中,SDMC 开始(24x7)实时地监控所有 Power 服务器,在 Serviceable 故障发生时自动发送邮件通知给系统管理员。

总结
新一代的 Power System 管理工具,SDMC 取代了 HMC/IVM 提供了实现对 Power 服务器的统一管理。依托于 Systems Director 的强大功能,SDMC 扩展使用了 SSM 功能,对 Power 服务器的硬件故障,自动日志收集和提交报修服务请求,大大缩短了硬件故障的检修周期,结合利用自动化计划可以加快故障处理速度,以帮助数据中心系统管理员实现对数据中心的 Power 服务器实时监控和有效管理。

作者简介
李永超,CSTL 软件工程师 , 长期从事 Director 测试工作,目前主要负责 Director6.1 的 Automation Manager 和 Base Management Server 功能测试和系统测试工作。

姜涛,IBM 中国系统与科技研发中心软件工程师, 一直从事 Director 功能测试和系统环境维护,目前主要负责 SDMC 的功能测试和系统测试,以及 Director 高级管理插件 VMC 在 Power 服务器上的系统验证测试。

倪兴荣,IBM 中国系统与科技研发中心软件工程师, 目前主要负责 SDMC 的功能测试和系统测试,以及 Director 高级管理插件 VMC 在 Power 服务器上的系统验证测试。




http://www.ibm.com/developerworks/cn/aix/library/1111_liyc_sdmc9/index.html

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP