免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3819 | 回复: 0
打印 上一主题 下一主题

IBM Systems Director 在 AIX 上的常见问题及解决方法 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2012-01-19 17:29 |只看该作者 |倒序浏览
本文将介绍 IBM Systems Director 在 AIX 上遇到的一些常见问题进行概述,并提供相应的解决方法。具体来说包括:
  • 介绍 IBM Systems Director 在 AIX 安装前需要进行的系统检查。
  • 介绍 IBM Systems Director 在 AIX 上安装过程中的常见问题以及解决方法。
  • 介绍 IBM Systems Director 在 AIX 上使用过程中的常见问题以及解决方法。


安装前的系统检查
本部分主要是对 IBM Systems Director 在 AIX 上安装前的系统的一些常见的检查和对系统的常见的软件的依赖关系进行描述概括,减少用户因为系统配置的原因而造成的安装的失败。
安装系统前,确保系统配置符合要求,可以通过以下步骤来检查系统:
  • 确保系统的硬件和软件配置符合要求(包括安全,网络等设置)。通过下面命令来检查操作系统级别,返回值应该是类似 5300-06-04-nnn 格式的字符串,nnn 并不相关。
    oslevel -s
  • 可选:必要情况下,下载系统更新。可以到 IBM Fix Central 网站下载 AIX 操作系统更新。
  • 确保安装了如下版本的 openssl 和 openssh:
    • openssl.base 0.9.8.4 或者更高版本。
    • 如果安装了 openssh.base.server,则要 4.5.0.5301 或者更高版本。
  • 确保安装了以下 RPM 包:
    • bash-3.2-1
    • expect-5.42.1-1
    • tcl-8.4.7-1
    • tk-8.4.7-1
  • 确保如下安装文件不会与系统其他文件有冲突:
    • sysmgt.cim.providers 1.2.7.35
    • sysmgt.cim.smisproviders 1.2.0.35
    • sysmgt.cimserver.pegasus 2.6.1.35
    • ICU4C.rte 5.3.0.60 (only AIX 5.3 systems)
    • xlC.aix50 9.0.0.0 (only AIX 5.3 systems)
    • xlC.rte 9.0.0.0 (only AIX 5.3 systems)
  • 确保 IBM Systems Director 所要使用的 tcp 端口没有被占用。


安装的常见问题与解决方法
本部分主要是对 IBM Systems Director 在 AIX 因为系统配置造成的一些安装的常见问题进行概述,并提供相应的解决办法。
1. 安装过程中 openssl 版本冲突
IBM Systems Director 的安装包安装了 installp 版本的 openssl 文件集,与 AIX 系统上的 rpm 版本的 openssl 文件集可能有冲突。假如某些应用需要 rpm 版本的 openssl 文件集,可能会出现如下消息:
# ssh  
exec(): 0509-036 Cannot load program ssh because of the following errors:  
0509-150 Dependent module /usr/lib/libcrypto.a(libcrypto.so.0.9.7) could not be loaded.  
0509-152 Member libcrypto.so.0.9.7 is not found in archive.

解决方法:
实际上 installp 版本的 openssl 和 rpm 版本 openssl 可以共存在一个系统上。将 installp 版本的安装到 /usr/lib,rpm 版本的安装到 /usr/linux/lib。然后可以通过设置 LIBPATH 来指定应用程序使用 rpm 版本的 openssl,如下:
#export LIBPATH=/usr/linux/libLIBPATH;


2. Director.DirectorCimCore 5.20.3 安装失败
在安装 IBM Systems Director 过程中,发生以下错误:
loading default handlers and subscriptions...  

failed to load default handlers and subscriptions.  
instal:  Failed while executing the ./IBM.Director.DirectorCimCore.post_i script.  

0503-464 installp:  The installation has FAILED for the "usr" part
          of the following filesets:
          Director.DirectorCimCore 5.20.3
          installp:  Cleaning up software for:
          Director.DirectorCimCore 5.20.3

解决方法:
按照下面的步骤进行解决:
  • 通过 lssrc -t cimserver 检查 cimserver 是否正常运行
  • 如果 cimserver 没有运行,运行 startsrc -t cimserver
  • 通过 cimsubscribe 来检查 handlers, filters, 或者 subscriptions 是否已经存在:
    /opt/ibm/icc/cimom/bin/cimsubscribe -n root/cimv2 -lh  
    /opt/ibm/icc/cimom/bin/cimsubscribe -n root/cimv2 -lf  
    /opt/ibm/icc/cimom/bin/cimsubscribe -n root/cimv2 -ls
  • 如果 handlers, filters, 或者 subscriptions 已经存在,通过下面的命令删除他们:
    /opt/ibm/icc/cimom/bin/cimsubscribe -n root/cimv2 -ds -fn HWEvent -hn TEC  
    /opt/ibm/icc/cimom/bin/cimsubscribe -n root/cimv2 -ds -fn HWEvent -hn Health
    /opt/ibm/icc/cimom/bin/cimsubscribe -n root/cimv2 -ds -fn HWEvent -hn SNMP  
    /opt/ibm/icc/cimom/bin/cimsubscribe -n root/cimv2 -df -fn HWEvent  
    /opt/ibm/icc/cimom/bin/cimsubscribe -n root/cimv2 -dh -hn TEC  
    /opt/ibm/icc/cimom/bin/cimsubscribe -n root/cimv2 -dh -hn Health  
    /opt/ibm/icc/cimom/bin/cimsubscribe -n root/cimv2 -dh -hn SNMP
  • 通过下面的步骤恢复 CIM repository 的备份:
    • 确认你想要恢复的 CIM repository 的备份。通过下面的命令可以列出所有的备份:
      ls /opt/freeware/cimom/pegasus/etc/repository.backup.*
    • 通过命令 stopsrc -t cimserver 停止 cimserver
    • 通过下面的命令恢复所选择的 CIM repository 的备份:
      cp -pRh /opt/freeware/cimom/pegasus/etc/repository.backup.date    /opt/freeware/cimom/pegasus/etc/repository

  • 重新进行安装。

3. 公共代理程序安装失败
默认情况下公共代理程序需要 9510, 9514 和 9515 端口。如果这些端口被占用,公共代理程序安装将会失败 , 比如 Tivoli Provisioning Manager 的所带的其他版本的 CAS 代理程序会占用这些端口。安装前可运行下列命令并检查端口是否已经被占用:
netstat -an | grep LISTEN | egrep "951(0|4|5)"

解决方法:
  • 首先更改 diragent.rsp 中的下面的配置来更改公共代理程序需要的端口:
    AgentPort=9510  
    AgentNonStopPort1=9514  
    AgentNonStopPort2=9515
  • 然后使用上面更改过的 diragent.rsp 重新安装公共代理程序:
    ./dir6.1_commonagent_linux.sh – r diragent.rsp


4 . /opt/ibm/director/bin/configAgtMgr.sh 出错
configAgtMgr.sh 脚本的作用是配置 IBM Systems Director 服务器的代理程序管理器,并且将 IBM Systems Director 服务器自带的公共代理程序注册到该代理程序管理器上。IBM Systems Director 服务器安装结束后,会提示用户运行该脚本后启动服务器。当用户运行该脚本时,可能最终出现下面的错误:
usmi-cas-setup.sh did not complete successfully.

解决方法:
  • 首先检查以下各个方面是否正常:
    • 通过运行 nslookup < 机器 IP> 和 hostname 去查看两者的机器名配置是否一致。如果不同,需要通过更改 hostname 和 DNS 的配置使得两者一样。
    • 如果运行 ifconfig -a 得到下面类似的结果:
      -bash-3.2# ifconfig -a|grep inet6
               inet6 ::1/0  
      -bash-3.2#

      那么将下面一行内容加入到 /etc/hosts 中
      ::1 loopback localhost

      同时在 /etc/netsvc.conf 中加入下面一行,确保在对地址进行解析时首先查询 /etc/hosts:
      hosts = local , bind
    • 通过下面的命令查询 Director 服务器的 slp 信息:
      -bash-3.2# cd /opt/freeware/cimom/pegasus/bin  
      -bash-3.2# ./slp_query --address=127.0.0.1 --type=*  
      0  
      8  
      33  
      URL: service:service-agent://10.1.0.12  
      URL: service:management-software.IBM:platform-agent://10.1.0.12  
      URL: service:management-software.IBM:director-server://              scenarioa12.scenario.netfinity.com  
      URL: service:AgentManager://10.1.0.12:9513  
      URL: service:TivoliCommonAgent://scenarioa12.scenario.netfinity.com:9510  
      URL: service:management-software.IBM:usma://scenarioa12.scenario.netfinity.com  
      URL: service:wbem:http://10.1.0.12:5988  
      URL: service:wbem:https://10.1.0.12:5989  -bash-3.2#

      确保 service:service-agent,service:TivoliCommonAgent 以及 service:management-software.IBM:usma 在输出中存在。如果不存在,按照下面的步骤尝试去修复问题:
      • 停止公共代理程序:
        /opt/ibm/director/agent/runtime/agent/bin/endpoint.sh stop
      • 停止 cimserver:
        /usr/bin/stopsrc -t cimserver
      • 停止 platform_agent:
        /usr/bin/stopsrc -s platform_agent
      • 停止 slp_srvreg:
        用命令 ps -e |grep -i slp_srvreg 查看进程号 , 然后用 kill 命令杀死该进程。
        -bash-3.2# ps -e|grep -i slp_srvreg  
        467136      -  6:45 slp_srvreg  
        -bash-3.2# kill -9 467136
      • 启动 platform_agent:
        /usr/bin/startsrc -s platform_agent
      • 启动 cimserver:
        /usr/bin/startsrc -t cimserver
      • 启动公共代理程序:
        /opt/ibm/director/agent/runtime/agent/bin/endpoint.sh start


  • 接着重新运行命令 /opt/ibm/director/bin/usmi-cas-setup.sh,该脚本的作用是将 IBM Systems Director 服务器自带的公共代理程序重新注册到默认的代理程序管理器上。


使用时的常见问题与解决方法
本部分主要是对 IBM Systems Director 在 AIX 的使用过程中的一些常见问题进行概述,并提供相应的解决办法。
1 .公共代理程序的协议发现错误
发现代理程序后,代理程序的管理节点的属性中协议中没有 CAS 协议。
解决方法:
通过下面的命令查询公共代理程序的 slp 信息:
-bash-3.2# pwd  
/opt/freeware/cimom/pegasus/bin  
-bash-3.2# ./slp_query --address=< 公共代理程序的 IP> --type=*  
0  
6  
36  
URL: service:service-agent://10.10.21.122  
URL: service:TivoliCommonAgent://netuv122:9510  
URL: service:management-software.IBM:usma://netuv122  
URL: service:wbem:http://10.10.21.122:5988  
URL: service:wbem:https://10.10.21.122:5989  
URL: service:management-software.IBM:platform-agent://10.10.21.122

确保 service:service-agent,service:TivoliCommonAgent 以及 service:management-software.IBM:usma 在输出中存在。
  • 如果存在,将管理节点从 web 控制台上删除,并重新发现。
  • 如果不存在,可以依次运行下面的步骤或者重启代理程序所在的机器尝试去修复问题:
    • 停止公共代理程序:
      /opt/ibm/director/agent/runtime/agent/bin/endpoint.sh stop
    • 停止 cimserver:
      /usr/bin/stopsrc -t cimserver
    • 停止 platform_agent:
      /usr/bin/stopsrc -s platform_agent
    • 停止 slp_srvreg:
      用命令 ps -e |grep -i slp_srvreg 查看进程号 , 然后用 kill 命令杀死该进程。
      -bash-3.2# ps -e|grep -i slp_srvreg  
      467136      -  6:45 slp_srvreg
      -bash-3.2# kill -9 467136
    • 启动 platform_agent:
      /usr/bin/startsrc -s platform_agent
    • 启动 cimserver:
      /usr/bin/startsrc -t cimserver
    • 启动公共代理程序:
      /opt/ibm/director/agent/runtime/agent/bin/endpoint.sh start
    • 将管理节点从 web 控制台上删除,并重新发现。


2. 公共代理程序无法获取访问控制权
对公共代理程序进行获取访问控制权操作时,最后显示“失败”。
解决方法:
公共代理程序无法获取访问控制权的情况可能由以下各种情况造成 :
  • 在服务器端使用下面的命令查看从 DNS 上获取的机器名和 agent 上配置的机器名是否一致,如果不同,要确保他们一致。
    nslookup < 公共代理程序的 IP>
  • 查看该公共代理程序是否已经被其他服务器管理。查看 /opt/ibm/director/agent/runtime/agent/config/endpoint.properties 里面的属性 unmanagedAgent 的值。如果为 false, 这说明它已经被某个服务器管理。因为公共代理程序只能同时被一个代理程序管理器管理,所以如果你确定要用目前这个服务器管理该公共代理程序,你需要运行以下命令后就可以通过正常流程获取访问控制权 :
    /opt/ibm/director/agent/runtime/agent/toolkit/bin/configure.sh – unmanaged – force
  • 查看服务器端和公共代理程序端所在的操作系统的系统时间,确保两者时间不超过 12 个小时。
  • 在服务器端运行命令 smcli getAgentManagers 或者从 web 控制台上“设置”-> “代理程序管理器配置”确认是否有活动的有效的代理程序管理器。如图所示:

    图 1. 查看代理程序管理器


3. Director 5.20 代理程序无法获取访问控制权
当 IBM Systems Director 服务器尝试去获取一台安装了 Director 5.20 代理程序的 AIX 系统的访问控制权时,尽管用户名和密码都是正取的,但是获取操作很快就失败。那是因为用于获取访问控制的用户名没有被授权,在 NativeUserGroupsAIX.prop 文件中的 priv.groups.SecMgr 属性定义了能够获取该代理程序的访问控制权的用户组。
解决方法:
  • 打开 /opt/ibm/director/data/NativeUserGroupsAIX.prop,读取预定义的 IBM Systems Director 的安全用户组。
  • 编辑 /etc/group 文件,将你将使用的用户名加入到一个上面所说的预定义的安全用户组中。比如,要将 root 用户加入到 dirsuper 用户组里面,你用下面的命令来实现这个操作:
    dirsupergroup:root

    其中 group 是 dirsuper 的 group id。
  • 编辑 /opt/ibm/director/data/NativeUserGroupsAIX.prop,将上述用户名加入的用户组加入到 priv.groups.SecMgr 中,格式如下:
    priv.groups.SecMgr=dirsuper
  • 使用 install_root/bin/twgstop 停止代理程序。
  • 使用 install_root/bin/twgstart 启动代理程序。

4. 无法加入一个管理模块或者 RSAII
当你想加入 BladeCenter 管理模块,高级管理模块或者 RSAII 时,提示:
Cannot Add BladeCenter Chassis or Cannot add device.


解决方法:
通过以下步骤来解决
  • 使用 RSA web 控制页面登陆到受影响的管理模块或者 RSAII。
  • 在左边菜单中,点击“Network Protocols”。
  • 确保 TCP Mode Command Protocol 起作用。如果它处于“disable” 状态,更改并重启管理模块或者 RSAII。

5. 使用更新管理器对公共代理程序进行更新失败
在使用更新管理器对公共代理程序进行更新时候,在任务管理的日志中遇到下面类似的错误:
ATKUPD783E An error occurred while updating "com.ibm.usmi.agent.coreagent.agent.feature_1.0.1" on system "IBM 8189 55C 99HW626".  
Error: CWPWS8461E: The message was expired:  
creation date of timestamp "2009-04-16T03:15:43.002Z", expiration date of timestamp
"2009-04-16T04:15:43.002Z",and machine's current date "2009-04-16T08:07:53.534Z".


解决方法:
同步服务器端和公共代理程序端所在的操作系统的系统时间 , 确保两者的时间不超过 1 小时。
6. 没有针对公共代理程序的更新
没有针对公共代理程序的管理节点的更新包显示在 web 控制台上,如图:

图 2. 显示需要的更新包

解决方法:
确保服务器已经获取了最新的更新包,并且该公共代理程序的清单已经收集。
7. 因为版本问题导致收集清单失败
当服务器的版本比代理程序版本低的时候,收集该代理程序清单的操作失败。
解决方法:
将 IBM Systems Director 服务器的版本进行升级,最好能升级到最新版本。
8. 因为根目录空间不够导致收集清单失败
如果跟目录没有收集清单所需要的空间(1-2MB),会导致清单收集的操作失败。
解决方法:
为根目录分配更多空间,并删除 /tivoli/cce 目录。然后重启 IBM Systems Director 服务器。
9. 因为根目录空间不够导致 IBM Systems Director 服务器更新失败
在对 IBM Systems Director 服务器通过更新管理器进行更新升级的时候,发现创建 /usmi 目录中的一些子目录失败。这个是由于根目录空间不够导致的。
解决方法:
为根目录分配更多空间,大概需要 500M~600M 的空余空间。
10. Expect 包没有找到
在使用 web 控制台对代理程序进行分发安装的过程中,遇到 expect 没有找到的错误。
解决方法:
使用操作系统盘将相应版本的 expect rpm 包安装上去。
11. 在代理程序分发过程中认证失败
在使用 web 控制台对代理程序进行分发安装的过程中,认证失败。
解决方法:
查看代理程序端的 /etc/ssh/sshd_config, 确保属性 PasswordAuthentication 的值为 true 或者 yes
12. 在代理程序分发过程中 , 遇到 IPCInstallerImplementation.install LDO 的异常错误
在代理程序分发过程中 , 遇到下面的错误:
COPDEX040E An unexpected deployment engine exception occurred: null

解决方法:
确保没有同时对传统的 Director 5.x 的 LL2 和其他非 LL2 的节点进行代理程序的分发和安装。 确保 LL2 代理程序是正常运行的。
13. 当更新包安装成功后 Compliance 失败
当更新包安装成功后,查看更新的管理节点的属性中的 “已应用的活动”。查看最近的 Update Compliance,在其日志中看到类似下面的错误:
Wed Apr 29 11:30:30 PDT 2009-Level:50-MEID:0--MSG: ATKUPD553E Task "UpdateComplianceTask" has failed with error: ATKUPD550E  
An error occurred while performing compliance checks on resources.  
Error: ATKUPD581W Compliance processing encountered an exception:
"ATKUPD585W Compliance processing encountered Resource Caching Exception:

解决方法:
对该管理节点重新进行清单收集操作。
14. 因为代理服务器连接失败导致更新下载失败
当尝试到连接到 Fix Service Provider 检查更新或者下载更新包的时候因为代理服务器连接失败导致这些任务失败。
解决方法:
在“发行版管理”->“更新”页面上的“设置”连接中进行代理服务器的设置。如图所示:

图 3. 设置代理服务器

15. 当自动化计划触发时,任务运行失败
当我们创建了下面这两种类型的事件操作:
  • 在指定系统上启动任务
  • 在生成该事件的系统上启动任务
但是当事件发生,操作被触发时,任务却没有运行。解决方法:
  • 如果事件操作历史是激活的,检查该历史确保事件操作已经发动。
  • 确保为事件操作所选择的协议是正确的。如果所指定的系统运行的是公共代理程序,那所选择的协议必须是 CAS。如果运行的是 Director 5.x 的代理程序,可以选择 TCP/IP, IPX, 或者 NETBIOS。
  • 确保该任务是可执行的。
  • 在指定的系统上,确保 com.ibm.usmi.client.ipc 已经存在于 install_root/agent/runtime/agent/subagents/eclipse/plugins/ 目录中。

16. 创建 VLAN 的配置失败
当创建 VLAN 的配置的时候,创建失败并收到下面的错误信息:
A VLAN configuration interface ID is incorrect.

虽然 Interface number 是可选的,但是针对某些交换机,这个是必须的。不同的交换机有不同的 Interface number。
解决方法:
  • 确保为你的交换机选择了正确的 VLAN 配置模板。
  • 确保制定了合适的 Interface number 值。

17. 切换到非默认的数据库时因为密码没有加密而失败
在切换到非默认的数据库的时候,提示密码错误。但是用户确认在 install_root/proddata/cfgdbcmd.rsp 中配置的用户名和密码绝对是正确的。这是由于用户忘记在运行 cfgdbcmd.sh 之前忘记运行 configDB.sh 对密码进行加密。
解决方法:
先运行 install_root/bin/configDB.sh 对密码进行加密,然后再运行 cfgdbcmd.sh 进行数据库的切换。
18. smstop 运行成功后,IBM Systems Director 服务器没有完全停止
smstop 是用来停止 IBM Systems Director 服务器的脚本。运行 smstop,提示 IBM Systems Director 服务器已经被成功停止,但是事实上 IBM Systems Director 服务器的 java 进程还在运行。如果这时候用 smstart 去启动 IBM Systems Director 服务器会造成启动失败。
解决方法:
在 smstop 运行成功后,再等待 2~3 分钟,通过 ps – ef 命令去查看 IBM Systems Director 服务器的 java 进程是否还在。可以使用 kill – 9 命令将该进程杀死,然后再用 smstart 去启动 IBM Systems Director 服务器。

总结
本文概括描述了 IBM Systems Director 在 AIX 上安装和使用时遇到的一些常见问题,并提供了相应的解决方法。通过本文,可以减少用户在使用 IBM Systems Director 中因为系统配置以及使用说明不详而导致的错误,为用户提供初步的解决方案。

作者简介
徐瑶斌,CSTL 软件工程师 , 多年 Director 测试,安装,调试经验。

陈亮,IBM CSTL 软件工程师 , 多年面向对象开发经验。



http://www.ibm.com/developerworks/cn/aix/library/1008_xuyb_sdfaq/index.html


您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP