- 论坛徽章:
- 0
|
资料编码
产品名称
IBM 小型机安装指导书
使用对象
产品版本
编写部门
资料版本
V2.0
IBM小型机安装指导书
拟 制:
日 期:
审 核:
日 期:
审 核:
日 期:
批 准:
日 期:
xx 技 术 有 限 公 司
版权所有 侵权必究
修订记录
日期
修订版本
描述
作者
2005-8-25
V1.0
初稿
2005-8-26
V1.1
根据评审意见修改
2005-9-5
V1.2
根据v1.1修改增加内容
2005-9-7
V2.0
根据评审意见修改
TOC \o "1-3" \h \z \u 第一章AIX安装配置... PAGEREF _Toc113856644 \h 5
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600340034000000
1.1 安装准备... PAGEREF _Toc113856645 \h 5
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600340035000000
1.1.1 系统版本号... PAGEREF _Toc113856646 \h 5
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600340036000000
1.1.2 安装需要的软件包... PAGEREF _Toc113856647 \h 5
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600340037000000
1.2 安装base
os. PAGEREF _Toc113856648 \h 7
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600340038000000
1.2.1 安装步骤... PAGEREF _Toc113856649 \h 7
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600340039000000
1.3 系统设置... PAGEREF _Toc113856650 \h 14
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600350030000000
1.3.1 OS 初始时间、时区设置... PAGEREF _Toc113856651 \h 15
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600350031000000
1.3.2 修改Root用户的口令... PAGEREF _Toc113856652 \h 15
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600350032000000
1.3.3 安装额外所需的Fileset PAGEREF _Toc113856653 \h 16
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600350033000000
1.3.4 安装系统补丁... PAGEREF _Toc113856654 \h 16
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600350034000000
1.3.5 设置登陆用户数、用户进程数... PAGEREF _Toc113856655 \h 17
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600350035000000
1.3.6 配置主机解析顺序... PAGEREF _Toc113856656 \h 18
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600350036000000
1.3.7 OS 基本分区调整(rootvg)... PAGEREF _Toc113856657 \h 18
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600350037000000
1.3.8 镜像rootvg. PAGEREF _Toc113856658 \h 19
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600350038000000
2 第二章
备份与恢复... PAGEREF _Toc113856659 \h 20
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600350039000000
2.1 rootvg的备份与恢复... PAGEREF _Toc113856660 \h 20
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600360030000000
2.1.1 准备系统备份... PAGEREF _Toc113856661 \h 20
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600360031000000
2.1.2 rootvg的备份... PAGEREF _Toc113856662 \h 21
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600360032000000
2.1.3 rootvg的恢复... PAGEREF _Toc113856663 \h 21
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600360033000000
2.1.4 系统恢复后应用数据的恢复... PAGEREF _Toc113856664 \h 22
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600360034000000
2.2 非rootvg卷组的备份与恢复... PAGEREF _Toc113856665 \h 22
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600360035000000
2.2.1 非rootvg卷组的备份... PAGEREF _Toc113856666 \h 22
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600360036000000
2.2.2 非rootvg卷组的恢复... PAGEREF _Toc113856667 \h 23
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600360037000000
2.3 基于文件和目录的备份与恢复... PAGEREF _Toc113856668 \h 23
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600360038000000
2.3.1 使用tar命令进行文件的备份恢复... PAGEREF _Toc113856669 \h 23
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600360039000000
2.3.2 使用backup命令对文件目录进行备份... PAGEREF _Toc113856670 \h 24
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600370030000000
2.3.3 使用restore命令进行文件恢复... PAGEREF _Toc113856671 \h 25
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600370031000000
2.3.4 使用smit菜单进行文件目录恢复... PAGEREF _Toc113856672 \h 25
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600370032000000
3 第三章
系统维护... PAGEREF _Toc113856673 \h 25
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600370033000000
3.1 巡检内容... PAGEREF _Toc113856674 \h 25
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600370034000000
3.1.1 机房要求... PAGEREF _Toc113856675 \h 25
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600370035000000
3.1.2 设备故障灯分类. PAGEREF _Toc113856676 \h 26
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600370036000000
3.1.3 系统错误报告的检查... PAGEREF _Toc113856677 \h 26
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600370037000000
3.1.4 有否发给root用户的错误报告(mail): PAGEREF _Toc113856678 \h 26
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600370038000000
3.1.5 文件系统的检查:... PAGEREF _Toc113856679 \h 26
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600370039000000
3.1.6 磁带机清洁的检查:... PAGEREF _Toc113856680 \h 27
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600380030000000
3.1.7 网络的检测:... PAGEREF _Toc113856681 \h 27
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600380031000000
3.1.8 HACMP 配置检测... PAGEREF _Toc113856682 \h 27
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600380032000000
3.1.9 系统硬件诊断:... PAGEREF _Toc113856683 \h 27
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600380033000000
3.1.10 补丁程序(PTF)的检查... PAGEREF _Toc113856684 \h 28
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600380034000000
3.2 文件系统管理... PAGEREF _Toc113856685 \h 28
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600380035000000
3.2.1 创建pv. PAGEREF _Toc113856686 \h 28
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600380036000000
3.2.2 创建VG.. PAGEREF _Toc113856687 \h 30
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600380037000000
3.2.3 创建LV. PAGEREF _Toc113856688 \h 31
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600380038000000
3.2.4 创建FS. PAGEREF _Toc113856689 \h 32
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600380039000000
3.3 网络管理... PAGEREF _Toc113856690 \h 33
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600390030000000
3.3.1 网卡速率和通讯方式... PAGEREF _Toc113856691 \h 33
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600390031000000
3.3.2 网络故障定位方法... PAGEREF _Toc113856692 \h 35
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600390032000000
3.4 日志管理... PAGEREF _Toc113856693 \h 38
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600390033000000
3.4.1 日志进程... PAGEREF _Toc113856694 \h 38
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600390034000000
3.4.2 查看日志... PAGEREF _Toc113856695 \h 39
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600390035000000
3.4.3 清理日志... PAGEREF _Toc113856696 \h 41
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600390036000000
3.5 性能调优... PAGEREF _Toc113856697 \h 41
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600390037000000
3.5.1 性能调优流程图... PAGEREF _Toc113856698 \h 41
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600390038000000
3.5.2 性能分析工具... PAGEREF _Toc113856699 \h 42
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600390039000000
3.5.3 核心参数的调整... PAGEREF _Toc113856700 \h 49
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700300030000000
3.5.4 交换区的设置... PAGEREF _Toc113856701 \h 50
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700300031000000
3.6 故障定位... PAGEREF _Toc113856702 \h 51
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700300032000000
3.6.1 故障的定义... PAGEREF _Toc113856703 \h 51
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700300033000000
3.6.2 故障信息的收集... PAGEREF _Toc113856704 \h 51
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700300034000000
3.6.3 硬件故障定位方法... PAGEREF _Toc113856705 \h 52
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700300035000000
3.6.4 7133 磁盘柜的故障定位... PAGEREF _Toc113856706 \h 52
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700300036000000
3.6.5 软件故障定位方法... PAGEREF _Toc113856707 \h 53
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700300037000000
3.7 经典案例... PAGEREF _Toc113856708 \h 54
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700300038000000
3.7.1 在根目录执行rm *的恢复... PAGEREF _Toc113856709 \h 54
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700300039000000
3.7.2 无法使用root帐户登陆的恢复... PAGEREF _Toc113856710 \h 55
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700310030000000
3.7.3 替换损坏的镜像卷组硬盘... PAGEREF _Toc113856711 \h 56
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700310031000000
3.7.4 无法创建文件系统... PAGEREF _Toc113856712 \h 57
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700310032000000
3.7.5 无法卸载文件系统... PAGEREF _Toc113856713 \h 58
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700310033000000
3.7.6 系统启动引导故障... PAGEREF _Toc113856714 \h 58
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700310034000000
4 第四章
hacmp安装配置... PAGEREF _Toc113856715 \h 61
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700310035000000
4.1 Hacmp
的软件安装... PAGEREF _Toc113856716 \h 61
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700310036000000
4.1.1 安装前提... PAGEREF _Toc113856717 \h 61
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700310037000000
4.1.2 开始安装... PAGEREF _Toc113856718 \h 61
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700310038000000
4.1.3 打补丁... PAGEREF _Toc113856719 \h 61
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700310039000000
4.1.4 重启机器... PAGEREF _Toc113856720 \h 62
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700320030000000
4.2 hacmp5.1
的配置... PAGEREF _Toc113856721 \h 62
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700320031000000
4.2.1 双机信任关系配置... PAGEREF _Toc113856722 \h 62
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700320032000000
4.2.2 配置ip. PAGEREF _Toc113856723 \h 62
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700320033000000
4.2.3 添加cluster和node. PAGEREF _Toc113856724 \h 64
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700320034000000
4.2.4 添加高可用资源... PAGEREF _Toc113856725 \h 65
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700320035000000
4.2.5 添加application
server PAGEREF _Toc113856726 \h 66
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700320036000000
4.2.6 添加共享vg
, jfs. PAGEREF _Toc113856727 \h 66
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700320037000000
4.2.7 创建资源组... PAGEREF _Toc113856728 \h 69
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700320038000000
4.2.8 检查和同步hacmp配置... PAGEREF _Toc113856729 \h 70
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700320039000000
4.2.9 扩展配置... PAGEREF _Toc113856730 \h 71
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700330030000000
4.2.10 添加hdisk
heart beat 网络和设备... PAGEREF _Toc113856731 \h 74
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700330031000000
4.2.11 配置永久的IP标识(persistent
IP label)... PAGEREF _Toc113856732 \h 76
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700330032000000
4.3 Hacmp
的监控和问题诊断... PAGEREF _Toc113856733 \h 77
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700330033000000
4.3.1 Clstat 监控hacmp. PAGEREF _Toc113856734 \h 77
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700330034000000
4.3.2 启动hacmp时选择... PAGEREF _Toc113856735 \h 78
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700330035000000
4.3.3 执行clstat PAGEREF _Toc113856736 \h 78
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700330036000000
4.4 hacmp开关机... PAGEREF _Toc113856737 \h 79
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700330037000000
4.4.1 hacmp开机... PAGEREF _Toc113856738 \h 79
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700330038000000
4.4.2 hacmp关机... PAGEREF _Toc113856739 \h 80
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700330039000000
参考书目... PAGEREF _Toc113856740 \h 80
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700340030000000
第一章AIX安装配置
1.1
安装准备
1.1.1 系统版本号
系统版本号
AIX5.2-04
HACMP版本号
HACMP5.1&PATCH
1.1.2 安装需要的软件包
Java131.adt
Java131.ext
Java131.rte
X11.Dt
X11.adt
X11.apps
X11.base
X11.compat
X11.vsm
X11.motif
bos
bos.64bit
bos.INed
bos.acct
bos.adt
bos.alt_disk_install
bos.cdmount
bos.cifs_fs
X11.vsm
X11.motif
bos
bos.64bit
bos.INed
bos.acct
bos.adt
bos.alt_disk_install
bos.cdmount
bos.cifs_fs
bos.net
bos.perf
bos.pkcs11
bos.pmapi
bos.svpkg
bos.sysmgt
bos.txt
bos.up
ifor_ls.base
ifor_ls.java
perfagent.tools
perl.rte
perl.man.en_US
ppe.xprofiler
rsct.basic
rsct.compat.basic
rsct.compat.clients
rsct.core
sysmgt.sguide
sysmgt.websm
sysmgt.websm.diskarray
1.2
安装base os
1.2.1 安装步骤
(1)
主机加电后,敲击键盘键,RS/6000将从安装介质上引导;
(2)
显示器显示如下信息,要求用户选择主控台。
☆☆☆☆☆☆Please define the system console☆☆☆☆☆☆
Type a F1 and press enter to use this terminal as
the system console.
Type een F1 en druk op enter om deze terminal als
de systeemconsole to
gebruiken.
Skrive tallet F1 og trykk paa enter for aa bruke denne terminalen som
systemkonsoll.
Pour definir ce terminal comme console systeme,
appuyez sur F1puis sur entree.
Taste F1 and ansch1iessend die eingabetaste
druecken,um
diese datenstation als systemkonsole zu
verwenden.
Prenier I1 tasto F1 ed invio per usare questo
terminal como consolo.
Escriba F1 y pulse intro para utilizer esta
terminal como
consola
del sistema.
a)Tryck
paa 1 och sedan paa enter om dy vill att haer terminalen ska vara
systemkonsol
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image003.gif
键入“[ F1 ]”并回车(注意:键入的“F1”不回显)定义当前设备为主控台。
(3)屏幕上将不断显示一些信息,几分钟后出现画面,要求用户选择安装
语言环境:
>>> 1 Type 1 and press enter to have
English during install.
2 Type
2 en druk op enter om tijdens het installeren het Nederlands
te
krijgen.
3
Entrez 3 pour effectuer 1 installation en francais.
4 Fr
Installation in deutscher sprache 4 eingeben und die
eingabetaste drcken.
5
Immettere 5 e premereinvio per 1 installazione initaliona.
6
Escriba 6 ypulse intro para usar el idioma espa ol durante
la
instalaci n.
7 Skriv
7 och tryck ned enter=svenska vid installationen.
88 Help?
>>>Choice【1】:
键入“[ 1 ]”后回车,选择语言环境为English。
(4)此后屏幕出现:
Welcome to Base Operating System
Installation and Maintenance
Type the number of your choice and press enter
.Choice is indicated by>>>
>>>1 Start install now with default
settings
2 Change/show
installation settings and install
3 Start
Maintenance Mode for system Recovery
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image005.gif
88
Help?
99
Previous Menu
>>>Choice 〔
〕:
这是系统安装和维护的主菜单。我们需要改变一些设置选项再进行基本操作
系统的安装;
5)改变安装设置:
在上面菜单中,键入“[2]”并回车,屏幕出现“Install and Setting”画
面:
Installlation and a Settings
Either type
0 and press enter to install with current settings, or type the number
of the setting you want to change and press
enter.
1 system
setting:
Method
of installlation.….….…Preserve install
Disk
wher you want to install .….…hdisk0
2 Prinary
Language Environment settings (AFTER Install):
Cultural Convention.….….…English(United States)
Language.….….….….….….. English(United States)
Keyboard.….….….….….….. English(United States)
Keyboard Type.….….….…... Eefault
3 Install
Trusted Computing Base.…No
>>>0 Install AIX wint the current
settings listed above.
88 Help?
99
Previous Menu
>>>Choice 〔 〕:
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image007.gif
这是系统安装的默认设置,用户应根据需要进行修改。
与此同时,在屏幕的右下角会出现如下的警告信息:
WARNING:Base Operating system installation
will
destro or impair recovery of ALL data on the
destination disk hdisk0.
以上是提醒用户安装系统的后果将破坏用户原有的硬盘上的数据。
因为我们是第一次安装所以应选择:完全覆盖安装(New
and complete
overwrite),所以键入[ 1 ] :(进入菜单更改安装方式)
(6)安装方式的更改:
Change Method of Installation
Type
the number of your choice and press Enter.
1 New
and Complete Overwrite
Overwrites EVERYTHING on the disk selected for installation.
Warning: Only use this method if the disk is totally empty
or there is nothing on the disk you want to preserve.
Preservation Install
Preserves SOME of the existing data on the disk
selected for
Installation.
Warning: This method overwrites the user (/usr), variable
(/var), temporary(/tmp), and root (/) file systems.
Other
product (application) files and configuration
data
will be destroyed.
3 Migration Install
Upgrades the Base Operating System to current
release.
Other
product(application) files and configuration
data
will be spared.
88 Help
?
99
Previous Menu
>>> Choice [2]: 1
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image009.gif
如图所示:键入[ 1 ]将安装方式改为New and complete overwrite
(7)选择安装操作系统的目的硬盘:
Change Disks Where You Want to Install
Type one or more numbers for the disk(s) to be
used for
installation and press Enter. To cancel a choice,
type the
corresponding number and press Enter. At least
one bootable
disk must be selected. The current choice is
indicated by >>>
Size VG
Name Location Code (MB)
Status Bootable
1 hdisk0
00-01-00-0.0 305 rootvg yes
2 hdisk1
00-01-00-1.0 305 rootvg no
>>> 0 Continue with choices indicated
above
66 Disks not known to Base Operating System
Installation
88 Help ?
99 Previous Menu
>>> Choice [0]:1
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image011.gif
此处为选择安装系统到那一块(或几块)硬盘。
键入[ 1 ],安装到 hdisk0。
Change Disks Where You Want to Install
Type one or more numbers for the disk(s) to be
used for
installation and press Enter. To cancel a choice,
type the
corresponding number and press Enter. At least
one bootable
disk must be selected. The current choice is
indicated by >>>.
Size VG
Name Location Code (MB)
Status Bootable
>>>1 hdisk0 00-01-00-4.0 305
rootvg yes
2
hdisk1 00-01-00-8.0 305
rootvg no
>>> 0 Continue with choices indicated
above
66 Disks not known to Base Operating System
Installation
88 Help ?
99 Previous Menu
>>> Choice [0]:
此时会在hdisk0前出现 >>> 来表明系统将安装至该硬盘。
选好后选择 :[ 0 ] 继续。
(8)选择完毕后应显示如下:
Installation Settings
Either type 0 or press Enter to install with
current settings, or type the
number of the setting you want to change and
press Enter
1 System Settings
Method of installation …………… New and Complete Overwrite
Disk where you want to Install …... hdisk0
2 Primary Language Environment Settings (AFTER
install)
Cultural Convention …………. C
(POSIX)
Language …………………………. C (POSIX)
Keyboard
…………………………. C (POSIX)
3 Install Trusted Computing Base …….. no
0 Install with the settings listed above
88 Help ?
99 Previous Menu
>>> Choice [1]:0_
9) 设置完毕选择 0 安装即开始,屏幕将不断显示安装的进行情况。此
时,只需耐心等待。当BOS安装完毕,系统将自动重启.
Installing Base Operating System
Please wait.
Approximate
Elapsed time
%task completed
(in minutes)
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image013.gif
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image015.gif
系统安装完成后,会自动重新启动,并自动进入“安装辅助菜单”。
1.3
系统设置
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image017.gif
1.3.1
OS 初始时间、时区设置
root# smitty chtz
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image019.gif
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image021.gif
1.3.2 修改Root用户的口令
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image023.gif
1.3.3
安装额外所需的Fileset
root#
smitty installpàF4àcd0
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image025.gif
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image027.gif
1.3.4 安装系统补丁
从ibm网站上下载最新的补丁集,使用smit菜单安装系统补丁。
root#
smitty update_all
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image029.gif
1.3.5
设置登陆用户数、用户进程数
设置OS 允许的最大登陆用户数、单用户最大进程数:
root#
smitty chgsys/chlicense
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image031.gif
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image033.gif
1.3.6 配置主机解析顺序
#vi
/etc/netsvc.conf
hosts =
local,bind,nis
1.3.7
OS 基本分区调整(rootvg)
由于系统默认安装完毕后各个分区都非常小,很有必要调整各分区的大小,将各个分区都相应加大,以符合应用需要。
调整磁盘空间方法:
1、 root用户:smit lv => Set Characteristic of a Logical Volume =>Increase
the Size of a Logical Volume。
2、
在『LOGICAL
VOLUME name』中输入需要调整的LV的名称(或者使用“ESC+4”列表选择),在『Number of ADDITIONAL logical
partitions』中输入需要增加的LP的个数,再回车即可。
3、
调整后rootvg中LV的大小应该如下所示:
# lsvg –l rootvg
rootvg:
LV NAME TYPE LPs
PPs PVs LV STATE MOUNTPOINT
hd5
boot 1 2
2 closed/syncd N/A
hd6
paging 16 32
2 open/syncd N/A
hd8
jfslog 1 2
2 open/syncd N/A
hd4
jfs 1 2
2 open/syncd /
hd2
jfs 20 40
2 open/syncd /usr
hd9var
jfs 4 8 2
open/syncd /var
hd3
jfs 4 8
2 open/syncd /tmp
hd1
jfs 1 2
2 open/syncd /home
注意:
上面显示的是LP个数,LP的大小可以使用“lsvg rootvg”命令得到,一般是128 MB。
PP SIZE: 128 megabyte(s)
调整后使用“df –k”验证文件系统的大小,防止因为LP大小不一致造成没有达到实际要求的大小。
1.3.8 镜像rootvg
安装好系统后,系统是单盘运行,为了保证系统的高可靠性,要求系统盘必须进行镜像。
1、检查rootvg的文件系统,如下显示没有做根盘镜像。
# lsvg -l rootvg
rootvg:
LV NAME TYPE LPs
PPs PVs LV STATE MOUNT POINT
hd5 boot 1
1 1 closed/syncd
N/A
2、根盘镜像
# extendvg rootvg hdisk1 //将硬盘hdisk1加入rootvg中
# mirrorvg –c2 rootvg //对rootvg做镜像
# bootlist –m normal –o hdisk0 hdisk1 //指定硬盘引导次序
# bosboot -a
# chvg –Qn rootvg
# lsvg –l rootvg
rootvg:
LV NAME TYPE LPs
PPs PVs LV STATE MOUNTPOINT
hd5
boot 1
2 2 closed/syncd
N/A
根据PPs为LPs的两倍,PVs为2,可以判断系统盘已经成功镜像。
3、重启系统使根盘镜像生效
#shutdown –Fr
2
第二章 备份与恢复
2.1 rootvg的备份与恢复
对卷组rootvg的备份也就是创建一个可引导的映像,包含rootvg里面所有mount起来
的文件系统,我们可以用这个备份出来的引导映像来将崩溃的系统恢复到备份时的状态。
2.1.1 准备系统备份
在创建系统备份之前,需要完成以下先决条件:
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image001.gif
使用root用户登录。
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image001.gif
如果计划使用备份映象来安装其他不同配置的目标系统,必须在配置源系统之前创建映象,或者把 bosinst.data 文件里的“RECOVER_DEVICES”变量设置为“no”。
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image001.gif
如果使用备份来创建源系统的主副本,需要考虑修改密码和网络地址。
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image001.gif
安装要备份的所有文件系统 ,mksysb 命令仅备份所有安装在rootvg中的JFS(日志文件系统),不备份通过NFS网络安装的文件。要备份文件系统,还需要先mount。
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image001.gif
卸载任意安装在另一本地目录上的本地目录。
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image001.gif
在
/etc/exclude.rootvg 文件中列出不需要备份的文件。
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image001.gif
在
/tmp 目录里至少保留8.8MB的可用磁盘空间,mksysb 在备份过程中需要使用 /tmp 空间。
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image001.gif
必须已经安装所有硬件,包括外部设备,例如磁带机和CD-ROM驱动器。
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image001.gif
必须安装 bos.sysmgt.sysbr 文件集,使用“lslpp –l bos.sysmgt.sysbr”可以确定是否已经安装。
2.1.2 rootvg的备份
使用mksysb命令建立一个可引导的映像,包含rootvg里面所有mount起来的文件系统,我们可以用这个备份出来的引导的映像来将系统恢复到原先的状态。
系统备份步骤:
1、 关闭磁带的写保护。
2、 将磁带插入需要备份系统的内置磁带机。
3、 用root用户登录系统,如下操作,备份成功后会提示“Backup Completed Successfully”。
# mksysb -i /dev/rmt0
Creating information file (/image.data) for
rootvg.
Creating tape boot image....
Creating list of files to back up.
Backing up 28268
files............................
28268 of 28268 files (100%)
0512-038 mksysb: Backup Completed Successfully.
4、 取出磁带并贴上标明主机序号的标签,并对磁带进行写保护。
记住备份系统的root用户密码。
2.1.3
rootvg的恢复
通过使用mksysb 映象,可以将一个系统映象克隆到多个目标系统上,目标系统可能不包含与源系统相同的硬件设备或适配器,但需要与源系统相同的内核(单处理器或微处理器),或者是与源系统相同的硬件平台。
系统恢复步骤:
1、 把与主机序号相一致的磁带插入磁带机,重启系统。
2、 在系统启动界面出现时,按1键,进入menu模式。
3、 选择7(Select Boot Options)并回车。
选择1(Select Install or Boot Device)并回车。
选择2(Tape)并回车。
选择6(List all device)并回车。
选择12(SCSI Tape)并回车。
选择2(Normal Mode Boot)并回车。
选择1(Yes)并回车。
4、 系统提示“STARTING SOFTWOARE PLEASE WAIT...”。
5、 输入 1 选择系统终端,并回车。
6、 选择1(Type 1 and press Enter to have
English during install),并回车。
7、 选择3(Start Maintenance Mode for System
Receovery),并回车。
8、 选择4(Insatll from a System Backup),并回车。
9、 选择1(tape/scsi/scsd),并回车。
10、
选择0(Install
with the settings listed above),并回车。
11、
系统开始恢复,界面上会提示恢复安装进度。
12、
系统恢复完成后会自动重启,重启完成后就完成了系统恢复安装。
2.1.4
系统恢复后应用数据的恢复
一般情况下,应用数据的lv是放在rootvg外的卷组的(这里以恢复datavg卷组中的informix为例),如果你的系统不幸崩溃,当你将系统恢复以后,你会发现你的应用数据都没有了,别着急,按照以下的步骤可以将数据抢救回来J
#importvg -y datavg hdisk01 //导入vg,hdisk01是datavg中的任一磁盘。
#varyonvg datavg
//激活vg
#lsvg –o //查看已经激活的vg
# lsvg -o
datavg
rootvg
#lsvg –l datavg //查看datavg中的lv
剩下的工作就是将lv mount上来了,在此就不细讲了。
2.2
非rootvg卷组的备份与恢复
2.2.1 非rootvg卷组的备份
用savevg命令备份属于某个指定的VG的所有文件
命令的flag
-i 调用mkvgdata命令来建立数据文件
-f Device 指定用来存放备份的设备或文件名
例子:
# savevg -if /dev/rmt0 uservg
Creating list of files to back up....
Backing up 9077 files..................................
4904
of 9077 files (54%)...................................
8798
of 9077 files (96%)...................................
8846
of 9077 files (97%)...................................
9029
of 9077 files (99%)...................................
0512-038 savevg: Backup Completed Successfully.
或使用smit菜单:#smitty savevg
2.2.2 非rootvg卷组的恢复
# smitty restvg
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image035.jpg
2.3
基于文件和目录的备份与恢复
2.3.1 使用tar命令进行文件的备份恢复
用tar命令的参数:
-x 从介质恢复文件
-c 建立一个新的归档,并写文件此归档
-t 按照文件在归档里面的顺序显示文件
-f Archive 指定归档的名字,如/dev/rmt0
-v 在处理的时候显示文件的名字
例子:
将/opt/tellin目录tar进磁带
# tar -cvf /dev/fd0 /opt/tellin
将磁带机的文件tar出来
#
tar -xvf /dev/fd0 [files]
列出磁带上的文件目录
#
tar -tvf /dev/fd0
2.3.2 使用backup命令对文件目录进行备份
使用backup命令的参数:
-i 指示从标准输入读文件,并以文件名称归档
-p 指示在归档前对文件压缩
-q 指示可移除的介质已经准备就绪。这样backup命令不用询问你就可以继续下去。
-u 更新/etc/dumpdates文件的内容,把备份的时间,日期,级别写进去
-v 让backup命令显示关于备份的额外的信息
例子:
#find . -print | backup -i -f /dev/rmt0
命令格式:
# backup -u [-level] [-f device]
[filesystem]
backup命令加上-u这个flag就可以进行递增的备份。递增备份分成0-9共10级,其中0级为完整的备份,后面的每个级别在备份的时候会仅备份自上一个级别备份以来有改变的部分。
例子:
在星期天执行完整的备份:
# backup -0 -uf /dev/rmt0
/data
在星期一执行递增备份
# backup -1 -uf /dev/rmt0
/data
以次类推,在星期六执行以下的备份
# backup -6 -uf /dev/rmt0
/data
2.3.3 使用restore命令进行文件恢复
列出在介质上的文件
#
restore -Tvf /dev/rmt0
恢复单独的文件
#
restore -xvf /dev/rmt0 /home/mike/alog
恢复完整的文件系统
#
restore -r[-q][-v][-f device] filesystem
2.3.4 使用smit菜单进行文件目录恢复
# smitty restfile
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image037.jpg
3
第三章 系统维护
3.1
巡检内容
IBM RS/6000巡检内容及操作指导
3.1.1 机房要求
1. 机房的卫生状况,要求清洁,键盘、显示器、机柜上没有灰尘。
2. 温度(摄氏 ℃)
10 ℃-40℃
湿度(%)
8% -80%
3.1.2 设备故障灯分类
主机故障灯
面板上不能有数字显示,如果有的话,说明系统有故障。
7133磁盘阵列故障灯
告警灯为黄色表示有故障
磁带机故障灯
告警灯为黄色说明有故障或磁带机太脏,须清洗。
3.1.3 系统错误报告的检查
硬件故障检测命令:#
errpt -d H -T PERM
若有故障执行命令#
errpt -a -d H -T PERM>/tmp/harderror.log保存。
软件故障检测命令:#
errpt -d S -T PERM
若有故障执行命令#
errpt -a -d S -T PERM>/tmp/softerror.log保存。
(请参照日志管理小节)
3.1.4 有否发给root用户的错误报告(mail):
#mail
1. 观察所有未读消息,注意有关diagela的消息。
2. 常用命令:
h [] Display headings of group
containing message
t
[] Display messages in or
current message.
n
Display next message.
q
Quit
3. 对发现的问题详细分析。
3.1.5 文件系统的检查:
命令:
# df -k
%Used为文件系统的使用率。所有文件系统的使用率不能大于80%
3.1.6 磁带机清洁的检查:
命令:
#/usr/lpp/diagnostics/bin/utape
-cd rmt0 -n
显示结果为磁带机使用的小时数,若大于72小时,则不论磁带机黄灯是否亮都应用清洁带清洗。
3.1.7 网络的检测:
1.检查网卡的状态,同时检查ip地址和netmask是否正确。
2.检查路由是否正确 。
3.使用ping测试网络通讯是否正常 。
(请参照网络管理小节)
3.1.8 HACMP 配置检测
使用命令:
#
/usr/sbin/cluster/diag/clconfig -v '-tr'
输出判断:
结果无Fail项输出。
(请参照第四章hacmp的诊断)
3.1.9 系统硬件诊断:
硬件诊断步骤:
1.#diag
2.Enter
3.Diagnostic Routines
4.System Verification
5.All Resources
6.F7
输出判断:
结果应为No trouble was found.
3.1.10
补丁程序(PTF)的检查
1. 检查系统维护补丁版本,检查命令为:
#instfix -i |grep ML
3.2
文件系统管理
3.2.1 创建pv
在物理磁盘上写上特殊的数据结构,使其能够被磁盘管理系统识别。只有这样磁盘管理系统才能对它进行管理。
一、创建逻辑磁盘
通过smit工具配置生成vgdb所需的逻辑磁盘,该逻辑磁盘为硬件RAID1方式的配置。
# smit ssaraid
选择:
Add an SSA RAID Array
在出现的界面中输入相关的参数:
Move cursor to desired item and press Enter.
ssa0 Available 1D-08 IBM SSA 160 SerialRAID
Adapter (14109100)
选择一块SSA卡,按回车键确认,出现RAID方式选择界面;
RAID Array Type
Move cursor to desired item and press Enter.
raid_0 RAID-0 array
raid_1 RAID-1 array
raid_5 RAID-5 array
raid_10 RAID-10 array
选择需要配置的RAID方式(请选择raid_1),按回车键确认,出现相应的SSA RAID配置对话框(此处为Raid1配置对话框),在Raid1配置对话框中配置testvg所需的逻辑磁盘,在出现的界面中输入相关的参数:
Type or select values in entry fields.
Press Enter AFTER making all desired changes.
[Entry Fields]
SSA RAID
Manager ssa0
RAID
Array Type raid_1
* Primary Disks
pdisk0
+
* Secondary Disks
pdisk2
+
Split
Array Resolution Primary +
Enable
Use of Hot Spares no +
Choose
Hot Spare only from Preferred Pool no +
Allow Hot
Spare Splits no +
Allow
Page Splits yes +
Initial
Rebuild no
Enable
Fast-Write yes
参数说明:
(1) Primary Disks:选择主用物理磁盘;
(2) Secondary Disks:选择镜像物理磁盘;
(3) Split Array Resolution:选择Primary,则一旦Primary Disks域中选择的磁盘坏了,则系统dump;选择secondary,则一旦Primary Disks 盘坏,如果Secondary Disks是好的,则系统还可以运行。因此如果强调系统高可靠性,选primary,如果为了系统的可用性,选secondary;请根据实际需要设置。
(4) Enable Use of Hot Spares:如果选择了磁盘作Hot Spares,则此处设置为yes,如果没有,则选择no;
(5) Allow Hot Spare Splits:如果选择了Hot Spares,则此处选择是否将Hot Spares条带化;
(6) Enable Fast-Write:为了提高性能,建议选择yes。
最后回车执行,生成vgdb所需的逻辑磁盘hdisk2(此处假定hdisk0为安装操作系统的本地磁盘、hdisk1为系统盘镜像盘,也为本地磁盘)。
检查创建是否正确:
选择“smit ssaraid-> List
All Defined SSA RAID Arrays”。
创建完毕,使用cfgmgr –v命令扫描硬件,系统会自动查找添加hdisk。
显示如下表示创建成功:
#cfgmgr -v
cfgmgr is running in phase 2
----------------
****************** stdout ***********
pdisk0 pdisk1 pdisk2 enclosure0 //系统查找添加到三个硬盘
****************** no stderr ***********
----------------
Time: 15
LEDS: 0x539
Number of running methods: 0
----------------
attempting to configure device 'pdisk0'
Time: 15
LEDS: 0x538
invoking /usr/lib/methods/cfgssapdisk -l pdisk0
Number of running methods: 1
----------------
attempting to configure device 'pdisk1'
Time: 15
LEDS: 0x538
invoking /usr/lib/methods/cfgssapdisk -l pdisk1
Number of running methods: 2
----------------
attempting to configure device 'pdisk2'
Time: 15
LEDS: 0x538
invoking /usr/lib/methods/cfgssapdisk -l pdisk2
Number of running methods: 3
----------------
attempting to configure device 'enclosure0'
Time: 15
LEDS: 0x80a
invoking /usr/lib/methods/cfgssaenclosure -l
enclosure0
Number of running methods: 16
----------------
Completed method for: hdisk2, Elapsed time = 0
return code = 0
****************** no stdout ***********
Configuration time: 17 seconds
# lsdev -Cc disk
//查看系统检测到的硬盘
hdisk1 Available 40-60-00-8,0 16 Bit LVD SCSI
Disk Drive
hdisk2 Available 11-08-L SSA Logical Disk Drive
hdisk0 Available 40-60-00-4,0 16 Bit LVD SCSI
Disk Drive
# lspv
hdisk1
0001ac2f393b8057
rootvg
hdisk2
0001ac2fd351b84e
None
//新增加的硬盘hdisk2
hdisk0
0001ac2f0a53bd4a
rootvg
3.2.2 创建VG
在root用户执行smit mkvg,如下设置数据并执行即可。
# smit mkvg
Add a Volume Group
Type or select values in entry fields.
Press Enter AFTER making all desired changes.
[Entry Fields]
VOLUME
GROUP name
[vgdb]
//vg名字
Physical partition
SIZE in megabytes 128
//选择pp大小单位是m,通常选128m
* PHYSICAL VOLUME names
[hdisk2] //选硬盘
Activate
volume group AUTOMATICALLY
yes
at
system restart? //系统重启后是否自动激活vg
Volume
Group MAJOR NUMBER []
Create VG
Concurrent Capable? no
Auto-varyon in Concurrent Mode?
no
LTG Size
in kbytes
128
创建后检查:
# lspv //检查pv分配
hdisk2
0003c08ef1dfe867
vgdb
hdisk0
0008771e277dc3b7
rootvg
hdisk1
000876de2a55110f
rootvg
#lsvg –o //查看当前激活的vg
rootvg
vgdb
# lsvg vgdata
//检查vg的属性
VOLUME GROUP:
vgdata VG
IDENTIFIER: 0001ac2f00004c000000010
5c95ab923
VG STATE:
active PP
SIZE: 64 megabyte(s)
VG PERMISSION:
read/write TOTAL
PPs: 543 (34752 megabytes)
MAX LVs:
256 FREE PPs: 541 (34624 megabytes)
LVs:
2
USED
PPs: 2 (128 megabytes)
OPEN LVs:
0
QUORUM: 2
TOTAL PVs:
1
VG
DESCRIPTORS: 2
STALE PVs:
0
STALE
PPs: 0
ACTIVE PVs:
1
AUTO
ON: yes
MAX PPs per PV: 1016 MAX PVs: 32
LTG size:
128 kilobyte(s) AUTO
SYNC: no
HOT SPARE:
no
3.2.3 创建LV
在root用户执行smit mklv,如下设置数据并执行即可。
# smit mklv
Add a Logical Volume
Type or select values in entry fields.
Press Enter AFTER making all desired changes.
[TOP]
[Entry Fields]
Logical
volume NAME [lvdb]
* VOLUME GROUP name
vgdb
* Number of LOGICAL PARTITIONS
[10]
//分配的lp数量,lp大小等于pp大小
PHYSICAL
VOLUME names
[hdisk2]
Logical
volume TYPE
[jfs]
//lv类型
POSITION
on physical volume middle
RANGE of
physical volumes
minimum
MAXIMUM
NUMBER of PHYSICAL VOLUMES []
to use
for allocation
Number of
COPIES of each logical 1
partition
Mirror
Write Consistency?
yes
Allocate
each logical partition copy yes +
创建后检查:
# lsvg –l vgdb
//查看vgdb中的逻辑卷
vgdb:
LV NAME TYPE LPs
PPs PVs LV STATE MOUNT POINT
lvdb jfs 10
10 1 closed/syncd N/A
3.2.4 创建FS
AIX创建文件系统有两种方式:
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image001.gif
根据已有LV创建FS,用户自己维护LV(建议使用此办法建fs)。
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image001.gif
直接创建FS,用户不需要自己维护LV,可以直接扩充FS(系统建fs,不建议使用)。
这里仅介绍第一种方式,第二种方式类似,可以自己试试。
在root用户执行smit crfs,设置数据后执行即可,这里不作详细解释了。
3.3
网络管理
3.3.1 网卡速率和通讯方式
网卡默认通过自适应方式来匹配网卡通信速率和通讯方式。对于快速以太网,网卡速率可以设置成100Mbps、10Mbps和自适应三种,通讯方式可以设置成全双工(full-duplex)、半双工(half-duplex)和自适应三种。建议将网卡的速率、通讯方式都设置为自适应方式。
在大多数情形下,以太网接口采用自适应的方式匹配速率和通讯方式。当出现以太网接口速率和通讯方式不匹配时,会影响数据的传输,这种情况下,需要对以太网链路两端的通信设备进行手工调整,确保双方的工作速率和通讯方式一致。
一、检查方法
1、AIX环境下,使用lsdev -Cc adapter命令查询网卡的设备名称,状态是Available表明该网卡可用。
#lsdev -Cc adapter
……
ent0
Available 1L-08 10/100 Mbps
Ethernet PCI Adapter II (1410ff01)
ent1
Available 14-08 10/100 Mbps
Ethernet PCI Adapter II (1410ff01)
……
查找网卡的PCI槽位,下面例子中ent0在第五个PCI槽,ent1在第10个PCI槽位。
# lsslot -c pci |grep ent
U0.1-P1-I5
PCI 64 bit, 66MHz, 3.3 volt slot
ent0
U0.1-P1-I10
PCI 64 bit, 66MHz, 3.3 volt slot
ent1
以上输出表明,存在设备名称分别为ent0、ent1的网卡。
& 说明:
AIX环境下,entX是网卡的物理设备名称,其对应的逻辑设备名称为enX。如网卡ent0对应的逻辑设备是en0。
2、通过“entstat -d 设备名称>”命令查询网卡信息。
#entstat -d ent0
-------------------------------------------------------------
ETHERNET STATISTICS (ent0) :
Device Type: 10/100 Mbps Ethernet PCI Adapter II
(1410ff01)
Hardware Address: 00:02:55:4f:24:bd
Elapsed Time: 33 days 22 hours 43 minutes 8
seconds
……
-------------------
No mbuf Errors: 0
Adapter Reset Count: 0
Adapter Data Rate: 200
Driver Flags: Up Broadcast Running
Simplex AlternateAddress 64BitSupport
ChecksumOffload PrivateSegment DataRateSet
10/100 Mbps Ethernet PCI Adapter II (1410ff01)
Specific Statistics:
--------------------------------------------------------------------
Link Status: Up
Media Speed Selected: Auto negotiation
Media Speed Running: 100 Mbps Full Duplex
……
以上输出表明,ent0网卡采用自适应方式工作,速率为100Mbps,全双工。建议网卡采用自适应方式工作。
二、设置方法
当出现以太网接口速率和通讯方式不匹配时,需要对以太网链路两端的设备进行手工调整,确保双方的速率和通讯方式一致。建议设置都为自适应模式。
AIX环境下,可以通过smit设置网卡工作速率和通讯方式:
# smit chgenet
首先选择需要修改属性的网卡,之后在出现的界面中,根据需要修改“Media Speed”,有如下选项:
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image001.gif
10_Half_Duplex,表示10Mbps半双工;
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image001.gif
10_Full_Duplex,表示10Mbps全双工;
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image001.gif
100_Half_Duplex,表示100Mbps半双工;
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image001.gif
100_Full_Duplex,表示100Mbps全双工;
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image001.gif
Auto_Negotiation,表示速率/通讯方式自适应。
Change / Show Characteristics of an Ethernet
Adapter
Type or select values in entry fields.
Press Enter AFTER making all desired changes.
[Entry Fields]
Ethernet
Adapter
ent0
Description
10/100 Mbps Ethernet >
Status
Available
Location
1L-08
Transmit
descriptor queue size
[512] +#
Receive
descriptor queue size
[512] +#
Software
transmit queue size
[8192] +#
Receive
buffer pool size
[1024] +#
Media
Speed
Auto_Negotiation +
IPsec
Offload
no +
Enable RX
Checksum Offload
no +
Enable
TCP Large Send Offload
no +
Enable
Link Polling
no +
Time
interval for Link Polling
[500] +#
Enable
ALTERNATE ETHERNET address
no +
ALTERNATE
ETHERNET address
[0x0002554f2490] +
Apply
change to DATABASE only
no +
3.3.2 网络故障定位方法
在aix服务器网络出现故障的情况下,排除网络故障请按照以下步骤:
a)
检查网卡状态:
可以通过检查网卡的信号灯是否熄灭来确认网卡的使用是否正常,网卡的LINK灯正常情况下是常亮,ACT数据灯正常情况下是闪烁表示正在传送数据。
使用命令ifconfig查看网卡所绑定的ip地址是否正确,子网掩码设置是否正确,状态是否是否启动(up),
# ifconfig -a
en0:
flags=4e080863
BIT,PSEG>
inet 10.77.221.39 netmask 0xfffffe00 broadcast 10.77.221.255
通过“entstat -d ent0”命令查询网卡状态是否是:Link
Status: Up,速率和双工模式是否正确:
# entstat
-d ent0
RJ45 Port Link Status : up
Media Speed Selected: Auto negotiation
Media Speed Running: 100 Mbps Full Duplex
使用netstat –in命令查看网络包分析情况,Ierrs/Ipkts
和 Oerrs/Opkts是否>1%:
# netstat -in
Name
Mtu Network Address Ipkts Ierrs Opkts Oerrs
Coll
en1*
1500 link#2 0.6.29.6c.57.19 0
0 1 0
0
en1* 1500 192.168.33
192.168.33.33 0 0
1 0 0
en0
1500 link#3 0.6.29.6c.37.95 17760714
0 36399456 0 0
en0
1500 10.77.220 10.77.221.39 17760714 0 36399456 0
0
注意:en0后面不能有*号!
b)
检查网络链路故障:
如果网卡的状态是down状态,且网卡LINK灯熄灭,应该首先排除网络链路的故障,使用的是双绞线可以使用测线仪来测试网线是否合格;如果是千兆网卡,可以通过查看发光纤的一端是否有红色信号光。同时也应该检测交换机端的端口状态是否关闭,交换机端的端口双工模式是否和主机端网卡模式相匹配。
c)
检查系统日志:
如果网卡出现硬件故障或ip地址冲突,都会在系统日志中有所记录。
下面例子是ent0的网线没接好在系统日志中的报错信息:
Errpt |more
……
DED8E752
0904215405 T H ent0 ETHERNET DOWN
……
errpt –aj DED8E752
LABEL:
GOENT_LINK_DOWN
IDENTIFIER:
DED8E752
Date/Time:
Mon Sep 5 08:41:00 BEIS
Sequence Number: 170
Machine Id:
0003BF4E4C00
Node Id:
ibm04
Class:
H
Type:
TEMP
Resource Name:
ent1
Resource Class:
adapter
Resource Type:
14108902
Location:
1H-09
VPD:
Product Specific.( ).......2-Port
10/100/1000 Base-TX PCI-X
Adapter
Part Number.................00P6131
FRU
Number..................00P6131
EC
Level....................H12819
Manufacture ID..............YL1021
Network Address.............00096B6E63DD
ROM
Level.(alterable).......DV0210
Description
ETHERNET DOWN
Probable Causes
CABLE
CSMA/CD ADAPTER
Failure Causes
LINK TIMEOUT
Recommended Actions
CHECK CABLE AND ITS CONNECTIONS
d)
诊断网卡:
如果在网络链路正常的情况下网卡的状态不正确,且状态无法激活的情况下,需要对网卡做诊断,诊断办法:
diag ->Advanced Diagnostics Routines->Problem Determination->选择要诊断的设备如ent0
e)
检查主机网络配置文件:
检查“/etc/hosts”文件是否正确,可以参考如下配置:
127.0.0.1
loopback localhost # loopback (lo0) name/address
10.77.220.249 ibm01
f)
检查路由信息:
如果以上检查均正常,并且本地服务器可以ping通同一局域网的其他机器,但无法访问某一特定网段的机器,这种情况很有可能是缺少路由或路由配置不对,使用netstat命令查看路由状态,如果缺少某一路由,可使用route add命令增加一个指定路由 (添加方法请见上一小节)
# lsattr -El inet0 //检查路由配置情况
hostname
mscp01 Host Name
True
gateway Gateway
True
route Route
True
bootup_option no Serial Optical Network Interface True
rout6 FDDI Network Interface True
authm
65536 Authentication Methods True
# netstat –rn
//检查本机路由
Routing tables
Destination
Gateway Flags Refs
Use If PMTU Exp Groups
Route Tree for Protocol Family 2 (Internet):
10.77.220/23
10.77.221.39 U 19 36386008 en0
- -
10.77.221.39
127.0.0.1 UGHS 35
19846 lo0 -
-
127/8
127.0.0.1 U 6
585 lo0 -
-
192.168.33/24
192.168.33.33 U 0
25 en1 -
-
192.168.33.33
127.0.0.1 UGHS 0
1 lo0 -
-
除了本机路由不对外,还有一种情况是网络设备的路由不对,在这种情况下使用traceroute命令跟踪到指定网段的网络路径,查找出ip包在那个路由器或防火墙丢失,从而将故障定位在那个网络设备上。
3.4 日志管理
通常我们在进行服务器的健康性检查,和在出现问题的时候都会去考虑查看系统的日志。
一旦系统的某个功能模块检测到一个错误或定义的需要记录日志的事件,则记录到/dev/error设备,把它保存在NVRAM中,这样可以保证即使在系统崩溃的情况下也不会丢失最新的错误日志。 同时,错误日志进程errdemon从/dev/error文件中读取错误日志,然后根据错误模版库(/var/adm/ras/errtmpit)和错误消息库(/usr/lib/nls/msg/$LANGcodepoint.cat)
对其进行处理后写入系统的错误日志/var/adm/ras/errlog中。错误日志进程由/usr/lib/errdemon命令启动,/usr/lib/errstop停止,默认是启动的。
3.4.1 日志进程
从/dev/error逻辑设备文件中读取纪录,然后在系统错误日志中创建错误日志纪录Errdemon的配置:
/usr/lib/errdemon 命令可以启动errdemon进程,同样我们也可以通过使用参数来修改我们的errdemon,显然如果我们不是太了解还是系统初始的配置更适合我们!
例如:
/usr/lib/errdemon –s 20000
设定我们的日志文件大小为20000bytes 最可能用到的可能就是-l参数了
/usr/lib/errdemon –l
# /usr/lib/errdemon -l
Error Log Attributes
--------------------------------------------
Log File
/var/adm/ras/errlog
Log Size 1048576 bytes
Memory Buffer Size 16384 bytes
Duplicate Removal true
Duplicate Interval 100 milliseconds
Duplicate Error Maximum 1000
上面显示我的错误日志文件是/var/adm/ras/errlog,这也是系统默认的错误日志的存放位置。具体其他的参数可以参看man 手册。
3.4.2 查看日志
errlog文件是二进制文件,用more或者其他文本的查看命令来打开errlog文件我们看到的只是一堆乱码,为了能够查看错误日志文件需要使用aix的errpt命令。
使用errpt命令查看日志,可能根据使用的参数来确定输出什么样的日志,甚至排序的方式,这是使用纯文本的日志不能做到的,或者说不能轻易做到的。
下面我们来看errpt命令的使用。
# errpt
IDENTIFIER
TIMESTAMP T C RESOURCE_NAME DESCRIPTION
9DBCFDEE
0109034400 T O errdemon ERROR LOGGING TURNED ON
192AC071
0109034300 T O errdemon ERROR LOGGING TURNED OFF
C092AFE4
0109033500 I O ctcasd ctcasd Daemon Started
A6DF45AA
0109033500 I O RMCdaemon The daemon is started.
9DBCFDEE
0109033400 T O errdemon ERROR LOGGING TURNED ON
192AC071 0106130900 T O errdemon ERROR LOGGING
TURNED OFF 369D049B 0106082400 I O SYSPFS
UNABLE TO ALLOCATE SPACE IN FILE SYSTE
这里的输出分为六列依次为:
1.错误标示符IDENTIFIER:并不唯一,由它来确定使用的错误模板,显然同一种错误的IDENTIFIER是相同的。
2.时间戳TIMESTAMP:错误发生的时间,MMDDhhmmYY,依次表示月日时分年。
3.类型TYPE:错误的类型,或者说严重的程度。
分为6个:
PEND 设备或功能组件可能丢失
简写P
PERF 性能严重下降 P
PERM 硬件设备或软件模块损坏,确诊了的 P
TEMP 临时性错误,经过重试后已经恢复正常 T
INFO 一般消息,不是错误 I
UNKN 不能确定错误的严重性 U
4.种类CLASS c:指出错误源
H 硬件或介质故障
S 软件故障
O 人为错误
U 不能确定
5. 资源名RESOURCE_NAME
最初检测到错误的资源名软件或者硬件,并不代表这个资源有问题,而只是最先在它发现的。
6.描述
显示详细的日志信息
# errpt
-a|more
Standard
input
---------------------------------------------------------------------------
Standard
input
LABEL:
ERRLOG_ON
IDENTIFIER:
9DBCFDEE
Date/Time:
Sun Jan 9 03:44:04 BEIS
Sequence
Number: 309
Machine
Id: 004250B94C00
Node Id:
ibm-5L
Class:
O
Type:
TEMP
Resource
Name: errdemon
Description
ERROR
LOGGING TURNED ON
Probable
Causes
ERRDEMON
STARTED AUTOMATICALLY
User
Causes
/USR/LIB/ERRDEMON
COMMAND
Recommended Actions
NONE
其它:指定日志文件 –I可以用来查看一个非errdemon指定位置的日志文件,例如某个日志文件备份。
-t 参数,只显示-t参数指定的错误类型TYPE。
-s 显示指定时间之后的日志文件.
-d 指定种类CLASS.
详细的参数只能看man 手册了
# errpt -a -j 74533D1A
# errpt -s 0108100100
IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION
9DBCFDEE 0109034400 T O errdemon ERROR LOGGING TURNED ON
192AC071
0109034300 T O errdemon ERROR LOGGING TURNED OFF
C092AFE4
0109033500 I O ctcasd
ctcasd Daemon Started
A6DF45AA
0109033500 I O RMCdaemon The
daemon is started.
9DBCFDEE
0109033400 T O errdemon ERROR
LOGGING TURNED ON
3.4.3 清理日志
errclear命令可以用来清理错误日志,并且默认情况下cron会每天清理错误日志
# crontab -l
0 11 * * * /usr/bin/errclear -d S,O 30
0 12 * * * /usr/bin/errclear -d H 90
0 15 * * *
/usr/lib/ras/dumpcheck >/dev/null 2>&1
显然,找上面的例子,S,O 类的错误会保留30天,而H的错误会保留90天
errclear 0
删除多有记录
errclear 7 删除7天以前的记录
smit errclear
3.5
性能调优
3.5.1 性能调优流程图
虽然性能分析和调整没有绝对的准则,但我们可以遵循一些通用的流程。检测系统性能的顺序非常重要,正确的顺序应该是:CPU、内存、I/O、网络,以下是性能调优的流程图:
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image039.jpg
1)
首先使用sar、vmstat、topas监控工具是否是cpu的原因?
如果是cpu不足的问题,可以采用的解决办法有:优化系统内核参数、优化应用程序重新安排作业运行的时间表、升级cpu的解决办法。
2)
用vmstat检测是否是内存的原因?
如果是内存不足,可以采用的解决办法有:优化系统内核参数、优化应用程序的内存参数(如informix的buffer和lock参数、scu的maxmemtl(最大内存表)参数)、增加内存等解决办法。
3)
用iostat检查是否是硬盘IO的读写原因:
如果是硬盘读写IO速度太慢,可以采用的解决办法有:重新划分存储进行调带处理,增加交换区,更换光存储硬盘等解决办法。
4)
用netstat检查是否是网络的原因
如果是网络速度过慢,可以采用的解决办法有:修改网络参数、远程数据本地化、更换网络适配器和网络链路等解决办法。
3.5.2 性能分析工具
3.5.2.1
vmstat工具
vmstat是unix通用的性能检测工具,该命令能够提供关于各种系统资源及相关性能问题的非常快速和简洁的信息。vmstat命令可以报告出以下统计信息:运行队列和等待队列中的内核进程、内存、paging、磁盘、中断、系统调用、线程间切换(Context
Switch)和CPU活动。其中CPU活动按百分比分成用户模式、系统模式、空闲时间和等待I/O时间。
vmstat命令可以找出三个方面可能的性能问题:CPU、内存和I/O。
vmstat命令的用法是:
vmstat [-ifs] [devices] [interval] [count]
vmstat –s
加 –s 参数可以报告从系统启动到现在的paging和系统事件的概要信息。输出形式如下:
# vmstat -s
2895207 total
address trans. faults
145740 page
ins
83203 page
outs
3436 paging
space page ins
7844 paging
space page outs
0 total
reclaims
1260991 zero
filled pages faults
5360 executable
filled pages faults
1171187 pages
examined by clock
35 revolutions
of the clock hand
72712 pages
freed by the clock
16984 backtracks
0 lock
misses
1904 free
frame waits
0 extend
XPT waits
58771 pending
I/O waits
111921 start
I/Os
111921 iodones
12935949 cpu
context switches
74569755 device
interrupts
0 software
interrupts
0 traps
54273766 syscalls
vmstat –f
加 –f 参数可以报告从系统启动到现在fork出的进程或线程的数目。
加 –i 参数可以报告从系统启动到现在或每个时间间隔内的设备中断情况。输出形式如下:
# vmstat -i
priority level
type count module(handler)
0 80
hardware 0
/usr/lib/drivers/planar_pal_chrp(1df7acc)
0 81
hardware 0 /usr/lib/drivers/planar_pal_chrp(1df7af0)
0 81
hardware 0
/usr/lib/drivers/pci/s_scsiddpin(1e2ec28)
3 19
hardware 119054 /etc/drivers/ssapin(1e69d10)
3 20
hardware 128930 /etc/drivers/ssapin(1e69d10)
3 35
hardware 21182617 /usr/lib/drivers/pci/phxentdd(1fbb464)
3 40
hardware 3974529 /usr/lib/drivers/pci/phxentdd(1fbb464)
3 49
hardware 2925178 /usr/lib/drivers/pci/s_scsiddpin(1e2eb2c)
3 50
hardware 60
/usr/lib/drivers/pci/s_scsiddpin(1e2eb2c)
4 1
hardware 853
/usr/lib/drivers/isa/kbddd_chrp(1fd5170)
4 12
hardware 3217
/usr/lib/drivers/isa/msedd_chrp(1fdb2f0)
vmstat [interval] [count]
vmstat后面跟时间间隔和显示次数可以周期性地报告进程、paging、内存和CPU的利用情况。在下面的vmstat输出中,我们可以看出一个占用CPU资源很多的程序启动和停止的过程:
# vmstat 2 7
kthr
memory page faults cpu
----- ----------- ------------------------
------------ -----------
r b
avm fre re pi po
fr sr cy
in sy cs us sy id wa
1 1 51971
5339 0 0
0 10 28 0
174 120
81 0 1 98 1
0 0 51975
5335 0 0
0 0 0 0
151 2123 52 0 0
99 0
0 0 51975
5335 0 0
0 0 0 0
149 2067 51 1 0
99 0
0 0 51975
5335 0 0
0 0
0 0 148 2071 51 85 15 0 0
0 0 51975
5335 0 0
0 0 0 0
162 2079 54 78 21 1 0
0 0 51975
5335 0 0
0 0 0 0
154 2067 50 0 0
99 0
0 0 51975
5335 0 0
0 0 0 0
144 2119 49 0 1
99 0
在这个例子中我们可以发现,前三行的输出中CPU空闲的比率为95%以上。然后一个占用CPU资源很多的程序启动,此时CPU空闲为0,可以看出CPU资源明显不足。该程序停止后,CPU的利用率又回到起始值。
要检查CPU是否为性能瓶颈,我们应该关注cpu下面的四列和kthr(Kernel Threads)下面的两列。下面详细介绍这六列的含义。
CPU列
表示在指定时间间隔内CPU的利用情况。
us列显示消耗在用户模式的CPU时间的百分比。UNIX进程可以运行在用户模式,也可以运行在系统模式。当运行在用户模式时,进程执行自己的应用代码,不需要内核资源来执行计算、管理内存或设置变量。
sy列显示程序运行在系统模式的CPU时间的百分比。这包括内核进程和其它需要访问内核资源的进程所消耗的CPU时间。如果一个进程需要内核资源,它必须执行一个系统调用,然后切换至系统模式,获得资源。
理想的CPU工作时间应该是100%,这在不需要共享CPU的单用户系统下是正确的。通常情况下,如果一个单用户系统的 us+sy 时间小于90%,就可以认为CPU不是性能瓶颈。然而在多用户系统中,如果us+sy 时间大于80%,进程就要在运行队列中等待CPU,响应时间和吞吐量都会受到影响,此时CPU就可以被认为是性能瓶颈。
id列显示CPU空闲或等待的百分比。这个百分比中不包括等待磁盘I/O的时间。如果当前没有进程需要运行,系统会分派一个叫做wait的进程给CPU运行。
wa列显示CPU等待磁盘I/O的空闲时间的百分比。当wait进程运行时,如果存在至少一个为完成的磁盘I/O,CPU时间就记入wa列。等待磁盘I/O的进程被放在等待队列,一旦该进程的I/O请求结束,它就被放入运行队列。
如果wa值大于25%,就表示磁盘子系统可能不平衡,或者应用是对磁盘敏感的。
KTHR列
表示在指定时间间隔内每秒种放入不同队列中的内核线程数。
r列表示在指定时间间隔内每秒种放入运行队列中的内核线程的平均数,也就是可以运行的线程数。在单CPU的系统中,这个值应该小于5。对于SMP系统,这个值应该小于:
5 × ( Ntotal - Nbind )
其中Ntotal 表示总的CPU个数,Nbind 表示被绑定到某个进程的CPU数。如果r的值快速增加,就可能说明CPU资源紧张,需要查看一下应用程序。
b列表示在指定时间间隔内每秒种放入等待队列中的内核线程的平均数,这些线程在等待资源或I/O。b的值通常应该接近0。
当需要判断系统是否缺少内存或内存需要调整时,最简便的方法是运行vmstat命令,查看pi和po列。
在vmstat的输出中,与虚拟内存有关的是memory中的两列和page中的四列,下面详细解释这几列的含义:
MEMORY列
提供实际内存和虚存的信息。
avm代表Active Virtual
Memory,即活动的虚存大小。这一列给出了Paging
Space中分配的页数。当进程执行时,运转存储段的空间被分配在Paging Space中。avm值可用来计算已分配的Paging Space的大小,用avm值除以256就是Paging Space分配的MB数。
fre列显示空闲内存页的平均数。系统总会在内存中维持一定大小的、当系统需要内存时可以马上得到的空闲内存页,称作空闲列表。VMM空闲列表的最小页数由vmtune中的minfree参数决定。缺省时,minfree值由实际内存大小决定,对于64MB以上的内存,minfree值一般为120页。
如果空闲列表中的页数小于minfree值,VMM就会开始置换页面,直到空闲列表中的页数大于maxfree值为止。maxfree值等于minfree值加8。
PAGE列
显示页面置换活动的信息。
pi列表示每秒钟从Paging Space置换到内存的页数。
po列表示每秒钟从内存置换到Paging
Space的页数。
如果这两列持续大于零,则系统的性能瓶颈很可能是内存。
fr列表示每秒钟页面置换算法释放的页数。
sr列表示每秒钟页面置换算法检查的页数。
3.5.2.2
Ps工具
如果我们用vmstat等命令查出CPU是性能的瓶颈,那么接下来的任务就是找出占用CPU时间最多的进程。ps命令是一个非常灵活的工具,它的一些选项可以可以帮助我们实现目标。以下是运行ps命令的一个例子:
# ps au
USER
PID %CPU %MEM SZ RSS
TTY STAT STIME TIME COMMAND
root
14192 0.0 0.0
752 772 lft0 A
Aug 30 0:00 /usr/sbin/getty /
root
20720 0.0 0.0
416 428 pts/0 A
14:51:26 0:00 ps au
root
17100 0.0 0.0 1064 1072
pts/0 A 12:31:49 0:00 -ksh
其中%CPU列和TIME列显示出每个进程占用CPU的时间。%CPU是指从进程开始到现在占用的CPU的百分比,计算公式如下:
%CPU=(进程的CPU时间÷进程总时间)×100
SIZE列表示以KB为单位的进程数据段占用的虚存的大小。
RSS列表示KB为单位的进程占用的实际内存的大小。
%MEM列表示进程占用内存的百分比,等于RSS除以实际内存的KB数。
3.5.2.3
topas工具
topas是aix的一个专有性能监控工具,非常直观的输出了cpu、内存、硬盘io、网络状态的信息。
#topas
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image041.jpg
3.5.2.4
sar命令
sar命令是用来收集系统统计信息的标准UNIX命令。虽然它能够收集到很多有用的信息,但它的缺点是占用系统资源较大,有可能加剧已存在的性能问题。
sar命令的选项非常多,可以提供队列、paging、TTY以及其它很多统计信息。sar命令在RS/6000平台上的一个重要的新功能是它不但能够统计整个系统的CPU利用率,还可以报告每个CPU的统计信息。因此sar命令对于SMP系统非常有用。
以下介绍sar命令的一些有用的选项:
sar –u
加 –u 参数可以报告CPU利用率的统计信息。输出结果与vmstat命令相同。
sar –P
加 –P 参数可以报告每个CPU利用率的统计信息。
sar –c
加 –c 参数可以报告系统调用的统计信息。
sar –q
加 –q 参数可以显示运行队列和交换队列的大小。
# sar -u 1 10
AIX mscp01 1 5 0001AC2F4C00 09/06/05
12:40:58 %usr %sys
%wio %idle
12:40:59 0 0
0 100
12:41:00 0 1
0 99
12:41:01 0 1
0 99
12:41:02 0 0
0 100
12:41:03 0 0
0 100
12:41:04 0 0
0 100
12:41:05 0 8
18 74
12:41:06 0 0
0 100
12:41:07 0 2
3 95
12:41:08 0 3
6 91
Average
0 1 3
96
3.5.2.5
iostat命令
iostat命令虽然主要用于查看I/O的统计信息,它也可以用来查看CPU的利用情况。在CPU方面,iostat和vmstat的用法和输出结果基本上是相同的。iostat命令的用法是:
iostat [-t] [-d] [devices] [interval]
[count]
iostat –t
加 –t 参数可以报告TTY和CPU的统计信息。
iostat –d
加 –d 参数可以报告磁盘的统计信息。
–t 参数和–d 参数不能同时使用。
iostat [interval] [count]
iostat后面跟时间间隔和显示次数可以周期性地报告TTY、CPU和磁盘的统计信息。
# iostat 1 1
tty:
tin tout avg-cpu:
% user % sys % idle
% iowait
0.5 27.2 0.1 1.2
97.5 1.2
Disks:
% tm_act Kbps tps
Kb_read Kb_wrtn
hdisk0
0.0 0.0 0.0 64
18596
hdisk1
0.0 0.0 0.0 0
18584
hdisk5
0.0 0.0 0.0 0 0
hdisk2
0.0 0.0 0.0 0
0
hdisk7
0.0 0.0 0.0 0 0
hdisk6
0.0 0.0 0.0 0 0
hdisk4
0.0 0.0 0.0 0 0
hdisk3
0.0 0.0 0.0 0 0
hdisk8
0.0 0.0 0.0 0 0
cd0
0.0 0.0 0.0 0 0
3.5.3 核心参数的调整
为了优化智能网应用的运行效率,需要修改以下内核参数:
3.5.3.1
修改系统环境变量
# smit
顺序选择:
System
Environments-> Change/Show Characteristics of Operating Systm
在出现的界面中,修改以下两个参数的值:
HIGH water mark for pending write I/Os per
file [33]
LOW water mark for pending write I/Os per
file [24]
修改系统运行参数
打开/sbin/rc.boot,查找“syncd”,将其参数修改为10:
nohup
/usr/sbin/syncd 10 > /dev/null 2>&1
&
3.5.3.2
配置系统的AIO
激活系统中的AIO设备
# smit aio
选择:
Change / Show
Characteristics of Asynchronous I/O
在出现的界面中,修改以下参数的值:
STATE to be
configured at system restart available
然后按键执行。
3.5.3.3
设置系统参数fullcore
进程一旦运行异常,发生core dump,系统会产生core文件,将发生异常的进程的相关信息收集起来,便于用户进行定位分析。系统参数fullcore决定在进程发生core dump时,是否将数据段一起core dump,即是否将数据段信息收集保存在core文件中。设置为true,则表示将数据段信息保存,设置为false则表示不收集保存。这里要设置为true。
smitty->
System Environments-> Change / Show Characteristics of Operating System
将参数Enable full CORE dump的值设置为true。
3.5.3.4
调整系统内核参数
设置进程可申请的最大内存数目,以满足系统进程运行时的需求。
打开/etc/security/limits文件,修改其中的data参数的取值。
将“default:”下面中配置项“data”的值修改为524288。修改后,保存文件。
注意:修改以上内核参数后需要重新启动系统,使上面的设置生效。
3.5.4 交换区的设置
1.系统安装好以后默认是rootvg中的hd6,交换区大小可是使用lsps –a查看大小。
# lsvg -l rootvg
rootvg:
LV NAME TYPE LPs
PPs PVs LV STATE MOUNT POINT
hd5 boot 1
2 2 closed/syncd N/A
hd6 paging 32
64 2 open/syncd N/A
hd8 jfslog 1
2 2 open/syncd N/A
hd4 jfs 31
62 2 open/syncd
/
hd2 jfs 62
124 2 open/syncd /usr
hd9var jfs 31
62 2 open/syncd /var
hd3 jfs 62
124 2 open/syncd /tmp
hd1 jfs 16
32 2 open/syncd /home
hd10opt jfs 62
124 2 open/syncd /opt
lvsoft jfs 250
250 2 open/syncd /soft
# lsps -a
Page Space
Physical Volume Volume
Group Size %Used
Active Auto Type
hd6
hdisk0 rootvg 512MB 1
yes yes lv
系统默认的交换区太小,需要手工增加交换区。
2.交换区大小的设置应参照内存的大小来调整大小,下表为参照值。
内存大小
交换区大小
内存大小
内存大小*2
4G内存大小
6G
内存大小>=6G
6G
使用mkps命令动态增加一个交换区,直接生效,系统不用重启。
在rootvg中增加一个交换区,大小为20个pp,每个pp=128M,总共2G,命令如下:
mkps -a -n –s20 rootvg
或使用菜单添加交换区:
smitty mkps
3.6
故障定位
3.6.1 故障的定义
.弄清楚系统发生了什么问题
.系统现在能做什么?不能做什么?
.故障什么时候发生的?
.有没有做平时不同的操作?
.故障有没有规律?定时还是不定时?发生的频率有多高?
.是一台机器出现故障还是多台机器故障?故障现象是否相同?
.最近有没有做改动?如安装了新的硬件、软件,改变了系统的一些设置。
3.6.2 故障信息的收集
收集故障信息对于判断、诊断故障原因,修复系统非常重要。
1)
系统故障记录(errorlog)
errdemon 进程在系统启动时自动运行
记录包括硬件、软件及其他操作信息
故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析
errpt 命令的使用见aix的日志管理小节
2)
控制面板上的LED 代码
.8 位代码,通常系统故障灯会同时亮起。某些机型还会同时显示故障设备位置代码。
.4 位代码,通常是Exxx。
.3 位代码,通常为0yyy,只看后3位。
.8 位和4位代码可查看系统服务手册 (Service Guide)。
3 位代码可查看系统诊断手册(Diagnostic Information for Multiple Bus System)。
.闪动的 888, 系统崩溃,硬件或软件原因造成。按reset 键会显示更多内容。
888-102 一般为软件故障(888-102-207 例外)
系统会产生一个dump。
888-102-xxx-0C9 系统正在做dump, 请等待。
888-102-xxx-0C0 系统dump完成,可关电重启。
888-103 或 105
硬件故障,一般有 SRN 代码及位置代码。
3)
SMS (System Management Service) 故障记录
如何进入SMS 菜单
当主控台出现键盘图标后(LED 显示E1F1时)按1键。
选择"Utilities"
选择"Error Log", 抄下8位故障代码
(在SMS 中还可以更改系统启动顺序表)
4)
邮件告警
#mail
系统会向root用户发mail报告出错信息。通常系统出现故障后没有进行检查修复,系统会定时提醒root。
5)
故障诊断程序(Diagnostic)
当发现有硬件故障时应立即使用diag 对系统硬件进行检查和诊断。
#diag
> 选高级诊断(Advance Diagnostic)
> 选问题诊断(Problem Determination) 或
选系统检查(System Verification)
(选PD 会对系统错误记录进行分析)
diag运行后会给出SRN 代码,故障设备名称及百分比,地址代码等。
对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分析。
3.6.3 硬件故障定位方法
IBM 小型机故障定位方法包括小型机I/O柜上的显示面板上的Checkpoints信息,Error Code 和SRNs。
1)
Checkpoints 检查点是系统加电CMOS初始化程序(initial program load (IPL))运行后显示在 I/O柜的显示面板上一系列信息。
2)
Error Code 当系统运行有错误发现时,一个8位码会显示在显示面板上,同时在第二行显示相对应问题硬件的位置码。
3)
SRNs (Service request numbers,服务请求码 )当系统运行有错误发现时,SRNs码会以 xxx-xxx的形式显示在显示面板上,同时在AIX的error log中也会有记载。
3.6.4
7133 磁盘柜的故障定位
当SSA磁盘柜出现故障时,在磁盘柜前面板的液晶显示屏上会显示相应的SRNs,同时黄色的显示灯会闪动,在AIX的error log中也会有记载错误信息,如:DISK_ERR1,DISK_ERR4,SSA_ARRAY_ERROR等。请在出现问题后记录下代码,并致电IBM800服务热线。
3.6.5 软件故障定位方法
软件故障情况错综复杂,下面列举几个常见案例的故障处理方法。
1) 文件系统空间不够。
查看有没有“满”的文件系统。特别是/、/var、/tmp,不要超过90%。文件系统满可导致系统不能正常工作,尤其是AIX的基本文件系统,当/tmp目录使用率是100%,informix数据库在启动过程中将会报错而导致无法启动,如果/ (根文件系统)满则会导致用户不能登录。对文件系统的使用率可用df –k进行 查看:
# df -k
Filesystem
1024-blocks Free %Used Iused %Iused Mounted on
/dev/hd4
507904 468328 8%
1362 1% /
/dev/hd2
1015808 308648 70%
22255 9% /usr
/dev/hd9var
507904 478372 6%
553 1% /var
/dev/hd3
1015808 982940 4%
75 1% /tmp
/dev/hd1 262144 206528
22% 114 1% /home
/proc - -
- - -
/proc
/dev/hd10opt
1015808 976132 4%
342 1% /opt
/dev/lvsoft
4014080 2430716 40%
163 1% /soft
除/usr文件系统,其他文件系统都不应太满,一般不超过80%。
处理方法1:删除垃圾文件
# du -sk * |sort -rn |head
查找出当前目录下占空间最大的子目录,逐层往下直到找出占空间最大的文件。(要区分哪些目录是文件系统的 mount point,哪些是文件系统的子目录)删除文件,释放空间。有时删除文件后空间并不马上释放,这是由于你删除的文件正被某个程序打开。只有当这个程序停止后空间才释放,有时甚至需要重起系统。
处理方法2:增加文件系统大小
# smitty chjfs
文件系统可以在任何时候加大,前提是卷组(VG)中有剩余空间。
2)
检查文件系统的完整性
# umount filesystem_name
# fsck -y filesystem_name
注意:文件系统必须先umount,再做检查和修复,否则可导致未
知的后果。
3)
查看卷组信息(lsvg -l vg_name):
有没有"stale"状态的逻辑卷。 若有,用syncvg 命令修复"stale"逻辑卷。
4)
检查内存交换区(paging space)使用率(lsps -s):
使用率是否超过70% ,若有则用chps –sX pgname增加X个PP或用
mkps –a –n –sX myvg在myvg上增加一个PP数为X的内存交换区。
5)
小型机内存泄漏问题
小型机出现内存泄漏,即系统或应用进程无法将使用过的内存释放,使可用内存的容量逐渐减少。如果可用内存降到某最小值将造成系统或应用程序无法FORK子进程,就会造成系统瘫痪。 通常我们可以用ps和sar命令来查看小型机内存和CPU占用率的大概情况以及各进程的内存和CPU占用率的发展趋势。 (请参考AIX性能调优小节)
3.7
经典案例
3.7.1 在根目录执行rm *的恢复
在根目录(/)下执行了rm *,如何恢复系统
1 . 从引导介质(bootable
CD-ROM or bootable tape)起动系统。
2.选择 Start Maintenance Mode for System Recovery (Option 3),进入维护菜单.然后依次再选择如下:
a.Access a Root Volume Group (Option
1).
b.0 continue and Select Volume Group by number.
c.Access this volume group and start a
shell before mounting the file systems (Option 2).
3.检查并mount根文件系统
# fsck -y /dev/hd4
#mount /dev/hd4 /mnt
4.重建删除的文件和目录
#cd /mnt
#ln -s /usr/bin bin
#ln -s /usr/lib/boot/unix_up unix 或 #ln -s /usr/lib/boot/unix_mp unix
#ln -s /usr/lib lib
#ln -s /home u
5.重起系统
#cd /
#umount /dev/hd4
#exit
#sync;sync;sync
#shutdown -Fr
3.7.2 无法使用root帐户登陆的恢复
3.7.2.1
忘记root密码后,重设root密码步骤:
1、 插入系统启动光盘(就是AIX 安装光盘的 CD 1),重启系统。
2、 在系统启动界面出现时,按1键,进入sms menu模式。
3、 选择7(Select Boot Options)并回车。
选择1(Select Install or Boot Device)并回车。
选择3(CD/DVD)并回车。
选择6(List all device)并回车。
选择12(CD-ROM)并回车。
选择2(Normal Mode Boot)并回车。
选择1(Yes)并回车。
4、 系统提示“STARTING SOFTWOARE PLEASE WAIT...”。
5、 输入 1 选择系统终端,并回车。
6、 选择1(Type 1 and press Enter to have
English during install),并回车。
7、 选择3(Start Maintenance Mode for System
Receovery),并回车。
8、 选择1(Access a Root Volume Group),并回车。
9、 选择0(Continue),并回车。
10、
选择1(Volume
Group),并回车。
11、
选择1(Access
this Volume Group and start a shell),并回车,进入root用户提示符“#”。
12、
执行passwd,输入密码“root”,再次确认密码“root”,重启系统。
13、
在系统启动界面出现时,按1键,进入menu模式。
14、
选择7(Select
Boot Options)并回车。
选择1(Select Install or Boot Device)并回车。
选择5(Hard Drive)并回车。
选择6(List all device)并回车。
选择10(SCSI 73GB Harddisk)并回车。
选择2(Normal Mode Boot)并回车。
选择1(Yes)并回车。
15、
系统提示“STARTING SOFTWOARE PLEASE
WAIT...”。
16、
系统启动完成,使用root用户和修改后的密码登录。
17、
取出系统光盘,密码修改完成。
3.7.2.2
误删除root用户的恢复办法
误删除root用户,导致无法登陆系统,按照前面的办法引导进入维护模式,在/etc/passw文件中手工添加root用户,如下所示:
# export TERM=vt100
# vi /etc/passwd
root:!:0:0::/:/usr/bin/ksh
//手工添加root用户,userid=0,groupid=0,homedir=/,shell=ksh
daemon:!:1:1::/etc:
admin:!:0:0::/:/usr/bin/ksh
bin:!:2:2::/bin:
sys:!:3:3::/usr/sys:
adm:!:4:4::/var/adm:
uucp:!:5:5::/usr/lib/uucp:
guest:!:100:100::/home/guest:
nobody:!:4294967294:4294967294::/:
lpd:!:9:4294967294::/:
lp:*:11:11::/var/spool/lp:/bin/false
invscout:*:200:1::/var/adm/invscout:/usr/bin/ksh
ipsec:*:201:1::/etc/ipsec:/usr/bin/ksh
nuucp:*:6:5:uucp login
user:/var/spool/uucppublic:/usr/sbin/uucp/uucico
snapp:*:177:1:snapp login
user:/usr/sbin/snapp:/usr/sbin/snappd
imnadm:*:188:188::/home/imnadm:/usr/bin/ksh
student:!:205:205::/soft:/usr/bin/csh
new:!:206:205::/home/new:/usr/bin/csh
手工添加好root用户后,使用passwd给root用户设上密码,关机重新引导。
3.7.3 替换损坏的镜像卷组硬盘
要替换损坏的镜像卷组硬盘,如datavg中的hdisk7报警,应运行以下命令进行替换:
# unmirrorvg datavg hdisk7 //解除镜像
# reducevg datavg hdisk7 //将hdisk7从datavg中移出
# rmdev -l hdisk7 –d //从操作系统中删除hdisk7,更换新盘,
#cfgmgr –v //系统自动查找新盘
# extendvg datavg hdisk7 //将更换后的新盘hdisk7加入到datavg中
# mirrorvg datavg //给datavg中的lv做镜像
3.7.4 无法创建文件系统
使用smitty fs创建文件系统时经常碰到创建文件过程中报错,以下面创建/opt/informix文件系统为例:
#smitty fs
* LOGICAL VOLUME name lvtest +
* MOUNT POINT
[/opt/informix]
Mount
AUTOMATICALLY at system restart?
yes +
PERMISSIONS
read/write +
Mount OPTIONS
[] +
Start
Disk Accounting?
no +
Fragment
Size (bytes)
4096 +
Number of
bytes per inode
4096 +
Allocation Group Size (MBytes) 8
报错如下所示:
Command: failed stdout: yes stderr: no
Before command completion, additional
instructions may appear below.
crfs: 0506-909 /opt/informix file system already
exists.
原因是:
该系统原先已经创建过/opt/informix文件系统,在清理的过程中没有清理干净,查看/etc/filesystems文件会发现有/opt/informix这条记录,把该记录信息删除,如有/opt/informix目录一并删除。重建文件系统即可:
#more /etc/filesystems
/opt/informix:
dev = /dev/lvinfor
vfs = jfs
log = /dev/hd8
mount = true
check = true
free = false
3.7.5 无法卸载文件系统
卸载文件系统时报资源busy,可能是当前用户在当前目录或有别的进程使用该目录,退出该目录,运行fuser –k /filesystem 杀掉占用该目录的进程,即可将文件系统卸载。
# umount /opt/informix
umount: 0506-349 Cannot unmount /dev/lvtest: The
requested resource is busy.
# pwd
/opt/informix
# cd
# pwd
/
# umount /opt/informix
umount: 0506-349 Cannot unmount /dev/lvtest: The
requested resource is busy.
# fuser -k /opt/informix
/opt/informix:
20520c
3.7.6 系统启动引导故障
3.7.6.1
系统的启动顺序
当交流电源接到系统后,IPL流程就开始了,IPL流程包括四个步骤:
. Phase 1: Service Processor 的初始化
Phase 1 开始于交流电源接到系统后,直到OK显示在I/O柜上的显示面板上为止。在这个步骤会显示 8xxx 或9xxx checkpoints代码 。
. Phase 2: 由 Service Processor 引导的硬件初始化
Phase 2 开始于按下I/O柜上的白色电源开关。在这个步骤会显示 9xxx checkpoints 。91FF 是最后的代码标志着第三步骤的开始
. Phase 3: 系统固件的初始化
在 Phase 3, 一个系统处理器接管控制并继续初始化系统资源, 在这个步骤会显示 Exxx。E105是最后的代码标志着第四步骤AIX启动的开始。在这个过程中还会显示各种位置码( 位置码代表着系统的每一个部分)
. Phase 4: AIX 启动
当AIX开始启动时,显示面板上的代码为 0xxx ,同时位置码会出现在第二行。当AIX的登录窗口出现在控制台上时第四步骤结束同时显示面板上再无任何信息出现。
3.7.6.2
启动中可能碰到的故障及解决办法
A) 系统不能启动系统停在Stage 1
可能为电源、系统板、CPU、内存等硬件故障。记录故障代码通知IBM工程师。
B) 系统停在Stage 2
可能是启动顺序表(bootlist)损坏或I/O子系统故障。可尝试进入SMS 菜单检查启动顺序表,并修改。若在选择bootlist时没有硬盘设备可选或显示的硬盘信息不正确则可能是硬盘故障。若根本没有SCSI设备可选则链路有问题。
C) 系统停在Stage3
可能是硬盘数据损坏,系统设置文件出错,或I/O子系统故障,系统停在551,555或557 发生在系统启动的第三阶段 (Stage 3),可能是:
文件系统损坏 、文件系统日志(jfslog)损坏 、rootvg中有坏硬盘 。
修复方法
用系统光盘或系统备份带启动(必须与硬盘中的操作系统版本一致,请参考第二章系统的备份与恢复),如备份带不能恢复,用诊断光盘(Diagnostic CDROM)检查是否系统硬盘损坏。
D) .CDE图形界面挂死
CDE 运行时不要更改网络参数(如:主机名和IP 地址) 更改网卡设置,请先退出CDE图形环境,选择命令行方式登录,在字符界面下更改。
如CDE 已经挂死 ,远程 telnet 登录 ,找出所有dt有关的进程用kill命令杀掉
# ps -ef |grep dt
... ...
# kill PID
检查当前主机名
# hostname
mscp01
查看主机名是否对应有效的IP地址
# netstat -i |grep tscf50
tr0* 1500 9.185.40 tscf50 506049 0 28247 0 0
更改主机名或IP地址,使主机名与当前有效的IP地址存在对应关系。
# smitty tcpip
重新启动CDE界面
E)
系统dump
发生在系统崩溃时,AIX会做dump(系统内存的快照)。
此时机器会显示闪动的888 102 xxx 0cx 代码:
0c9 系统dump 进行中。0c9状态可能会维持超过2分钟, 不要关电和按reset, 等待dump做完。
0c0 dump 成功完成,这时可以断电重起。
0c2 手动启动dump 功能
0c4 dump 设备空间不足,只有部分信息保存下来
0c5 不明原因导致dump 失败
一般dump是由于软件出错引起(888-102-207 除外),机器通常可以重启。重启时可能提示用户插入磁带拷贝dump文件,不要选择退出,这样会丢失重要的故障信息。
dump的有关设置
估算系统dump的大小,在系统最繁忙时(内存使用最多)
# sysdumpdev -e
0453-041 Estimated dump size in bytes: 53477376
当前的设置
#sysdumpdev -l
primary /dev/hd6 的主设备
secondary /dev/sysdumpnull
copy directory /var/adm/ras 拷贝的目录
forced copy flag TRUE
always allow dump TRUE
hd6应比估算值稍大。
/var/adm/ras 是默认的dump拷贝目录,比较估算值,保证/var文件系统有足够的剩余空间拷贝dump文件。否则机器重起时会提示用户插入磁带。
dump文件名为vmcore.#
对PCI机型如要手动做dump,须把" always allow dump" 先设成true。
# sysdumpdev -K
dump打包
# snap -a -o /dev/rmt# 或
# snap -a -c 把/tmp/ibmsupt目录做成一个压缩文件
snap.tar.Z如果/tmp文件系统空间不够,
可用-d directory 参数指定别的目录代
替/tmp/ibmsupt
4
第四章 hacmp安装配置
4.1
Hacmp 的软件安装
4.1.1 安装前提
如果您的操作系统是AIX5.1 ,那么您要安装维护补丁包ML03以上,目前
最高的补丁版本是ML05. 并且您还要安装RSCT 2.2.1.30 或更高版本。
以下的包也是必须要安装的:
• bos.adt.lib
• bos.adt.libm
• bos.adt.syscalls
• bos.net.tcp.client
• bos.net.tcp.server
• bos.rte.SRC
• bos.rte.libc
• bos.rte.libcfg
• bos.rte.libcur
• bos.rte.libpthreads
• bos.rte.odm
如果您要安装并行的资源组,还要安装下面的包:
• bos.rte.lvm.rte5.1.0.25 or higher
• bos.clvm.enh.
4.1.2 开始安装
一般基本上除了haview ,netwiew ( Tivoli),的
包以外,所有的hacmp的包都要安装。
安装命令:
#Smitty
installp
4.1.3
打补丁
注意,客户总是忽略给hacmp打补丁这一步骤。其实对hacmp来说,补丁是十分重要的。很多发现的缺陷都已经在补丁中被解决了。有的客户严格的按照正确步骤安装和配置完hacmp的软件后,发现takeover 有问题,ip接管有问题,机器自动宕机等等千奇百怪的问题,其实都与补丁有关。所以客户一定要注意打补丁这个环节大家可以从IBM网站上下载,或者打800-810-1818 热线电话索要。
4.1.4 重启机器
4.2
hacmp5.1 的配置
我们以两台机器为例:test1 和test2 , 共享三块7133
硬盘。
4.2.1 双机信任关系配置
在hacmp 5。1 中 为了安全起见,不再使用/.rhosts 文件来控制两台机器之间的命令和数据交换,而是引进的一个新的进程clcomd
。
如果你编辑/etc/inittab文件就会发现安装完hacmp后,在最后添加了一行:clcomdES:2:once:startsrc
-s clcomdES >/dev/console 2>&1 。
因此重新启机后, ps
–ef|grep clomd ,会发现:root
12908 6478 0 Apr 12 - 0:21 /usr/es/sbin/cluster/clcomd –d ,证明该进程启动了。
Hacmp5.1使用/usr/es/sbin/cluster/etc/rhosts
文件来代替 /.rhosts 文件的功能。
注意:如果两个节点间的通讯发生了什么问题,可以检查rhots 文件,或者编辑rhosts文件加入两个节点的网络信息。
4.2.2
配置ip
test1:/>netstat -in
Name
Mtu Network Address Ipkts Ierrs Opkts Oerrs
Coll
en0
1500 link#2 0.4.ac.49.f2.d5 77960
0 47805 0
0
en0
1500 100.1 100.1.0.1 77960 0
47805 0 0
en1
1500 link#3 0.6.29.ec.44.d6 33
0 11 0
0
en1
1500 192.168.0 192.168.0.1 33
0 11 0
0
test2:/>netstat -in
Name
Mtu Network Address Ipkts Ierrs Opkts Oerrs
Coll
en0
1500 link#2 0.4.ac.49.60.23 31138
0 82582 0
0
en0
1500 100.1 100.1.0.2 31138 0
82582 0 0
en1
1500 link#3 0.4.ac.3e.b9.4b 36
0 13 0
0
en1
1500 192.168.0 192.168.0.2 36 0
13 0 0
test1 :
hdisk0
0004383268b07574
rootvg active
hdisk3
000438325e22bca7
test1vg
hdisk4
00043832125e5aa8
None
hdisk5
000438323d0e4487
None
test2 :
hdisk0
000d29574085126d
rootvg active
hdisk5
000438325e22bca7
test1vg
hdisk6
00043832125e5aa8
None
hdisk7
000438323d0e4487
None
/etc/hosts
100.1.0.2
test2_boot1 test2
100.1.0.1
test1_boot1 test1
192.168.0.1
test1_boot2
192.168.0.2
test2_boot2
10.1.0.1
test1_svc
10.1.0.2
test2_svc
10.1.0.5
test1_per
10.1.0.6
test1_per
test2:/ha51>ls –l
-rwxr-xr-x
1 root system 65 Apr 13 13:51 start
-rw-r--r--
1 root system 31 Apr 13 11:49 start.log
-rwxr-xr-x
1 root system 66 Apr 13 14:01 start1
-rw-r--r--
1 root system 31 Apr 13 14:01 start1.log
-rwxrwxrwx
1 root system 64 Apr 13 11:48 stop
-rw-r--r--
1 root system 31 Apr 13 11:48 stop.log
-rwxr-xr-x
1 root system 66 Apr 13 14:01 stop1
-rw-r--r--
1 root system 31 Apr 13 14:01 stop1.log
vi start
date >> /ha51/start.log
banner " start app1 " >>
/tmp/hacmp.out
vi stop
date >> /ha51/stop.log
banner "stop app1 " >>
/tmp/hacmp.out
vi start1
date >> /ha51/start1.log
banner " start app2 " >>
/tmp/hacmp.out
vi stop1
date >> /ha51/stop1.log
banner
"stop app2 " >> /tmp/hacmp.out
注意:在两个节点要保证hosts 和
启动/停止脚本要一样存在。
4.2.3
添加cluster和node
smitty hacmp
Initialization and Standard Configuration
Extended
Configuration
System
Management (C-SPOC)
Problem
Determination Tools
Add Nodes to an HACMP Cluster
Configure
Resources to Make Highly Available
Configure
HACMP Resource Groups
Verify
and Synchronize HACMP Configuration
Display HACMP Configuration
* Cluster Name
[ha51tsc]
New Nodes
(via selected communication paths)[m
[test2_boot1 test1_boot1]
Currently
Configured Node(s)
这一部很重要,一般我们都是把每个节点的boot1 作为communication path . New node
可以一起加,也可以一个一个的加。当回车以后,系统会自己discover hacmp 的资源
显示如下:
。。。。。。。。。。。。。。。。。。。。
IP Network Discovery completed normally
Current cluster configuration:
No resource groups defined
Cluster Description of Cluster: ha51tsc
Cluster Security Level: Standard
There are 2 node(s) and 1 network(s) defined
NODE test1:
Network net_ether_02
test1_boot1 100.1.0.1
test1_boot2 192.168.0.1
NODE test2:
Network net_ether_02
test2_boot1 100.1.0.2
test2_boot2 192.168.0.2
4.2.4
添加高可用资源
添加高可用资源(service ip , application server , vg and
jfs )
添加服务ip地址
Add Nodes to an HACMP Cluster
Configure
Resources to Make Highly Available
Configure
HACMP Resource Groups
Verify
and Synchronize HACMP Configuration
Display
HACMP Configuration
Configure Service IP Labels/Addresses
Configure
Application Servers
Configure
Volume Groups, Logical Volumes and Filesystems
Configure
Concurrent Volume Groups and Logical Volumes
Add a
Service IP Label/Address
Change/Show a Service IP Label/Address
Remove
Service IP Label(s)/Address(es)
* IP Label/Address
[test1_svc ]
Network Name
[net_ether_02 ]
* IP Label/Address [test2_svc ]
Network Name
[net_ether_02 ]
4.2.5 添加application server
Configure Service IP Labels/Addresses
Configure
Application Servers
Configure
Volume Groups, Logical Volumes and Filesystems
Configure
Concurrent Volume Groups and Logical Volumes
Add an
Application Server
Change/Show an Application Server
Remove an
Application Server
* Server Name
[app1]
* Start Script
[/ha51/start]
* Stop Script
[/ha51/stop]
* Server Name
[app2]
* Start Script
[/ha51/start1]
* Stop Script
[/ha51/stop1]
4.2.6 添加共享vg , jfs
注意在前面的步骤中我们看到已经有一个共享VG
test1vg 存在了,它使用传统的方法:
在test1 节点上创建test1vg , lv,jfs
Varyoffvg
在test2 上 importvg
Varyoffvg
现在我们试着用hacmp的功能去创建test2vg
Configure Service IP Labels/Addresses
Configure Application Servers
Configure Volume Groups, Logical Volumes and
Filesystems
Configure
Concurrent Volume Groups and Logical Volumes
Shared
Volume Groups
Shared
Logical Volumes
Shared
File Systems
Synchronize Shared LVM Mirrors
Synchronize a Shared Volume Group Definition
List All
Shared Volume Groups
Create a Shared Volume Group
Create a
Shared Volume Group with Data Path Devices
Set
Characteristics of a Shared Volume Group
Import a
Shared Volume Group
Mirror a
Shared Volume Group
Unmirror
a Shared Volume Group
在选择菜单中同时用F7 选择test1 和 test2
test1
test2
选中PVID 00043832125e5aa8
Node
Names
test1,test2
PVID
00043832125e5aa8
VOLUME GROUP name
[test2vg ]
Physical
partition SIZE in megabytes 4
Volume group MAJOR NUMBER
[49]
test2:/ha51>lspv
hdisk0
000d29574085126d
rootvg active
hdisk5
000438325e22bca7
test1vg
hdisk6
00043832125e5aa8
test2vg
hdisk7
000438323d0e4487 None
test1:/ha51>lspv
hdisk0
0004383268b07574
rootvg active
hdisk3
000438325e22bca7
test1vg
hdisk4
00043832125e5aa8
test2vg
hdisk5
000438323d0e4487
None
同样方法你可以在两个节点上同时创建ljfs
Shared Volume Groups
Shared
Logical Volumes
Shared
File Systems
Synchronize Shared LVM Mirrors
Synchronize a Shared Volume Group Definition
Journaled
File Systems
Enhanced
Journaled File Systems
Add a
Journaled File System
Add a
Journaled File System on a Previously Defined Logical Volume
List All
Shared File Systems
Change /
Show Characteristics of a Shared File System
Remove a
Shared File System
Add a
Standard Journaled File System
Add a
Compressed Journaled File System
Add a
Large File Enabled Journaled File System
test1vg test1,test2
test2vg test1,test2
Node Names
test1,test2
Volume
group name test1vg
* SIZE of file system
[10 ]
* MOUNT POINT
[/test1jfs]
PERMISSIONS
read/write
Mount OPTIONS
[]
Start
Disk Accounting?
no
Fragment
Size (bytes)
4096
Number of
bytes per inode
4096
Allocation Group Size (MBytes) 8
系统会自动在test1上添加test1jfs 文件系统,并且自动会在两个节点上作update
. 但是根据经验,最好还是用传统的方式在一个结点上创建vg ,lv, jfs . 然后再import 到另一个节点上。
这里有一个tips , 如果在这里创建共享jfs 遇到问题,可以先手工把vg 在一个结点上varyon , 然后再创建就可以了。
4.2.7 创建资源组
Initialization and Standard Configuration
Extended
Configuration
System
Management (C-SPOC)
Problem
Determination Tools
Add Nodes to an HACMP Cluster
Configure
Resources to Make Highly Available
Configure
HACMP Resource Groups
Verify
and Synchronize HACMP Configuration
Display
HACMP Configuration
Add a Resource Group
Change/Show a Resource Group
Remove a
Resource Group
Change/Show Resources for a Resource Group (standard)
Cascading
Rotating
Concurrent
Custom
* Resource Group Name
[res1]
* Participating Node Names / Default Node
Priority [test1 test2]
同样方法可以添加res2
接下来可以配置资源组,当然也可以在Extended
Configuration 中去详细配置。
我们姑且先在Initialization and
Standard Configuration 中配置。
Smitty
cm_config_hacmp_resource_groups_menu_dmn
Add a Resource Group
Change/Show a Resource Group
Remove a
Resource Group
Change/Show Resources for a Resource Group
(standard)
选择res1
Resource Group Name
res1
Participating Node Names (Default Node Priority) test1 test2
* Service IP Labels/Addresses
[test1_svc]
Volume Groups
[mtest1vg]
Filesystems (empty is ALL for VGs specified) [/test1jfs]
Application Servers
[mapp1]
同样的方法配置res2
4.2.8 检查和同步hacmp配置
Initialization and Standard Configuration
Extended
Configuration
System
Management (C-SPOC)
Problem
Determination Tools
Add Nodes to an HACMP Cluster
Configure
Resources to Make Highly Available
Configure
HACMP Resource Groups
Verify
and Synchronize HACMP Configuration
Display
HACMP Configuration
Cluster Description of Cluster: ha51tsc
Cluster Security Level: Standard
There are 2 node(s) and 1 network(s) defined
NODE test1:
Network net_ether_02
test2_svc 10.1.0.2
test1_svc 10.1.0.1
test1_boot2 192.168.0.1
test1_boot1 100.1.0.1
NODE test2:
Network net_ether_02
test2_svc 10.1.0.2
test1_svc 10.1.0.1
test2_boot1 100.1.0.2
test2_boot2 192.168.0.2
Resource Group res1
Behavior cascading
Participating Nodes test1
test2
Service IP Label
test1_svc
Resource Group res2
Behavior cascading
Participating Nodes test2
test1
Service IP Label
test2_svc
注意nodetest1 的ip 地址排列,虽然test_boot2 排在test_boot1
前面,但是实验证明,service 地址依然会绑定在communication
path 上。
现在就可以做Initialization and
Standard Configuration 〉〉 Verify and Synchronize HACMP Configuration .
然后start 一下hacmp ,看看take over 是否都正常。
注意,很多客户是把所有的hacmp 包括应用都配好后再试起hacmp
, 作takeover 测试,这是很不好的一种习惯。因为融入的可能因素太多
了,一旦有了问题,我们还要隔离问题,先把hacmp配置简化,再一步步
作pd , 那么先前的配置就白做了。所以建议客户阶段性的监测一下hacmp
4.2.9 扩展配置
到此为止我们的hacmp已经基本配置完成了。剩下的要在Extended Configuration中配置了。
在Extended Configuration中我们还可以配置 tty 心跳 网络 , hdisk 心跳网络,Persistent Node
IP ,application monitor 等等。
下面我们先介绍一下配置hdisk 心跳网络,这也是hacmp5.1 里的一个新的功能。
首先我们要一个 Enhanced
concurrent VG , 这个vg 不需要一定是放在concurrent 资源组里的vg , 当然也可以用concurrent 资源组里的硬盘来做
心跳网络。这个concurrent vg 可以通过传统方法建立。
Mkvg –c convg
在一个节点上varyoffvg , 另一个节点上importvg
现在我们介绍用hacmp 来创建concurrent vg .
Initialization and Standard Configuration
Extended
Configuration
System
Management (C-SPOC)
Problem Determination Tools
Add Nodes
to an HACMP Cluster
Configure
Resources to Make Highly Available
Configure
HACMP Resource Groups
Verify
and Synchronize HACMP Configuration
Display
HACMP Configuration
Configure Service IP Labels/Addresses
Configure
Application Servers
Configure
Volume Groups, Logical Volumes and Filesystems
Configure
Concurrent Volume Groups and Logical Volumes
Concurrent
Volume Groups
Concurrent Logical Volumes
Synchronize Concurrent LVM Mirrors
List All
Concurrent Volume Groups
Create a
Concurrent Volume Group
Create a
Concurrent Volume Group with Data Path Devices
Set
Characteristics of a Concurrent Volume Group
Import a
Concurrent Volume Group
Mirror a
Concurrent Volume Group
Unmirror
a Concurrent Volume Group
选中test1 and test2
选中共享硬盘
Node Names
test1,test2
PVID
000438323d0e4487
VOLUME GROUP name
convg
PhysicalpartitionSIZEinmegabytes 4
Volume group
MAJOR NUMBER
[49]
Enhanced Concurrent Mode
true
下面看一下两个节点的硬盘状况:
test1:
hdisk0
0004383268b07574
rootvg active
hdisk3
000438325e22bca7
test1vg
hdisk4
00043832125e5aa8
test2vg
hdisk5
000438323d0e4487
convg
test2 :
hdisk0
000d29574085126d
rootvg active
hdisk5
000438325e22bca7 test1vg
hdisk6
00043832125e5aa8
test2vg
hdisk7
000438323d0e4487
convg
现在检查hdisk 网络的状况,在一个节点上向hdisk 写数据,从另一个节点
上读数据,很像 我们在配置tty 网络之前,检查一下tty 是否连通。
注意:我原来的操作系统是aix5.2 01 ,
安装了hacmp5.1 打了最新的补丁。
但是在/usr/sbin/rsct/bin 下找不到dhb_read 命令。 它应该是属于rsct 的,后来我把aix5.2 打倒ml02 , rsct 所有的包都生级了,reboot 机器后,找到
了dhb_read 命令。
Add
/usr/sbin/rsct/bin/ to /etc/environment 里的path 中
重新login test1 和test2 使path 生效
在test1 上运行:dhb_read -p hdisk5 –r
在test2 上运行:dhb_read -p hdisk7 –t
在test1 上:test1:/>dhb_read -p
hdisk5 -r
Receive Mode:
Waiting for response . . .
Link operating normally
在test2上:
test2:/usr/sbin/rsct/bin>dhb_read -p hdisk7 -t
Transmit Mode:
Detected remote utility in receive mode. Waiting for response . . .
Link operating normally
证明通讯正常。
4.2.10
添加hdisk heart beat 网络和设备
Initialization and Standard Configuration
Extended
Configuration
System
Management (C-SPOC)
Problem
Determination Tools
Discover HACMP-related Information from
Configured Nodes
Extended
Topology Configuration
Extended
Resource Configuration
Extended
Event Configuration
Extended
Performance Tuning Parameters Configuration
Security
and Users Configuration
Snapshot Configuration
Extended Verification and Synchronization
Configure an HACMP Cluster
Configure
HACMP Nodes
Configure
HACMP Sites
Configure
HACMP Networks
Configure
HACMP Communication Interfaces/Devices
Configure
HACMP Persistent Node IP Label/Addresses
Configure
HACMP Global Networks
Configure
HACMP Network Modules
Configure
Topology Services and Group Services
Show
HACMP Topology
Add a Network to the HACMP Cluster
Change/Show a Network in the HACMP Cluster
Remove a
Network from the HACMP Cluster
# Pre-defined Serial Device Types
diskhb
rs232
tmscsi
tmssa
* Network Name[m
[net_diskhb_01]
* Network Type
diskhb
添加设备:
Extended Configuration〉〉Extended Topology Configuration〉〉Configure HACMP Communication Interfaces/Devices〉〉
Add Communication Interfaces/Devices 〉〉
Add Pre-defined Communication Interfaces and Devices 〉〉
Communication Devices 〉〉 net_diskhb_01 〉〉
* Device Name
[heartbeatdisk5]
* Network Type
diskhb
* Network Name
net_diskhb_01
* Device Path
[/dev/hdisk5]
* Node Name
[test1]
* Device Name
[heartbeatdisk7]
* Network Type
diskhb
* Network Name
net_diskhb_01
* Device Path
[/dev/hdisk7]
* Node Name
[test2]
Extended Configuration〉〉Extended Topology Configuration〉〉 Show HACMP Topology
Cluster Description of Cluster: ha51tsc
Cluster Security Level: Standard
NODE test1:
Network net_diskhb_01
heartbeatdisk5 /dev/hdisk5
Network net_ether_02
test1_svc 10.1.0.1
test2_svc 10.1.0.2
test1_boot2 192.168.0.1
test1_boot1 100.1.0.1
NODE test2:
Network net_diskhb_01
heartbeatdisk7 /dev/hdisk7
Network net_ether_02
test1_svc 10.1.0.1
test2_svc 10.1.0.2
test2_boot1 100.1.0.2
test2_boot2 192.168.0.2
4.2.11
配置永久的IP标识(persistent IP
label)
一个永久的IP标识(persistent IP label)是一个IP别名,它可以被分配给一个群集网络中的指定的节点,并且会一直固定在分配的节点上。
2.永久的IP标识(persistent IP label)的特性:
(1)一直固定在被分配的节点上(节点绑定)
(2)作为别名被配置在启动网卡(boot adapter)上
(3)与已经被配置的服务IP标识(service IP label)或启动IP标识(boot IP label)共同存在
(4)不需要在节点上安装额外的物理网卡
(5)不属于任何资源组
(6)可以被用于在群集中访问指定的节点进行管理工作
(7)在节点启动后即可用,当HACMP服务停止后也始终保持可用
(8)在以太网、令牌环网、FDDI以及ATM LANE网络中都可被配置
(9)不能在SP交换机、ATM传统IP网和串行网络上进行配置
(10)和配置的服务IP标识(service IP label)和启动IP标识(boot IP label)使用同一块网卡
(11)如果节点失败,该IP标识不会迁移到群集中的其它节点
(12)如果网卡失败,它只会迁移到相同网络的同一个节点上的其它网卡
(13)每个网络的每个节点上只能配置一个永久的IP标识(persistent IP label)
3.子网的要求
(1)对于使用传统的IPAT的网络(不使用别名)
a.必须被配置为和网络中该节点上的所有standby
IP标识在不同的子网
b.可以被配置为和网络中该节点上的service IP标识和boot IP标识在相同的子网或者是不同的子网
(2)对于使用别名的IPAT的网络
a.必须被配置为和网络中该节点上的所有boot IP标识在不同的子网
b.可以被配置为和网络中该节点上的作为boot网卡别名的service IP标识在相同的子网或者是不同的子网
Extended Configuration〉〉Extended Topology Configuration〉〉Configure HACMP Persistent Node IP Label/Addresses〉〉
Add a Persistent Node IP Label/Address
* Node Name
test1
* Network Name
net_ether_02
Node IP Label/Address
test1_per
* Node Name
test2
* Network Name
net_ether_02
Node IP Label/Address
test2_per
注意:永久ip 同步完后, ip 立即绑定到boot1 上。
同步:
Extended Configuration〉〉Extended Verification and Synchronization
启动hacmp .
4.3
Hacmp
的监控和问题诊断
4.3.1 Clstat 监控hacmp
首先加路径:/usr/es/sbin/cluster 到/etc/environment 的path 中。
在aix5.2 下要对snmp 做一些调整才可以看到真正的hacmp的状态。
具体来说, aix 5.2 的 snmp 默认是version 3 :
test2:/usr/sbin>ls -l |grep snmp
lrwxrwxrwx
1 root system 8 Apr 08 17:55 clsnmp
-> clsnmpne
-rwxr-x---
1 root system 83150 Mar 12 2003 clsnmpne
-rwxr-x---
1 root system 55110 Mar 12 2003 pppsnmpd
lrwxrwxrwx
1 root system 9 Apr 08 17:55 snmpd
-> snmpdv3ne
而hacmp 只支持snmp version 1 . 所以我们要做一下调整:
stopsrc -s snmpd
/usr/sbin/snmpv3_ssw -1
startsrc -s snmpd
test2:/usr/sbin>ls -l |grep snmp
lrwxrwxrwx
1 root system 18 Apr 21 13:40 clsnmp
-> /usr/sbin/clsnmpne
-rwxr-x---
1 root system 83150 Mar 12 2003 clsnmpne
-rwxr-x---
1 root system 55110 Mar 12 2003 pppsnmpd
lrwxrwxrwx
1 root system 17 Apr 21 13:40 snmpd
-> /usr/sbin/snmpdv1
4.3.2 启动hacmp时选择
* Start
now, on system restart or both[m
now
Start
Cluster Services on these nodes
[test2]
BROADCAST
message at startup? true
Startup
Cluster Lock Services? false
Startup
Cluster Information Daemon? true
Reacquire
resources after forced down ? false
4.3.3 执行clstat
clstat - HACMP Cluster Status Monitor
-------------------------------------
Cluster: ha51tsc (1082085119)
Wed Apr 21 13:55:33 BEIDT 2004
State: UP Nodes: 2
SubState: STABLE
Node: test1 State: UP
Interface: test1_boot1 (1)
Address: 100.1.0.1
State: UP
Interface: test1_boot2 (1)
Address: 192.168.0.1
State: UP
Interface: heartbeatdisk5 (0)
Address: 0.0.0.0
State: UP
Interface: test1_svc (1)
Address: 10.1.0.1
State: UP
Resource Group: res1
State: On line
Node: test2 State: UP
Interface: test2_boot1 (1)
Address: 100.1.0.2
State: UP
Interface: test2_boot2 (1)
Address: 192.168.0.2
State:
UP
Interface: heartbeatdisk7 (0)
Address: 0.0.0.0
State: UP
Interface: test2_svc (1)
Address: 10.1.0.2
State: UP
Resource Group: res2
State: On line
4.4
hacmp开关机
4.4.1
hacmp开机
按面板白色按钮,系统自动引导进入界面。以 root 用户登录,执行以下命令 (两台机最好不要同时执行)
#
smitty clstart (
HACMP 启动 )
进入界面,使用缺省值,回车。待命令状态为 OK 时,按 F10 退出。用tail –f
/tmp/hacmp.out 跟踪HACMP log文件。出现:
EVENT
COMPLETED: node_up_complete hostname
此时HACMP 完全启动,此时可以启动另外一台主机的 HACMP运行时应有以下进程:
Clstrmgr clinfo
clsmuxpd
4.4.2
hacmp关机
以 root 用户登录(口令与用户名相同)执行以下命令 (两台机最好不要同时执行)
#
smitty clstop
进入界面,使用缺省值,回车。待命令状态为 OK 时,按 F10 退出。用tail –f
/tmp/hacmp.out 跟踪HACMP log文件。出现:
EVENT COMPLETED: node_down_complete hostname
此时HACMP 完全停止
# shutdown
-Fr ( 重启 )
# shutdown
-F ( 关机,主机自动关闭 )
参考书目
1) 《AIX Performance & Tuning 》
2) 《pSeries AIX System Administration》
3) 《Hacmp for aix v5.x Certification
study guide》
4) 《AIX Problem Determination Tools and
Techniques》
5) 《AIX Installation and System Recovery》
本文来自ChinaUnix博客,如果查看原文请点:http://blog.chinaunix.net/u/16863/showart_99161.html |
|