免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 5720 | 回复: 0
打印 上一主题 下一主题

[小机硬件] IBM 小型机安装指导书 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2006-04-13 09:55 |只看该作者 |倒序浏览


  
  资料编码
  
  
   
  
  
  产品名称
  
  
  IBM 小型机安装指导书
  


  
  使用对象
  
  
   
  
  
  产品版本
  
  
   
  


  
  编写部门
  
  
   
  
  
  资料版本
  
  
  V2.0
  




IBM小型机安装指导书


  
  拟  制:
  
  
   
  
  
  日  期:
  
  
   
  


  
  审  核:
  
  
   
  
  
  日  期:
  
  
   
  


  
  审  核:
  
  
   
  
  
  日  期:
  
  
   
  


  
  批  准:
  
  
   
  
  
  日  期:
  
  
   
  







xx 技 术 有 限 公 司
版权所有  侵权必究


修订记录

  
  日期
  
  
  修订版本
  
  
  描述
  
  
  作者
  


  
  2005-8-25
  
  
  V1.0
  
  
  初稿
  
  
   
  


  
  2005-8-26
  
  
  V1.1
  
  
  根据评审意见修改
  
  
   
  


  
  2005-9-5
  
  
     V1.2
  
  
  根据v1.1修改增加内容
  
  
   
  


  
  2005-9-7
  
  
     V2.0
  
  
  根据评审意见修改
  
  
   
  


  
   
  
  
   
  
  
   
  
  
   
  


  
   
  
  
   
  
  
   
  
  
   
  


  
   
  
  
   
  
  
   
  
  
   
  


  
   
  
  
   
  
  
   
  
  
   
  


  
   
  
  
   
  
  
   
  
  
   
  


  
   
  
  
   
  
  
   
  
  
   
  


  
   
  
  
   
  
  
   
  
  
   
  


  
   
  
  
   
  
  
   
  
  
   
  


 TOC \o "1-3" \h \z \u 第一章AIX安装配置...  PAGEREF _Toc113856644 \h 5
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600340034000000
1.1      安装准备...  PAGEREF _Toc113856645 \h 5
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600340035000000
1.1.1     系统版本号...  PAGEREF _Toc113856646 \h 5
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600340036000000
1.1.2     安装需要的软件包...  PAGEREF _Toc113856647 \h 5
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600340037000000
1.2      安装base
os.  PAGEREF _Toc113856648 \h 7
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600340038000000
1.2.1     安装步骤...  PAGEREF _Toc113856649 \h 7
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600340039000000
1.3      系统设置...  PAGEREF _Toc113856650 \h 14
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600350030000000
1.3.1     OS 初始时间、时区设置...  PAGEREF _Toc113856651 \h 15
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600350031000000
1.3.2     修改Root用户的口令...  PAGEREF _Toc113856652 \h 15
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600350032000000
1.3.3     安装额外所需的Fileset  PAGEREF _Toc113856653 \h 16
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600350033000000
1.3.4     安装系统补丁...  PAGEREF _Toc113856654 \h 16
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600350034000000
1.3.5     设置登陆用户数、用户进程数...  PAGEREF _Toc113856655 \h 17
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600350035000000
1.3.6     配置主机解析顺序...  PAGEREF _Toc113856656 \h 18
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600350036000000
1.3.7     OS 基本分区调整(rootvg)...  PAGEREF _Toc113856657 \h 18
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600350037000000
1.3.8     镜像rootvg.  PAGEREF _Toc113856658 \h 19
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600350038000000
2     第二章
备份与恢复...  PAGEREF _Toc113856659 \h 20
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600350039000000
2.1      rootvg的备份与恢复...  PAGEREF _Toc113856660 \h 20
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600360030000000
2.1.1     准备系统备份...  PAGEREF _Toc113856661 \h 20
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600360031000000
2.1.2     rootvg的备份...  PAGEREF _Toc113856662 \h 21
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600360032000000
2.1.3     rootvg的恢复...  PAGEREF _Toc113856663 \h 21
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600360033000000
2.1.4     系统恢复后应用数据的恢复...  PAGEREF _Toc113856664 \h 22
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600360034000000
2.2      非rootvg卷组的备份与恢复...  PAGEREF _Toc113856665 \h 22
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600360035000000
2.2.1     非rootvg卷组的备份...  PAGEREF _Toc113856666 \h 22
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600360036000000
2.2.2     非rootvg卷组的恢复...  PAGEREF _Toc113856667 \h 23
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600360037000000
2.3      基于文件和目录的备份与恢复...  PAGEREF _Toc113856668 \h 23
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600360038000000
2.3.1     使用tar命令进行文件的备份恢复...  PAGEREF _Toc113856669 \h 23
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600360039000000
2.3.2     使用backup命令对文件目录进行备份...  PAGEREF _Toc113856670 \h 24
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600370030000000
2.3.3     使用restore命令进行文件恢复...  PAGEREF _Toc113856671 \h 25
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600370031000000
2.3.4     使用smit菜单进行文件目录恢复...  PAGEREF _Toc113856672 \h 25
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600370032000000
3     第三章
系统维护...  PAGEREF _Toc113856673 \h 25
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600370033000000
3.1      巡检内容...  PAGEREF _Toc113856674 \h 25
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600370034000000
3.1.1     机房要求...  PAGEREF _Toc113856675 \h 25
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600370035000000
3.1.2     设备故障灯分类.  PAGEREF _Toc113856676 \h 26
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600370036000000
3.1.3     系统错误报告的检查...  PAGEREF _Toc113856677 \h 26
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600370037000000
3.1.4     有否发给root用户的错误报告(mail):  PAGEREF _Toc113856678 \h 26
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600370038000000
3.1.5     文件系统的检查:...  PAGEREF _Toc113856679 \h 26
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600370039000000
3.1.6     磁带机清洁的检查:...  PAGEREF _Toc113856680 \h 27
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600380030000000
3.1.7     网络的检测:...  PAGEREF _Toc113856681 \h 27
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600380031000000
3.1.8     HACMP 配置检测...  PAGEREF _Toc113856682 \h 27
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600380032000000
3.1.9     系统硬件诊断:...  PAGEREF _Toc113856683 \h 27
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600380033000000
3.1.10     补丁程序(PTF)的检查...  PAGEREF _Toc113856684 \h 28
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600380034000000
3.2      文件系统管理...  PAGEREF _Toc113856685 \h 28
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600380035000000
3.2.1     创建pv.  PAGEREF _Toc113856686 \h 28
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600380036000000
3.2.2     创建VG..  PAGEREF _Toc113856687 \h 30
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600380037000000
3.2.3     创建LV.  PAGEREF _Toc113856688 \h 31
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600380038000000
3.2.4     创建FS.  PAGEREF _Toc113856689 \h 32
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600380039000000
3.3      网络管理...  PAGEREF _Toc113856690 \h 33
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600390030000000
3.3.1     网卡速率和通讯方式...  PAGEREF _Toc113856691 \h 33
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600390031000000
3.3.2     网络故障定位方法...  PAGEREF _Toc113856692 \h 35
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600390032000000
3.4      日志管理...  PAGEREF _Toc113856693 \h 38
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600390033000000
3.4.1     日志进程...  PAGEREF _Toc113856694 \h 38
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600390034000000
3.4.2     查看日志...  PAGEREF _Toc113856695 \h 39
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600390035000000
3.4.3     清理日志...  PAGEREF _Toc113856696 \h 41
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600390036000000
3.5      性能调优...  PAGEREF _Toc113856697 \h 41
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600390037000000
3.5.1     性能调优流程图...  PAGEREF _Toc113856698 \h 41
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600390038000000
3.5.2     性能分析工具...  PAGEREF _Toc113856699 \h 42
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003600390039000000
3.5.3     核心参数的调整...  PAGEREF _Toc113856700 \h 49
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700300030000000
3.5.4     交换区的设置...  PAGEREF _Toc113856701 \h 50
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700300031000000
3.6      故障定位...  PAGEREF _Toc113856702 \h 51
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700300032000000
3.6.1     故障的定义...  PAGEREF _Toc113856703 \h 51
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700300033000000
3.6.2     故障信息的收集...  PAGEREF _Toc113856704 \h 51
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700300034000000
3.6.3     硬件故障定位方法...  PAGEREF _Toc113856705 \h 52
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700300035000000
3.6.4     7133 磁盘柜的故障定位...  PAGEREF _Toc113856706 \h 52
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700300036000000
3.6.5     软件故障定位方法...  PAGEREF _Toc113856707 \h 53
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700300037000000
3.7      经典案例...  PAGEREF _Toc113856708 \h 54
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700300038000000
3.7.1     在根目录执行rm *的恢复...  PAGEREF _Toc113856709 \h 54
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700300039000000
3.7.2     无法使用root帐户登陆的恢复...  PAGEREF _Toc113856710 \h 55
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700310030000000
3.7.3     替换损坏的镜像卷组硬盘...  PAGEREF _Toc113856711 \h 56
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700310031000000
3.7.4     无法创建文件系统...  PAGEREF _Toc113856712 \h 57
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700310032000000
3.7.5     无法卸载文件系统...  PAGEREF _Toc113856713 \h 58
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700310033000000
3.7.6     系统启动引导故障...  PAGEREF _Toc113856714 \h 58
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700310034000000
4     第四章
hacmp安装配置...  PAGEREF _Toc113856715 \h 61
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700310035000000
4.1      Hacmp
的软件安装...  PAGEREF _Toc113856716 \h 61
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700310036000000
4.1.1     安装前提...  PAGEREF _Toc113856717 \h 61
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700310037000000
4.1.2     开始安装...  PAGEREF _Toc113856718 \h 61
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700310038000000
4.1.3     打补丁...  PAGEREF _Toc113856719 \h 61
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700310039000000
4.1.4     重启机器...  PAGEREF _Toc113856720 \h 62
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700320030000000
4.2      hacmp5.1
的配置...  PAGEREF _Toc113856721 \h 62
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700320031000000
4.2.1     双机信任关系配置...  PAGEREF _Toc113856722 \h 62
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700320032000000
4.2.2     配置ip.  PAGEREF _Toc113856723 \h 62
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700320033000000
4.2.3     添加cluster和node.  PAGEREF _Toc113856724 \h 64
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700320034000000
4.2.4     添加高可用资源...  PAGEREF _Toc113856725 \h 65
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700320035000000
4.2.5     添加application
server  PAGEREF _Toc113856726 \h 66
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700320036000000
4.2.6     添加共享vg
,  jfs.  PAGEREF _Toc113856727 \h 66
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700320037000000
4.2.7     创建资源组...  PAGEREF _Toc113856728 \h 69
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700320038000000
4.2.8     检查和同步hacmp配置...  PAGEREF _Toc113856729 \h 70
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700320039000000
4.2.9     扩展配置...  PAGEREF _Toc113856730 \h 71
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700330030000000
4.2.10     添加hdisk
heart beat 网络和设备...  PAGEREF _Toc113856731 \h 74
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700330031000000
4.2.11     配置永久的IP标识(persistent
IP label)...  PAGEREF _Toc113856732 \h 76
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700330032000000
4.3      Hacmp
的监控和问题诊断...  PAGEREF _Toc113856733 \h 77
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700330033000000
4.3.1     Clstat 监控hacmp.  PAGEREF _Toc113856734 \h 77
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700330034000000
4.3.2     启动hacmp时选择...  PAGEREF _Toc113856735 \h 78
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700330035000000
4.3.3     执行clstat  PAGEREF _Toc113856736 \h 78
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700330036000000
4.4      hacmp开关机...  PAGEREF _Toc113856737 \h 79
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700330037000000
4.4.1     hacmp开机...  PAGEREF _Toc113856738 \h 79
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700330038000000
4.4.2     hacmp关机...  PAGEREF _Toc113856739 \h 80
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700330039000000
参考书目...  PAGEREF _Toc113856740 \h 80
08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003100310033003800350036003700340030000000

第一章AIX安装配置
1.1   
安装准备
1.1.1   系统版本号

  
  系统版本号
  
  
  AIX5.2-04
  


  
  HACMP版本号
  
  
  HACMP5.1&PATCH
  


1.1.2   安装需要的软件包
Java131.adt
Java131.ext
Java131.rte
X11.Dt
X11.adt
X11.apps
X11.base
X11.compat
X11.vsm
X11.motif
bos
bos.64bit
bos.INed
bos.acct
bos.adt
bos.alt_disk_install
bos.cdmount
bos.cifs_fs
X11.vsm
X11.motif
bos
bos.64bit
bos.INed
bos.acct
bos.adt
bos.alt_disk_install
bos.cdmount
bos.cifs_fs
bos.net
bos.perf
bos.pkcs11
bos.pmapi
bos.svpkg
bos.sysmgt
bos.txt
bos.up
ifor_ls.base
ifor_ls.java
perfagent.tools
perl.rte
perl.man.en_US
ppe.xprofiler
rsct.basic
rsct.compat.basic
rsct.compat.clients
rsct.core
sysmgt.sguide
sysmgt.websm
sysmgt.websm.diskarray
1.2   
安装base os
1.2.1   安装步骤
(1)
主机加电后,敲击键盘键,RS/6000将从安装介质上引导;
(2)
显示器显示如下信息,要求用户选择主控台。
   ☆☆☆☆☆☆Please define the system console☆☆☆☆☆☆
Type a F1 and press enter to use this terminal as
the system console.  
Type een F1 en druk op enter om deze terminal als
de systeemconsole to
gebruiken.
Skrive tallet F1 og trykk paa enter  for aa bruke denne terminalen som
systemkonsoll.
Pour definir ce terminal comme console systeme,
appuyez sur F1puis sur entree.
Taste F1 and ansch1iessend die eingabetaste
druecken,um
diese datenstation als systemkonsole zu
verwenden.
Prenier I1 tasto F1 ed invio per usare questo
terminal como consolo.
Escriba F1 y pulse intro para utilizer esta
terminal como
    consola
del sistema.
a)Tryck
paa 1 och sedan paa enter om dy vill att haer terminalen ska vara
systemkonsol


  
  
  
  
  
  
  
  
  
  
  
  




file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image003.gif
键入“[ F1 ]”并回车(注意:键入的“F1”不回显)定义当前设备为主控台。
(3)屏幕上将不断显示一些信息,几分钟后出现画面,要求用户选择安装
语言环境:
>>> 1 Type 1 and press enter to have
English during install.
    2 Type
2 en druk op enter om tijdens het installeren het Nederlands  
      te
krijgen.
    3
Entrez 3 pour effectuer 1 installation en francais.
    4 Fr
Installation in deutscher sprache 4 eingeben und die  
   
eingabetaste drcken.
    5
Immettere 5 e premereinvio per 1 installazione initaliona.
    6
Escriba 6 ypulse intro para usar el idioma espa ol durante  
     la
instalaci n.
    7 Skriv
7 och tryck ned enter=svenska vid installationen.
    88  Help?
>>>Choice【1】:
键入“[ 1 ]”后回车,选择语言环境为English。
(4)此后屏幕出现:
Welcome to Base Operating System
Installation and Maintenance

Type the number of your choice and press enter
.Choice is indicated by>>>

>>>1 Start install now with default
settings
    2 Change/show
installation settings and install
    3 Start
Maintenance Mode for system Recovery

file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image005.gif
88
Help?
99
Previous Menu
>>>Choice 〔
〕:
这是系统安装和维护的主菜单。我们需要改变一些设置选项再进行基本操作
系统的安装;
5)改变安装设置:
在上面菜单中,键入“[2]”并回车,屏幕出现“Install and Setting”画
面:
   
Installlation and a Settings

Either type
0 and press enter to install with current settings, or type the number
of the setting you want to change and press
enter.
  1 system
setting:
    Method
of installlation.….….…Preserve install
    Disk
wher you want to install .….…hdisk0
  2 Prinary
Language Environment settings (AFTER Install):
   
Cultural Convention.….….…English(United States)
   
Language.….….….….….….. English(United States)
   
Keyboard.….….….….….….. English(United States)
   
Keyboard Type.….….….…... Eefault
  3 Install
Trusted Computing Base.…No
>>>0 Install AIX wint the current
settings listed above.
88  Help?  
99
Previous Menu   
>>>Choice  〔 〕:

file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image007.gif
这是系统安装的默认设置,用户应根据需要进行修改。
与此同时,在屏幕的右下角会出现如下的警告信息:
WARNING:Base Operating system installation
will  
destro or impair recovery of ALL data on the  
destination disk hdisk0.
以上是提醒用户安装系统的后果将破坏用户原有的硬盘上的数据。
因为我们是第一次安装所以应选择:完全覆盖安装(New
and complete
overwrite),所以键入[ 1 ] :(进入菜单更改安装方式)
(6)安装方式的更改:
Change Method of Installation
    Type
the number of your choice and press Enter.
   1 New
and Complete Overwrite
   
Overwrites EVERYTHING on the disk selected for installation.
      
Warning: Only use this method if the disk is totally empty  
              
or there is nothing on the disk you want to preserve.
Preservation Install
Preserves SOME of the existing data on the disk
selected for
     
Installation.
      
Warning: This method overwrites the user (/usr), variable  
     
(/var), temporary(/tmp), and root (/) file systems.
      Other
product (application) files and configuration  
      data
will be destroyed.
     3  Migration Install
     
Upgrades the Base Operating System to current
     
release.
      Other
product(application) files and configuration
      data
will be spared.
    88 Help
?
    99
Previous Menu
>>> Choice [2]: 1  

file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image009.gif
如图所示:键入[ 1 ]将安装方式改为New and complete overwrite


(7)选择安装操作系统的目的硬盘:
Change Disks Where You Want to Install
Type one or more numbers for the disk(s) to be
used for
installation and press Enter. To cancel a choice,
type the  
corresponding number and press Enter. At least
one bootable
disk must be selected. The current choice is
indicated by >>>
Size  VG
  Name      Location Code  (MB)   
Status      Bootable
1 hdisk0   
00-01-00-0.0    305      rootvg        yes
2 hdisk1   
00-01-00-1.0    305      rootvg        no
>>> 0 Continue with choices indicated
above
66 Disks not known to Base Operating System
Installation
88 Help ?
99 Previous Menu
>>> Choice [0]:1

file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image011.gif
此处为选择安装系统到那一块(或几块)硬盘。
键入[ 1 ],安装到 hdisk0。
Change Disks Where You Want to Install
Type one or more numbers for the disk(s) to be
used for
installation and press Enter. To cancel a choice,
type the  
corresponding number and press Enter. At least
one bootable
disk must be selected. The current choice is
indicated by >>>.
                              
Size      VG
     
Name      Location Code  (MB)   
Status      Bootable
>>>1 hdisk0    00-01-00-4.0    305   
rootvg        yes
   2
hdisk1    00-01-00-8.0    305   
rootvg        no
>>> 0 Continue with choices indicated
above
66 Disks not known to Base Operating System
Installation
88 Help ?
99 Previous Menu
>>> Choice [0]:
此时会在hdisk0前出现 >>> 来表明系统将安装至该硬盘。
选好后选择 :[ 0 ] 继续。
(8)选择完毕后应显示如下:
Installation Settings
Either type 0 or press Enter to install with
current settings, or type the
number of the setting you want to change and
press Enter
1 System Settings
      
Method of installation …………… New and Complete Overwrite
      
Disk where you want to Install …... hdisk0
2 Primary Language Environment Settings (AFTER
install)
      
Cultural Convention ………….  C
(POSIX)
      
Language …………………………. C (POSIX)
        Keyboard
…………………………. C (POSIX)
3 Install Trusted Computing Base …….. no
0 Install with the settings listed above
88 Help ?
99 Previous Menu
>>> Choice [1]:0_
9) 设置完毕选择 0  安装即开始,屏幕将不断显示安装的进行情况。此
时,只需耐心等待。当BOS安装完毕,系统将自动重启.
Installing Base Operating System
        
Please wait.
      
Approximate                    
Elapsed time
      
%task completed                 
(in minutes)

file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image013.gif

file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image015.gif
系统安装完成后,会自动重新启动,并自动进入“安装辅助菜单”。
1.3   
系统设置


file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image017.gif

1.3.1  
OS 初始时间、时区设置
root# smitty chtz

file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image019.gif

file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image021.gif
1.3.2   修改Root用户的口令

file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image023.gif
1.3.3  
安装额外所需的Fileset
root#
smitty installpàF4àcd0

file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image025.gif

file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image027.gif

1.3.4   安装系统补丁
从ibm网站上下载最新的补丁集,使用smit菜单安装系统补丁。
root#
smitty update_all

file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image029.gif
1.3.5  
设置登陆用户数、用户进程数
设置OS 允许的最大登陆用户数、单用户最大进程数:
root#
smitty chgsys/chlicense

file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image031.gif

file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image033.gif

1.3.6   配置主机解析顺序
#vi
/etc/netsvc.conf
hosts =
local,bind,nis

1.3.7  
OS 基本分区调整(rootvg)
由于系统默认安装完毕后各个分区都非常小,很有必要调整各分区的大小,将各个分区都相应加大,以符合应用需要。
调整磁盘空间方法:
1、  root用户:smit lv => Set Characteristic of a Logical Volume =>Increase
the Size of a Logical Volume。
2、  
在『LOGICAL
VOLUME name』中输入需要调整的LV的名称(或者使用“ESC+4”列表选择),在『Number of ADDITIONAL logical
partitions』中输入需要增加的LP的个数,再回车即可。
3、  
调整后rootvg中LV的大小应该如下所示:
# lsvg –l rootvg
rootvg:
LV NAME      TYPE     LPs  
PPs   PVs  LV STATE      MOUNTPOINT
hd5         
boot     1     2   
2    closed/syncd  N/A
hd6         
paging   16    32   
2    open/syncd    N/A
hd8         
jfslog   1     2   
2    open/syncd    N/A
hd4         
jfs      1     2   
2    open/syncd    /
hd2         
jfs      20    40   
2    open/syncd    /usr
hd9var      
jfs      4     8     2   
open/syncd    /var
hd3         
jfs      4     8   
2    open/syncd    /tmp
hd1         
jfs      1     2   
2    open/syncd    /home

注意:
上面显示的是LP个数,LP的大小可以使用“lsvg rootvg”命令得到,一般是128 MB。
PP SIZE:        128 megabyte(s)
调整后使用“df –k”验证文件系统的大小,防止因为LP大小不一致造成没有达到实际要求的大小。
1.3.8   镜像rootvg
安装好系统后,系统是单盘运行,为了保证系统的高可靠性,要求系统盘必须进行镜像。
1、检查rootvg的文件系统,如下显示没有做根盘镜像。
# lsvg -l rootvg
rootvg:
LV NAME             TYPE       LPs  
PPs   PVs  LV STATE      MOUNT POINT
hd5                 boot       1   
1     1    closed/syncd
N/A
2、根盘镜像
# extendvg rootvg hdisk1  //将硬盘hdisk1加入rootvg中
# mirrorvg –c2 rootvg //对rootvg做镜像
# bootlist –m normal –o hdisk0 hdisk1 //指定硬盘引导次序
# bosboot -a
# chvg –Qn rootvg
# lsvg –l rootvg
rootvg:
LV NAME      TYPE     LPs  
PPs   PVs  LV STATE      MOUNTPOINT
hd5         
boot     1   
2     2    closed/syncd
N/A
根据PPs为LPs的两倍,PVs为2,可以判断系统盘已经成功镜像。
3、重启系统使根盘镜像生效
#shutdown –Fr

2      
第二章 备份与恢复

2.1    rootvg的备份与恢复
对卷组rootvg的备份也就是创建一个可引导的映像,包含rootvg里面所有mount起来
的文件系统,我们可以用这个备份出来的引导映像来将崩溃的系统恢复到备份时的状态。

2.1.1   准备系统备份
在创建系统备份之前,需要完成以下先决条件:
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image001.gif
        
使用root用户登录。
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image001.gif
        
如果计划使用备份映象来安装其他不同配置的目标系统,必须在配置源系统之前创建映象,或者把 bosinst.data 文件里的“RECOVER_DEVICES”变量设置为“no”。
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image001.gif
        
如果使用备份来创建源系统的主副本,需要考虑修改密码和网络地址。
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image001.gif
        
安装要备份的所有文件系统    ,mksysb 命令仅备份所有安装在rootvg中的JFS(日志文件系统),不备份通过NFS网络安装的文件。要备份文件系统,还需要先mount。
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image001.gif
        
卸载任意安装在另一本地目录上的本地目录。
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image001.gif
        

/etc/exclude.rootvg 文件中列出不需要备份的文件。
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image001.gif
        

/tmp 目录里至少保留8.8MB的可用磁盘空间,mksysb 在备份过程中需要使用 /tmp 空间。
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image001.gif
        
必须已经安装所有硬件,包括外部设备,例如磁带机和CD-ROM驱动器。
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image001.gif
        
必须安装 bos.sysmgt.sysbr 文件集,使用“lslpp –l bos.sysmgt.sysbr”可以确定是否已经安装。

2.1.2   rootvg的备份
使用mksysb命令建立一个可引导的映像,包含rootvg里面所有mount起来的文件系统,我们可以用这个备份出来的引导的映像来将系统恢复到原先的状态。
系统备份步骤:
1、 关闭磁带的写保护。
2、 将磁带插入需要备份系统的内置磁带机。
3、  用root用户登录系统,如下操作,备份成功后会提示“Backup Completed Successfully”。
# mksysb -i /dev/rmt0

Creating information file (/image.data) for
rootvg.

Creating tape boot image....

Creating list of files to back up.
Backing up 28268
files............................
28268 of 28268 files (100%)
0512-038 mksysb: Backup Completed Successfully.
4、  取出磁带并贴上标明主机序号的标签,并对磁带进行写保护。
记住备份系统的root用户密码。
2.1.3  
rootvg的恢复
通过使用mksysb 映象,可以将一个系统映象克隆到多个目标系统上,目标系统可能不包含与源系统相同的硬件设备或适配器,但需要与源系统相同的内核(单处理器或微处理器),或者是与源系统相同的硬件平台。

系统恢复步骤:
1、  把与主机序号相一致的磁带插入磁带机,重启系统。
2、  在系统启动界面出现时,按1键,进入menu模式。
3、  选择7(Select Boot Options)并回车。
选择1(Select Install or Boot Device)并回车。
选择2(Tape)并回车。
选择6(List all device)并回车。
选择12(SCSI Tape)并回车。
选择2(Normal Mode Boot)并回车。
选择1(Yes)并回车。
4、  系统提示“STARTING SOFTWOARE     PLEASE WAIT...”。
5、  输入 1 选择系统终端,并回车。
6、  选择1(Type 1 and press Enter to have
English during install),并回车。
7、  选择3(Start Maintenance Mode for System
Receovery),并回车。
8、  选择4(Insatll from a System Backup),并回车。
9、  选择1(tape/scsi/scsd),并回车。
10、            
选择0(Install
with the settings listed above),并回车。
11、            
系统开始恢复,界面上会提示恢复安装进度。
12、            
系统恢复完成后会自动重启,重启完成后就完成了系统恢复安装。
2.1.4  
系统恢复后应用数据的恢复
一般情况下,应用数据的lv是放在rootvg外的卷组的(这里以恢复datavg卷组中的informix为例),如果你的系统不幸崩溃,当你将系统恢复以后,你会发现你的应用数据都没有了,别着急,按照以下的步骤可以将数据抢救回来J
#importvg -y datavg hdisk01 //导入vg,hdisk01是datavg中的任一磁盘。
#varyonvg datavg
//激活vg
#lsvg –o  //查看已经激活的vg
# lsvg -o
datavg
rootvg
#lsvg –l datavg //查看datavg中的lv
剩下的工作就是将lv mount上来了,在此就不细讲了。
2.2   
非rootvg卷组的备份与恢复
2.2.1   非rootvg卷组的备份
用savevg命令备份属于某个指定的VG的所有文件
命令的flag
   
-i                调用mkvgdata命令来建立数据文件
   
-f Device   指定用来存放备份的设备或文件名
例子:
# savevg -if /dev/rmt0 uservg
   
Creating list of files to back up....
   
Backing up 9077 files..................................
     4904
of 9077 files (54%)...................................
     8798
of 9077 files (96%)...................................
     8846
of 9077 files (97%)...................................
     9029
of 9077 files (99%)...................................
   
0512-038 savevg: Backup Completed Successfully.
或使用smit菜单:#smitty savevg
2.2.2   非rootvg卷组的恢复
# smitty restvg



file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image035.jpg

2.3   
基于文件和目录的备份与恢复
2.3.1   使用tar命令进行文件的备份恢复
用tar命令的参数:
   -x                 从介质恢复文件
  -c                建立一个新的归档,并写文件此归档
  -t                 按照文件在归档里面的顺序显示文件
  -f Archive   指定归档的名字,如/dev/rmt0
   
-v                  在处理的时候显示文件的名字        
例子:
将/opt/tellin目录tar进磁带
# tar -cvf /dev/fd0 /opt/tellin
将磁带机的文件tar出来
  #
tar -xvf  /dev/fd0 [files]
列出磁带上的文件目录
#
tar -tvf  /dev/fd0
2.3.2   使用backup命令对文件目录进行备份
使用backup命令的参数:
   -i    指示从标准输入读文件,并以文件名称归档
  -p    指示在归档前对文件压缩
  -q    指示可移除的介质已经准备就绪。这样backup命令不用询问你就可以继续下去。
  -u    更新/etc/dumpdates文件的内容,把备份的时间,日期,级别写进去
  -v    让backup命令显示关于备份的额外的信息
例子:
#find . -print | backup -i -f /dev/rmt0
命令格式:
# backup -u [-level] [-f device]
[filesystem]
backup命令加上-u这个flag就可以进行递增的备份。递增备份分成0-9共10级,其中0级为完整的备份,后面的每个级别在备份的时候会仅备份自上一个级别备份以来有改变的部分。
例子:
在星期天执行完整的备份:
 # backup -0 -uf /dev/rmt0
/data
在星期一执行递增备份
 # backup -1 -uf /dev/rmt0
/data
以次类推,在星期六执行以下的备份
 # backup -6 -uf /dev/rmt0
/data
2.3.3   使用restore命令进行文件恢复
列出在介质上的文件
   #
restore -Tvf   /dev/rmt0
恢复单独的文件
   #
restore -xvf /dev/rmt0  /home/mike/alog
恢复完整的文件系统
  #
restore -r[-q][-v][-f device] filesystem
2.3.4   使用smit菜单进行文件目录恢复
# smitty restfile



file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image037.jpg
3      
第三章 系统维护
3.1   
巡检内容
IBM RS/6000巡检内容及操作指导
3.1.1   机房要求
1. 机房的卫生状况,要求清洁,键盘、显示器、机柜上没有灰尘。
2. 温度(摄氏 ℃)
10 ℃-40℃
湿度(%)
8% -80%
3.1.2   设备故障灯分类
主机故障灯
面板上不能有数字显示,如果有的话,说明系统有故障。
7133磁盘阵列故障灯
告警灯为黄色表示有故障
磁带机故障灯
告警灯为黄色说明有故障或磁带机太脏,须清洗。
3.1.3   系统错误报告的检查
硬件故障检测命令:#
errpt -d H -T PERM
若有故障执行命令#
errpt -a -d H -T PERM>/tmp/harderror.log保存。
软件故障检测命令:#
errpt -d S -T PERM
若有故障执行命令#
errpt -a -d S -T PERM>/tmp/softerror.log保存。
(请参照日志管理小节)
3.1.4   有否发给root用户的错误报告(mail):           
#mail
1. 观察所有未读消息,注意有关diagela的消息。
2. 常用命令:
h []               Display headings of group
containing message  
t
[]          Display messages in  or
current message.
n                     
Display next message.
q                     
Quit  
3. 对发现的问题详细分析。
3.1.5   文件系统的检查:
命令:
# df -k
%Used为文件系统的使用率。所有文件系统的使用率不能大于80%
3.1.6   磁带机清洁的检查:
命令:
#/usr/lpp/diagnostics/bin/utape
-cd rmt0 -n
显示结果为磁带机使用的小时数,若大于72小时,则不论磁带机黄灯是否亮都应用清洁带清洗。
3.1.7   网络的检测:
1.检查网卡的状态,同时检查ip地址和netmask是否正确。
2.检查路由是否正确 。
3.使用ping测试网络通讯是否正常 。
(请参照网络管理小节)
3.1.8   HACMP 配置检测
使用命令:
#
/usr/sbin/cluster/diag/clconfig -v '-tr'
输出判断:
结果无Fail项输出。
(请参照第四章hacmp的诊断)
3.1.9   系统硬件诊断:
  硬件诊断步骤:
1.#diag
2.Enter
3.Diagnostic Routines
4.System Verification
5.All Resources
6.F7
输出判断:
结果应为No trouble was found.
3.1.10         
补丁程序(PTF)的检查   
1. 检查系统维护补丁版本,检查命令为:
#instfix -i |grep ML
3.2   
文件系统管理
3.2.1   创建pv
在物理磁盘上写上特殊的数据结构,使其能够被磁盘管理系统识别。只有这样磁盘管理系统才能对它进行管理。

一、创建逻辑磁盘
通过smit工具配置生成vgdb所需的逻辑磁盘,该逻辑磁盘为硬件RAID1方式的配置。
# smit ssaraid
选择:
Add an SSA RAID Array
在出现的界面中输入相关的参数:
Move cursor to desired item and press Enter.
ssa0 Available 1D-08 IBM SSA 160 SerialRAID
Adapter (14109100)
选择一块SSA卡,按回车键确认,出现RAID方式选择界面;
RAID Array Type
Move cursor to desired item and press Enter.
raid_0                  RAID-0 array
raid_1                  RAID-1 array
raid_5                  RAID-5 array
raid_10                 RAID-10 array
选择需要配置的RAID方式(请选择raid_1),按回车键确认,出现相应的SSA RAID配置对话框(此处为Raid1配置对话框),在Raid1配置对话框中配置testvg所需的逻辑磁盘,在出现的界面中输入相关的参数:
Type or select values in entry fields.
Press Enter AFTER making all desired changes.
[Entry Fields]
  SSA RAID
Manager                       ssa0
  RAID
Array Type                                raid_1
* Primary Disks
                          pdisk0                              
+
* Secondary Disks                                    
pdisk2                              
+
  Split
Array Resolution                          Primary                  +
  Enable
Use of Hot Spares              no                      +
  Choose
Hot Spare only from Preferred Pool  no                  +
  Allow Hot
Spare Splits                        no                      +
  Allow
Page Splits                                 yes                     +
  Initial
Rebuild                               no                     
  Enable
Fast-Write                                yes                     

参数说明:
(1) Primary Disks:选择主用物理磁盘;
(2) Secondary Disks:选择镜像物理磁盘;
(3) Split Array Resolution:选择Primary,则一旦Primary Disks域中选择的磁盘坏了,则系统dump;选择secondary,则一旦Primary Disks 盘坏,如果Secondary Disks是好的,则系统还可以运行。因此如果强调系统高可靠性,选primary,如果为了系统的可用性,选secondary;请根据实际需要设置。
(4) Enable Use of Hot Spares:如果选择了磁盘作Hot Spares,则此处设置为yes,如果没有,则选择no;
(5) Allow Hot Spare Splits:如果选择了Hot Spares,则此处选择是否将Hot Spares条带化;
(6) Enable Fast-Write:为了提高性能,建议选择yes。
最后回车执行,生成vgdb所需的逻辑磁盘hdisk2(此处假定hdisk0为安装操作系统的本地磁盘、hdisk1为系统盘镜像盘,也为本地磁盘)。
检查创建是否正确:
选择“smit ssaraid-> List
All Defined SSA RAID Arrays”。
创建完毕,使用cfgmgr –v命令扫描硬件,系统会自动查找添加hdisk。
显示如下表示创建成功:
#cfgmgr -v
cfgmgr is running in phase 2
----------------
****************** stdout ***********
pdisk0 pdisk1 pdisk2  enclosure0 //系统查找添加到三个硬盘
****************** no stderr ***********
----------------
Time: 15      
LEDS: 0x539
Number of running methods: 0
----------------
attempting to configure device 'pdisk0'
Time: 15      
LEDS: 0x538
invoking /usr/lib/methods/cfgssapdisk -l pdisk0
Number of running methods: 1
----------------
attempting to configure device 'pdisk1'
Time: 15      
LEDS: 0x538
invoking /usr/lib/methods/cfgssapdisk -l pdisk1
Number of running methods: 2
----------------
attempting to configure device 'pdisk2'
Time: 15      
LEDS: 0x538
invoking /usr/lib/methods/cfgssapdisk -l pdisk2
Number of running methods: 3

----------------
attempting to configure device 'enclosure0'
Time: 15      
LEDS: 0x80a
invoking /usr/lib/methods/cfgssaenclosure -l
enclosure0
Number of running methods: 16
----------------
Completed method for: hdisk2, Elapsed time = 0
return code = 0
****************** no stdout ***********
Configuration time: 17 seconds
# lsdev -Cc disk
//查看系统检测到的硬盘
hdisk1 Available 40-60-00-8,0 16 Bit LVD SCSI
Disk Drive
hdisk2 Available 11-08-L      SSA Logical Disk Drive
hdisk0 Available 40-60-00-4,0 16 Bit LVD SCSI
Disk Drive
# lspv
hdisk1         
0001ac2f393b8057                  
rootvg         
hdisk2         
0001ac2fd351b84e                  
None   
//新增加的硬盘hdisk2            
hdisk0         
0001ac2f0a53bd4a                  
rootvg         
3.2.2   创建VG
在root用户执行smit mkvg,如下设置数据并执行即可。
# smit mkvg
         Add a Volume Group
Type or select values in entry fields.
Press Enter AFTER making all desired changes.
                                                      
[Entry Fields]
  VOLUME
GROUP name                           
     [vgdb]
//vg名字
  Physical partition
SIZE in megabytes                                  128  
//选择pp大小单位是m,通常选128m                 
* PHYSICAL VOLUME names                                          
[hdisk2]  //选硬盘              
  Activate
volume group AUTOMATICALLY                  
yes  
    at
system restart?                //系统重启后是否自动激活vg     
  Volume
Group MAJOR NUMBER                                       []                     
  Create VG
Concurrent Capable?                           no                       

Auto-varyon in Concurrent Mode?                                 
  no            
  LTG Size
in kbytes                             
                     128                     
创建后检查:
# lspv   //检查pv分配
hdisk2         
0003c08ef1dfe867                  
vgdb
hdisk0         
0008771e277dc3b7                  
rootvg
hdisk1         
000876de2a55110f                  
rootvg
#lsvg –o   //查看当前激活的vg
rootvg
vgdb
# lsvg vgdata   
//检查vg的属性
VOLUME GROUP:  
vgdata                   VG
IDENTIFIER:  0001ac2f00004c000000010
5c95ab923
VG STATE:      
active                   PP
SIZE:        64 megabyte(s)
VG PERMISSION:
read/write               TOTAL
PPs:      543 (34752 megabytes)
MAX LVs:      
256                      FREE PPs:       541 (34624 megabytes)
LVs:           
2                       
USED
PPs:       2 (128 megabytes)
OPEN LVs:      
0                       
QUORUM:         2
TOTAL PVs:     
1                       
VG
DESCRIPTORS: 2
STALE PVs:     
0                       
STALE
PPs:      0
ACTIVE PVs:   
1                       
AUTO
ON:        yes
MAX PPs per PV: 1016                     MAX PVs:        32
LTG size:      
128 kilobyte(s)          AUTO
SYNC:      no
HOT SPARE:     
no
3.2.3   创建LV
在root用户执行smit mklv,如下设置数据并执行即可。
# smit mklv
           
     Add a Logical Volume
Type or select values in entry fields.
Press Enter AFTER making all desired changes.

[TOP]                                                  
[Entry Fields]
  Logical
volume NAME                                    [lvdb]
* VOLUME GROUP name                                 
vgdb
* Number of LOGICAL PARTITIONS                        
[10]  
//分配的lp数量,lp大小等于pp大小   
  PHYSICAL
VOLUME names                             
[hdisk2]        
  Logical
volume TYPE                                    
[jfs]
//lv类型
  POSITION
on physical volume                            middle         
  RANGE of
physical volumes                       
      minimum      
  MAXIMUM
NUMBER of PHYSICAL VOLUMES                 []               
    to use
for allocation
  Number of
COPIES of each logical                            1              
   
partition
  Mirror
Write Consistency?                        
                    yes           
  Allocate
each logical partition copy                                 yes              +
创建后检查:
# lsvg –l vgdb  
//查看vgdb中的逻辑卷
vgdb:
LV NAME         TYPE       LPs  
PPs   PVs  LV STATE      MOUNT POINT
lvdb                jfs        10   
10    1    closed/syncd           N/A
3.2.4   创建FS
AIX创建文件系统有两种方式:
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image001.gif
        
根据已有LV创建FS,用户自己维护LV(建议使用此办法建fs)。
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image001.gif
        
直接创建FS,用户不需要自己维护LV,可以直接扩充FS(系统建fs,不建议使用)。
这里仅介绍第一种方式,第二种方式类似,可以自己试试。
在root用户执行smit crfs,设置数据后执行即可,这里不作详细解释了。
3.3   
网络管理
3.3.1   网卡速率和通讯方式
网卡默认通过自适应方式来匹配网卡通信速率和通讯方式。对于快速以太网,网卡速率可以设置成100Mbps、10Mbps和自适应三种,通讯方式可以设置成全双工(full-duplex)、半双工(half-duplex)和自适应三种。建议将网卡的速率、通讯方式都设置为自适应方式。
在大多数情形下,以太网接口采用自适应的方式匹配速率和通讯方式。当出现以太网接口速率和通讯方式不匹配时,会影响数据的传输,这种情况下,需要对以太网链路两端的通信设备进行手工调整,确保双方的工作速率和通讯方式一致。

一、检查方法
1、AIX环境下,使用lsdev -Cc adapter命令查询网卡的设备名称,状态是Available表明该网卡可用。
#lsdev -Cc adapter
……
ent0   
Available 1L-08    10/100 Mbps
Ethernet PCI Adapter II (1410ff01)
ent1   
Available 14-08    10/100 Mbps
Ethernet PCI Adapter II (1410ff01)
……
    查找网卡的PCI槽位,下面例子中ent0在第五个PCI槽,ent1在第10个PCI槽位。
# lsslot -c pci |grep ent
U0.1-P1-I5  
PCI 64 bit, 66MHz, 3.3 volt slot
ent0
U0.1-P1-I10
PCI 64 bit, 66MHz, 3.3 volt slot
ent1
以上输出表明,存在设备名称分别为ent0、ent1的网卡。
&  说明:
AIX环境下,entX是网卡的物理设备名称,其对应的逻辑设备名称为enX。如网卡ent0对应的逻辑设备是en0。

2、通过“entstat -d 设备名称>”命令查询网卡信息。
#entstat -d ent0
-------------------------------------------------------------
ETHERNET STATISTICS (ent0) :
Device Type: 10/100 Mbps Ethernet PCI Adapter II
(1410ff01)
Hardware Address: 00:02:55:4f:24:bd
Elapsed Time: 33 days 22 hours 43 minutes 8
seconds
……
-------------------
No mbuf Errors: 0
Adapter Reset Count: 0
Adapter Data Rate: 200
Driver Flags: Up Broadcast Running
        Simplex AlternateAddress 64BitSupport
      
ChecksumOffload PrivateSegment DataRateSet

10/100 Mbps Ethernet PCI Adapter II (1410ff01)
Specific Statistics:
--------------------------------------------------------------------
Link Status: Up
Media Speed Selected: Auto negotiation
Media Speed Running: 100 Mbps Full Duplex
……
以上输出表明,ent0网卡采用自适应方式工作,速率为100Mbps,全双工。建议网卡采用自适应方式工作。

二、设置方法
当出现以太网接口速率和通讯方式不匹配时,需要对以太网链路两端的设备进行手工调整,确保双方的速率和通讯方式一致。建议设置都为自适应模式。
AIX环境下,可以通过smit设置网卡工作速率和通讯方式:
# smit chgenet
首先选择需要修改属性的网卡,之后在出现的界面中,根据需要修改“Media Speed”,有如下选项:
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image001.gif
        
10_Half_Duplex,表示10Mbps半双工;
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image001.gif
        
10_Full_Duplex,表示10Mbps全双工;
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image001.gif
        
100_Half_Duplex,表示100Mbps半双工;
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image001.gif
        
100_Full_Duplex,表示100Mbps全双工;
file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image001.gif
        
Auto_Negotiation,表示速率/通讯方式自适应。

Change / Show Characteristics of an Ethernet
Adapter
Type or select values in entry fields.
Press Enter AFTER making all desired changes.

                                                      
[Entry Fields]
  Ethernet
Adapter                                
   ent0

Description                                       
10/100 Mbps Ethernet >

Status                                             
Available

Location                                          
1L-08
  Transmit
descriptor queue size                    
[512]                   +#
  Receive
descriptor queue size                     
[512]                   +#
  Software
transmit queue size                     
[8192]                  +#
  Receive
buffer pool size                          
[1024]                  +#
  Media
Speed                              
          Auto_Negotiation       +
  IPsec
Offload                                      
no                     +
  Enable RX
Checksum Offload                        
no                     +
  Enable
TCP Large Send Offload                     
no                     +
  Enable
Link Polling                                
no                     +
  Time
interval for Link Polling                    
[500]                   +#
  Enable
ALTERNATE ETHERNET address                  
no                     +
  ALTERNATE
ETHERNET address                        
[0x0002554f2490]        +
  Apply
change to DATABASE only                     
no                     +
3.3.2   网络故障定位方法
在aix服务器网络出现故障的情况下,排除网络故障请按照以下步骤:
a)      
检查网卡状态:
可以通过检查网卡的信号灯是否熄灭来确认网卡的使用是否正常,网卡的LINK灯正常情况下是常亮,ACT数据灯正常情况下是闪烁表示正在传送数据。
使用命令ifconfig查看网卡所绑定的ip地址是否正确,子网掩码设置是否正确,状态是否是否启动(up),
# ifconfig -a
en0:
flags=4e080863
BIT,PSEG>
      
inet 10.77.221.39 netmask 0xfffffe00 broadcast 10.77.221.255
通过“entstat -d ent0”命令查询网卡状态是否是:Link
Status: Up,速率和双工模式是否正确:
#  entstat
-d ent0
RJ45 Port Link Status : up
Media Speed Selected: Auto negotiation
Media Speed Running: 100 Mbps Full Duplex

使用netstat –in命令查看网络包分析情况,Ierrs/Ipkts
和 Oerrs/Opkts是否>1%:
# netstat -in
Name
Mtu   Network     Address            Ipkts Ierrs    Opkts Oerrs
Coll
en1*
1500  link#2      0.6.29.6c.57.19          0   
0        1     0   
0
en1*  1500  192.168.33
192.168.33.33            0     0      
1     0     0
en0  
1500  link#3      0.6.29.6c.37.95   17760714   
0 36399456     0     0
en0  
1500  10.77.220   10.77.221.39      17760714     0 36399456     0   
0
注意:en0后面不能有*号!
b)      
检查网络链路故障:
如果网卡的状态是down状态,且网卡LINK灯熄灭,应该首先排除网络链路的故障,使用的是双绞线可以使用测线仪来测试网线是否合格;如果是千兆网卡,可以通过查看发光纤的一端是否有红色信号光。同时也应该检测交换机端的端口状态是否关闭,交换机端的端口双工模式是否和主机端网卡模式相匹配。
c)      
检查系统日志:
如果网卡出现硬件故障或ip地址冲突,都会在系统日志中有所记录。
下面例子是ent0的网线没接好在系统日志中的报错信息:
Errpt |more
……
DED8E752  
0904215405 T H ent0           ETHERNET DOWN
……
errpt –aj DED8E752
LABEL:         
GOENT_LINK_DOWN
IDENTIFIER:   
DED8E752

Date/Time:      
Mon Sep  5 08:41:00 BEIS
Sequence Number: 170
Machine Id:     
0003BF4E4C00
Node Id:        
ibm04
Class:         
H
Type:           
TEMP
Resource Name:  
ent1            
Resource Class:
adapter
Resource Type:  
14108902
Location:      
1H-09
VPD:            
      
Product Specific.(  ).......2-Port
10/100/1000 Base-TX PCI-X
                                   
Adapter
      
Part Number.................00P6131
        FRU
Number..................00P6131
        EC
Level....................H12819
      
Manufacture ID..............YL1021
      
Network Address.............00096B6E63DD
        ROM
Level.(alterable).......DV0210
Description
ETHERNET DOWN
Probable Causes
CABLE
CSMA/CD ADAPTER
Failure Causes
LINK TIMEOUT
      
Recommended Actions
      
CHECK CABLE AND ITS CONNECTIONS
   
d)      
诊断网卡:
如果在网络链路正常的情况下网卡的状态不正确,且状态无法激活的情况下,需要对网卡做诊断,诊断办法:
diag ->Advanced Diagnostics Routines->Problem Determination->选择要诊断的设备如ent0
e)      
检查主机网络配置文件:
       检查“/etc/hosts”文件是否正确,可以参考如下配置:
127.0.0.1      
loopback   localhost      # loopback (lo0) name/address
10.77.220.249   ibm01
f)         
检查路由信息:
     如果以上检查均正常,并且本地服务器可以ping通同一局域网的其他机器,但无法访问某一特定网段的机器,这种情况很有可能是缺少路由或路由配置不对,使用netstat命令查看路由状态,如果缺少某一路由,可使用route add命令增加一个指定路由 (添加方法请见上一小节)
# lsattr -El inet0  //检查路由配置情况
hostname     
mscp01 Host Name                       
True
gateway              Gateway                        
True
route                Route                           
True
bootup_option no     Serial Optical Network Interface True
rout6                FDDI Network Interface           True
authm        
65536  Authentication Methods           True
# netstat –rn
//检查本机路由
Routing tables
Destination     
Gateway           Flags   Refs   
Use  If   PMTU Exp Groups
Route Tree for Protocol Family 2 (Internet):
10.77.220/23   
10.77.221.39      U        19 36386008  en0   
-   -
10.77.221.39   
127.0.0.1         UGHS     35   
19846  lo0     -  
-
127/8           
127.0.0.1         U         6     
585  lo0     -  
-
192.168.33/24   
192.168.33.33     U         0      
25  en1     -  
-
192.168.33.33   
127.0.0.1         UGHS      0      
1  lo0     -  
-
除了本机路由不对外,还有一种情况是网络设备的路由不对,在这种情况下使用traceroute命令跟踪到指定网段的网络路径,查找出ip包在那个路由器或防火墙丢失,从而将故障定位在那个网络设备上。

3.4    日志管理
   通常我们在进行服务器的健康性检查,和在出现问题的时候都会去考虑查看系统的日志。
一旦系统的某个功能模块检测到一个错误或定义的需要记录日志的事件,则记录到/dev/error设备,把它保存在NVRAM中,这样可以保证即使在系统崩溃的情况下也不会丢失最新的错误日志。 同时,错误日志进程errdemon从/dev/error文件中读取错误日志,然后根据错误模版库(/var/adm/ras/errtmpit)和错误消息库(/usr/lib/nls/msg/$LANGcodepoint.cat)
对其进行处理后写入系统的错误日志/var/adm/ras/errlog中。错误日志进程由/usr/lib/errdemon命令启动,/usr/lib/errstop停止,默认是启动的。

3.4.1   日志进程
     从/dev/error逻辑设备文件中读取纪录,然后在系统错误日志中创建错误日志纪录Errdemon的配置:
/usr/lib/errdemon 命令可以启动errdemon进程,同样我们也可以通过使用参数来修改我们的errdemon,显然如果我们不是太了解还是系统初始的配置更适合我们!
例如:
/usr/lib/errdemon –s 20000  
设定我们的日志文件大小为20000bytes 最可能用到的可能就是-l参数了
/usr/lib/errdemon –l
# /usr/lib/errdemon -l
Error Log Attributes
--------------------------------------------
Log File              
/var/adm/ras/errlog
Log Size                1048576 bytes
Memory Buffer Size      16384 bytes
Duplicate Removal       true
Duplicate Interval      100 milliseconds
Duplicate Error Maximum 1000
   上面显示我的错误日志文件是/var/adm/ras/errlog,这也是系统默认的错误日志的存放位置。具体其他的参数可以参看man 手册。
3.4.2   查看日志
    errlog文件是二进制文件,用more或者其他文本的查看命令来打开errlog文件我们看到的只是一堆乱码,为了能够查看错误日志文件需要使用aix的errpt命令。
使用errpt命令查看日志,可能根据使用的参数来确定输出什么样的日志,甚至排序的方式,这是使用纯文本的日志不能做到的,或者说不能轻易做到的。
下面我们来看errpt命令的使用。
# errpt
IDENTIFIER
TIMESTAMP  T C RESOURCE_NAME  DESCRIPTION
9DBCFDEE
  0109034400 T O errdemon       ERROR LOGGING TURNED ON
192AC071
  0109034300 T O errdemon       ERROR LOGGING TURNED OFF
C092AFE4
  0109033500 I O ctcasd         ctcasd Daemon Started
A6DF45AA
  0109033500 I O RMCdaemon      The daemon is started.
9DBCFDEE
  0109033400 T O errdemon       ERROR LOGGING TURNED ON
192AC071   0106130900 T O errdemon       ERROR LOGGING
TURNED OFF 369D049B   0106082400 I O SYSPFS        
UNABLE TO ALLOCATE SPACE IN FILE SYSTE
这里的输出分为六列依次为:
1.错误标示符IDENTIFIER:并不唯一,由它来确定使用的错误模板,显然同一种错误的IDENTIFIER是相同的。
2.时间戳TIMESTAMP:错误发生的时间,MMDDhhmmYY,依次表示月日时分年。
3.类型TYPE:错误的类型,或者说严重的程度。
分为6个:
PEND 设备或功能组件可能丢失
简写P
PERF 性能严重下降 P
PERM 硬件设备或软件模块损坏,确诊了的 P
TEMP 临时性错误,经过重试后已经恢复正常 T
INFO 一般消息,不是错误 I
UNKN 不能确定错误的严重性 U
4.种类CLASS c:指出错误源
H 硬件或介质故障
S 软件故障
O 人为错误
U 不能确定
5. 资源名RESOURCE_NAME
最初检测到错误的资源名软件或者硬件,并不代表这个资源有问题,而只是最先在它发现的。
6.描述
显示详细的日志信息
# errpt
-a|more
Standard
input
---------------------------------------------------------------------------
Standard
input
LABEL:
         ERRLOG_ON
IDENTIFIER:
    9DBCFDEE
Date/Time:
      Sun Jan  9 03:44:04 BEIS
Sequence
Number: 309
Machine
Id:      004250B94C00
Node Id:
        ibm-5L
Class:
          O
Type:
           TEMP
Resource
Name:   errdemon
Description
ERROR
LOGGING TURNED ON
Probable
Causes
ERRDEMON
STARTED AUTOMATICALLY
User
Causes
/USR/LIB/ERRDEMON
COMMAND

     Recommended Actions

     NONE
其它:指定日志文件 –I可以用来查看一个非errdemon指定位置的日志文件,例如某个日志文件备份。
-t 参数,只显示-t参数指定的错误类型TYPE。
-s 显示指定时间之后的日志文件.
-d 指定种类CLASS.
详细的参数只能看man 手册了
# errpt -a -j 74533D1A
# errpt -s 0108100100
IDENTIFIER TIMESTAMP  T C RESOURCE_NAME  DESCRIPTION
9DBCFDEE   0109034400 T O errdemon      ERROR LOGGING TURNED ON
192AC071  
0109034300 T O errdemon      ERROR LOGGING TURNED OFF
C092AFE4  
0109033500 I O ctcasd        
ctcasd Daemon Started
A6DF45AA  
0109033500 I O RMCdaemon   The
daemon is started.
9DBCFDEE  
0109033400 T O errdemon      ERROR
LOGGING TURNED ON
3.4.3   清理日志
            errclear命令可以用来清理错误日志,并且默认情况下cron会每天清理错误日志
# crontab -l
0 11 * * * /usr/bin/errclear -d S,O 30
0 12 * * * /usr/bin/errclear -d H 90
0 15 * * *
/usr/lib/ras/dumpcheck >/dev/null 2>&1
显然,找上面的例子,S,O 类的错误会保留30天,而H的错误会保留90天
errclear 0  
删除多有记录
errclear 7 删除7天以前的记录
smit errclear
3.5   
性能调优
3.5.1   性能调优流程图
虽然性能分析和调整没有绝对的准则,但我们可以遵循一些通用的流程。检测系统性能的顺序非常重要,正确的顺序应该是:CPU、内存、I/O、网络,以下是性能调优的流程图:

file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image039.jpg
1)      
首先使用sar、vmstat、topas监控工具是否是cpu的原因?
如果是cpu不足的问题,可以采用的解决办法有:优化系统内核参数、优化应用程序重新安排作业运行的时间表、升级cpu的解决办法。
2)      
用vmstat检测是否是内存的原因?
如果是内存不足,可以采用的解决办法有:优化系统内核参数、优化应用程序的内存参数(如informix的buffer和lock参数、scu的maxmemtl(最大内存表)参数)、增加内存等解决办法。
3)      
用iostat检查是否是硬盘IO的读写原因:
如果是硬盘读写IO速度太慢,可以采用的解决办法有:重新划分存储进行调带处理,增加交换区,更换光存储硬盘等解决办法。
4)      
用netstat检查是否是网络的原因
如果是网络速度过慢,可以采用的解决办法有:修改网络参数、远程数据本地化、更换网络适配器和网络链路等解决办法。
3.5.2   性能分析工具
3.5.2.1            
  vmstat工具
vmstat是unix通用的性能检测工具,该命令能够提供关于各种系统资源及相关性能问题的非常快速和简洁的信息。vmstat命令可以报告出以下统计信息:运行队列和等待队列中的内核进程、内存、paging、磁盘、中断、系统调用、线程间切换(Context
Switch)和CPU活动。其中CPU活动按百分比分成用户模式、系统模式、空闲时间和等待I/O时间。
vmstat命令可以找出三个方面可能的性能问题:CPU、内存和I/O。
vmstat命令的用法是:
vmstat [-ifs] [devices] [interval] [count]
vmstat –s
加 –s 参数可以报告从系统启动到现在的paging和系统事件的概要信息。输出形式如下:
# vmstat -s
2895207           total
address trans. faults
145740             page
ins
83203              page
outs
3436         paging
space page ins
7844         paging
space page outs
0                      total
reclaims
1260991   zero
filled pages faults
5360         executable
filled pages faults
1171187   pages
examined by clock
35                    revolutions
of the clock hand
72712              pages
freed by the clock
16984              backtracks
0                      lock
misses
1904         free
frame waits
0                      extend
XPT waits
58771              pending
I/O waits
111921            start
I/Os
111921            iodones
12935949        cpu
context switches
74569755        device
interrupts
0                      software
interrupts
0                      traps
54273766        syscalls
vmstat –f
加 –f 参数可以报告从系统启动到现在fork出的进程或线程的数目。
加 –i 参数可以报告从系统启动到现在或每个时间间隔内的设备中断情况。输出形式如下:
# vmstat -i
priority level   
type   count module(handler)
    0      80  
hardware     0
/usr/lib/drivers/planar_pal_chrp(1df7acc)
    0      81  
hardware     0 /usr/lib/drivers/planar_pal_chrp(1df7af0)
    0      81  
hardware     0
/usr/lib/drivers/pci/s_scsiddpin(1e2ec28)
    3      19  
hardware 119054 /etc/drivers/ssapin(1e69d10)
    3      20  
hardware 128930 /etc/drivers/ssapin(1e69d10)
    3      35  
hardware 21182617 /usr/lib/drivers/pci/phxentdd(1fbb464)
    3      40  
hardware 3974529 /usr/lib/drivers/pci/phxentdd(1fbb464)
    3      49  
hardware 2925178 /usr/lib/drivers/pci/s_scsiddpin(1e2eb2c)
    3      50  
hardware    60
/usr/lib/drivers/pci/s_scsiddpin(1e2eb2c)
    4       1  
hardware   853
/usr/lib/drivers/isa/kbddd_chrp(1fd5170)
    4      12  
hardware  3217
/usr/lib/drivers/isa/msedd_chrp(1fdb2f0)
vmstat [interval] [count]
vmstat后面跟时间间隔和显示次数可以周期性地报告进程、paging、内存和CPU的利用情况。在下面的vmstat输出中,我们可以看出一个占用CPU资源很多的程序启动和停止的过程:
# vmstat 2 7
kthr   
memory             page              faults        cpu
----- ----------- ------------------------
------------ -----------
r  b  
avm   fre  re  pi  po
fr   sr  cy
in   sy  cs us sy id wa
1  1 51971
5339   0   0  
0  10   28   0
174  120
81  0  1 98  1
0  0 51975
5335   0   0  
0   0    0   0
151 2123  52  0  0
99  0
0  0 51975
5335   0   0  
0   0    0   0
149 2067  51  1  0
99  0
0  0 51975
5335  0   0  
0   0   
0   0 148 2071  51  85  15 0  0
0  0 51975
5335  0   0  
0   0    0   0
162 2079  54  78  21 1  0
0  0 51975
5335   0   0  
0   0    0   0
154 2067  50  0  0
99  0
0  0 51975
5335   0   0  
0   0    0   0
144 2119  49  0  1
99  0
在这个例子中我们可以发现,前三行的输出中CPU空闲的比率为95%以上。然后一个占用CPU资源很多的程序启动,此时CPU空闲为0,可以看出CPU资源明显不足。该程序停止后,CPU的利用率又回到起始值。
要检查CPU是否为性能瓶颈,我们应该关注cpu下面的四列和kthr(Kernel Threads)下面的两列。下面详细介绍这六列的含义。
CPU列
表示在指定时间间隔内CPU的利用情况。
us列显示消耗在用户模式的CPU时间的百分比。UNIX进程可以运行在用户模式,也可以运行在系统模式。当运行在用户模式时,进程执行自己的应用代码,不需要内核资源来执行计算、管理内存或设置变量。
sy列显示程序运行在系统模式的CPU时间的百分比。这包括内核进程和其它需要访问内核资源的进程所消耗的CPU时间。如果一个进程需要内核资源,它必须执行一个系统调用,然后切换至系统模式,获得资源。
理想的CPU工作时间应该是100%,这在不需要共享CPU的单用户系统下是正确的。通常情况下,如果一个单用户系统的 us+sy 时间小于90%,就可以认为CPU不是性能瓶颈。然而在多用户系统中,如果us+sy 时间大于80%,进程就要在运行队列中等待CPU,响应时间和吞吐量都会受到影响,此时CPU就可以被认为是性能瓶颈。
id列显示CPU空闲或等待的百分比。这个百分比中不包括等待磁盘I/O的时间。如果当前没有进程需要运行,系统会分派一个叫做wait的进程给CPU运行。
wa列显示CPU等待磁盘I/O的空闲时间的百分比。当wait进程运行时,如果存在至少一个为完成的磁盘I/O,CPU时间就记入wa列。等待磁盘I/O的进程被放在等待队列,一旦该进程的I/O请求结束,它就被放入运行队列。
如果wa值大于25%,就表示磁盘子系统可能不平衡,或者应用是对磁盘敏感的。
KTHR列
表示在指定时间间隔内每秒种放入不同队列中的内核线程数。
r列表示在指定时间间隔内每秒种放入运行队列中的内核线程的平均数,也就是可以运行的线程数。在单CPU的系统中,这个值应该小于5。对于SMP系统,这个值应该小于:
           5 × ( Ntotal - Nbind )
其中Ntotal 表示总的CPU个数,Nbind 表示被绑定到某个进程的CPU数。如果r的值快速增加,就可能说明CPU资源紧张,需要查看一下应用程序。
b列表示在指定时间间隔内每秒种放入等待队列中的内核线程的平均数,这些线程在等待资源或I/O。b的值通常应该接近0。
    当需要判断系统是否缺少内存或内存需要调整时,最简便的方法是运行vmstat命令,查看pi和po列。
在vmstat的输出中,与虚拟内存有关的是memory中的两列和page中的四列,下面详细解释这几列的含义:
MEMORY列
提供实际内存和虚存的信息。
avm代表Active Virtual
Memory,即活动的虚存大小。这一列给出了Paging
Space中分配的页数。当进程执行时,运转存储段的空间被分配在Paging Space中。avm值可用来计算已分配的Paging Space的大小,用avm值除以256就是Paging Space分配的MB数。
fre列显示空闲内存页的平均数。系统总会在内存中维持一定大小的、当系统需要内存时可以马上得到的空闲内存页,称作空闲列表。VMM空闲列表的最小页数由vmtune中的minfree参数决定。缺省时,minfree值由实际内存大小决定,对于64MB以上的内存,minfree值一般为120页。
如果空闲列表中的页数小于minfree值,VMM就会开始置换页面,直到空闲列表中的页数大于maxfree值为止。maxfree值等于minfree值加8。
PAGE列
显示页面置换活动的信息。
pi列表示每秒钟从Paging Space置换到内存的页数。
po列表示每秒钟从内存置换到Paging
Space的页数。
如果这两列持续大于零,则系统的性能瓶颈很可能是内存。
fr列表示每秒钟页面置换算法释放的页数。
sr列表示每秒钟页面置换算法检查的页数。
3.5.2.2            
Ps工具
如果我们用vmstat等命令查出CPU是性能的瓶颈,那么接下来的任务就是找出占用CPU时间最多的进程。ps命令是一个非常灵活的工具,它的一些选项可以可以帮助我们实现目标。以下是运行ps命令的一个例子:
# ps au
USER      
PID %CPU %MEM   SZ  RSS   
TTY STAT    STIME  TIME COMMAND
root   
14192  0.0  0.0
752  772   lft0 A   
Aug 30  0:00 /usr/sbin/getty /
root   
20720  0.0  0.0
416  428  pts/0 A   
14:51:26  0:00 ps au
root   
17100  0.0  0.0 1064 1072
pts/0 A    12:31:49  0:00 -ksh

其中%CPU列和TIME列显示出每个进程占用CPU的时间。%CPU是指从进程开始到现在占用的CPU的百分比,计算公式如下:
%CPU=(进程的CPU时间÷进程总时间)×100
SIZE列表示以KB为单位的进程数据段占用的虚存的大小。
RSS列表示KB为单位的进程占用的实际内存的大小。
%MEM列表示进程占用内存的百分比,等于RSS除以实际内存的KB数。

3.5.2.3            
  topas工具
topas是aix的一个专有性能监控工具,非常直观的输出了cpu、内存、硬盘io、网络状态的信息。
#topas

file:///C:%5CDOCUME%7E1%5CLUOWEI%7E1%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image041.jpg
3.5.2.4            
sar命令
sar命令是用来收集系统统计信息的标准UNIX命令。虽然它能够收集到很多有用的信息,但它的缺点是占用系统资源较大,有可能加剧已存在的性能问题。
sar命令的选项非常多,可以提供队列、paging、TTY以及其它很多统计信息。sar命令在RS/6000平台上的一个重要的新功能是它不但能够统计整个系统的CPU利用率,还可以报告每个CPU的统计信息。因此sar命令对于SMP系统非常有用。
以下介绍sar命令的一些有用的选项:
sar –u
加 –u 参数可以报告CPU利用率的统计信息。输出结果与vmstat命令相同。
sar –P
加 –P 参数可以报告每个CPU利用率的统计信息。
sar –c
加 –c 参数可以报告系统调用的统计信息。
sar –q
加 –q 参数可以显示运行队列和交换队列的大小。
# sar -u 1 10
AIX mscp01 1 5 0001AC2F4C00    09/06/05
12:40:58    %usr    %sys   
%wio   %idle
12:40:59       0       0      
0     100
12:41:00       0       1      
0      99
12:41:01       0       1      
0      99
12:41:02       0       0      
0     100
12:41:03       0       0      
0     100
12:41:04       0       0      
0     100
12:41:05       0       8
    18      74
12:41:06       0       0      
0     100
12:41:07       0       2      
3      95
12:41:08       0       3      
6      91
Average      
0       1       3     
96

3.5.2.5            
iostat命令
iostat命令虽然主要用于查看I/O的统计信息,它也可以用来查看CPU的利用情况。在CPU方面,iostat和vmstat的用法和输出结果基本上是相同的。iostat命令的用法是:
iostat [-t] [-d] [devices] [interval]
[count]
iostat –t
加 –t 参数可以报告TTY和CPU的统计信息。
iostat –d
加 –d 参数可以报告磁盘的统计信息。
–t 参数和–d 参数不能同时使用。
iostat [interval] [count]
iostat后面跟时间间隔和显示次数可以周期性地报告TTY、CPU和磁盘的统计信息。
# iostat 1 1
tty:     
tin         tout   avg-cpu:
% user    % sys     % idle   
% iowait
         
0.5         27.2               0.1      1.2      
97.5       1.2
Disks:      
% tm_act     Kbps      tps   
Kb_read   Kb_wrtn
hdisk0         
0.0       0.0       0.0         64   
18596
hdisk1         
0.0       0.0       0.0          0   
18584
hdisk5         
0.0       0.0       0.0          0         0
hdisk2         
0.0       0.0       0.0          0  
      0
hdisk7         
0.0       0.0       0.0          0         0
hdisk6         
0.0       0.0       0.0          0         0
hdisk4         
0.0       0.0       0.0          0         0
hdisk3         
0.0       0.0       0.0          0         0
hdisk8         
0.0       0.0       0.0          0         0
cd0            
0.0       0.0       0.0          0         0

3.5.3   核心参数的调整
为了优化智能网应用的运行效率,需要修改以下内核参数:
3.5.3.1            
修改系统环境变量
# smit
顺序选择:
System
Environments-> Change/Show Characteristics of Operating Systm
在出现的界面中,修改以下两个参数的值:
HIGH water mark for pending write I/Os per
file    [33]  
LOW water mark for pending write I/Os per
file     [24]
修改系统运行参数
打开/sbin/rc.boot,查找“syncd”,将其参数修改为10:
nohup
/usr/sbin/syncd 10 > /dev/null 2>&1
&
3.5.3.2            
配置系统的AIO
激活系统中的AIO设备
# smit aio
选择:
Change / Show
Characteristics of Asynchronous I/O
在出现的界面中,修改以下参数的值:
STATE to be
configured at system restart            available
然后按键执行。
3.5.3.3            
设置系统参数fullcore
进程一旦运行异常,发生core dump,系统会产生core文件,将发生异常的进程的相关信息收集起来,便于用户进行定位分析。系统参数fullcore决定在进程发生core dump时,是否将数据段一起core dump,即是否将数据段信息收集保存在core文件中。设置为true,则表示将数据段信息保存,设置为false则表示不收集保存。这里要设置为true。
smitty->
System Environments-> Change / Show Characteristics of Operating System
将参数Enable full CORE dump的值设置为true。
3.5.3.4            
调整系统内核参数
设置进程可申请的最大内存数目,以满足系统进程运行时的需求。
打开/etc/security/limits文件,修改其中的data参数的取值。
将“default:”下面中配置项“data”的值修改为524288。修改后,保存文件。
注意:修改以上内核参数后需要重新启动系统,使上面的设置生效。
3.5.4   交换区的设置
1.系统安装好以后默认是rootvg中的hd6,交换区大小可是使用lsps –a查看大小。
# lsvg -l rootvg
rootvg:
LV NAME             TYPE       LPs  
PPs   PVs  LV STATE      MOUNT POINT
hd5                 boot       1   
2     2    closed/syncd  N/A
hd6                 paging     32   
64    2    open/syncd    N/A
hd8                 jfslog     1   
2     2    open/syncd    N/A
hd4                 jfs        31   
62    2    open/syncd  
/
hd2                 jfs        62   
124   2    open/syncd    /usr
hd9var              jfs        31   
62    2    open/syncd    /var
hd3                 jfs        62   
124   2    open/syncd    /tmp
hd1                 jfs        16   
32    2    open/syncd    /home
hd10opt             jfs        62   
124   2    open/syncd    /opt
lvsoft              jfs        250  
250   2    open/syncd    /soft

# lsps -a
Page Space
Physical Volume   Volume
Group    Size   %Used
Active  Auto  Type
hd6        
hdisk0            rootvg         512MB       1   
yes   yes    lv
系统默认的交换区太小,需要手工增加交换区。
2.交换区大小的设置应参照内存的大小来调整大小,下表为参照值。

  
  内存大小
  
  
  交换区大小
  


  
  内存大小
  
  
  内存大小*2
  


  
  4G内存大小
  
  
  6G
  


  
  内存大小>=6G
  
  
  6G
  

使用mkps命令动态增加一个交换区,直接生效,系统不用重启。
在rootvg中增加一个交换区,大小为20个pp,每个pp=128M,总共2G,命令如下:
     mkps -a -n –s20 rootvg
或使用菜单添加交换区:
     smitty mkps
3.6   
故障定位
3.6.1   故障的定义
.弄清楚系统发生了什么问题  
.系统现在能做什么?不能做什么?  
.故障什么时候发生的?  
.有没有做平时不同的操作?  
.故障有没有规律?定时还是不定时?发生的频率有多高?  
.是一台机器出现故障还是多台机器故障?故障现象是否相同?  
.最近有没有做改动?如安装了新的硬件、软件,改变了系统的一些设置。
3.6.2   故障信息的收集
收集故障信息对于判断、诊断故障原因,修复系统非常重要。
1)      
系统故障记录(errorlog)
errdemon 进程在系统启动时自动运行  
记录包括硬件、软件及其他操作信息  
故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析  
errpt 命令的使用见aix的日志管理小节
2)      
控制面板上的LED 代码  
.8 位代码,通常系统故障灯会同时亮起。某些机型还会同时显示故障设备位置代码。  
.4 位代码,通常是Exxx。  
.3 位代码,通常为0yyy,只看后3位。  
.8 位和4位代码可查看系统服务手册 (Service Guide)。  
3 位代码可查看系统诊断手册(Diagnostic Information for Multiple Bus System)。  
.闪动的 888, 系统崩溃,硬件或软件原因造成。按reset 键会显示更多内容。  
888-102 一般为软件故障(888-102-207 例外)  
系统会产生一个dump。  
888-102-xxx-0C9 系统正在做dump, 请等待。  
888-102-xxx-0C0 系统dump完成,可关电重启。  
888-103 或 105  
硬件故障,一般有 SRN 代码及位置代码。  
3)      
SMS (System Management Service) 故障记录  
如何进入SMS 菜单  
当主控台出现键盘图标后(LED 显示E1F1时)按1键。  
选择"Utilities"  
选择"Error Log", 抄下8位故障代码  
(在SMS 中还可以更改系统启动顺序表)  
4)      
邮件告警
#mail  
系统会向root用户发mail报告出错信息。通常系统出现故障后没有进行检查修复,系统会定时提醒root。  
5)      
故障诊断程序(Diagnostic)
当发现有硬件故障时应立即使用diag 对系统硬件进行检查和诊断。
#diag  
> 选高级诊断(Advance Diagnostic)
> 选问题诊断(Problem Determination) 或  
选系统检查(System Verification)  
(选PD 会对系统错误记录进行分析)  
diag运行后会给出SRN 代码,故障设备名称及百分比,地址代码等。  
对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分析。  
3.6.3   硬件故障定位方法
IBM 小型机故障定位方法包括小型机I/O柜上的显示面板上的Checkpoints信息,Error Code 和SRNs。  
1)      
Checkpoints 检查点是系统加电CMOS初始化程序(initial program load (IPL))运行后显示在 I/O柜的显示面板上一系列信息。  
2)      
Error Code 当系统运行有错误发现时,一个8位码会显示在显示面板上,同时在第二行显示相对应问题硬件的位置码。  
3)      
  SRNs (Service request numbers,服务请求码 )当系统运行有错误发现时,SRNs码会以 xxx-xxx的形式显示在显示面板上,同时在AIX的error log中也会有记载。  
3.6.4  
7133 磁盘柜的故障定位
当SSA磁盘柜出现故障时,在磁盘柜前面板的液晶显示屏上会显示相应的SRNs,同时黄色的显示灯会闪动,在AIX的error log中也会有记载错误信息,如:DISK_ERR1,DISK_ERR4,SSA_ARRAY_ERROR等。请在出现问题后记录下代码,并致电IBM800服务热线。  
3.6.5   软件故障定位方法
软件故障情况错综复杂,下面列举几个常见案例的故障处理方法。
1)  文件系统空间不够。  
查看有没有“满”的文件系统。特别是/、/var、/tmp,不要超过90%。文件系统满可导致系统不能正常工作,尤其是AIX的基本文件系统,当/tmp目录使用率是100%,informix数据库在启动过程中将会报错而导致无法启动,如果/ (根文件系统)满则会导致用户不能登录。对文件系统的使用率可用df –k进行 查看:  
# df -k
Filesystem   
1024-blocks      Free %Used    Iused %Iused Mounted on
/dev/hd4         
507904    468328    8%   
1362     1% /
/dev/hd2         
1015808    308648   70%   
22255     9% /usr
/dev/hd9var      
507904    478372    6%     
553     1% /var
/dev/hd3         
1015808    982940    4%      
75     1% /tmp
/dev/hd1           262144    206528  
22%      114     1% /home
/proc                   -         -   
-         -     -
/proc
/dev/hd10opt     
1015808    976132    4%     
342     1% /opt
/dev/lvsoft      
4014080   2430716   40%     
163     1% /soft
除/usr文件系统,其他文件系统都不应太满,一般不超过80%。  
处理方法1:删除垃圾文件  
# du -sk * |sort -rn |head  
    查找出当前目录下占空间最大的子目录,逐层往下直到找出占空间最大的文件。(要区分哪些目录是文件系统的 mount point,哪些是文件系统的子目录)删除文件,释放空间。有时删除文件后空间并不马上释放,这是由于你删除的文件正被某个程序打开。只有当这个程序停止后空间才释放,有时甚至需要重起系统。  
处理方法2:增加文件系统大小  
# smitty chjfs  
文件系统可以在任何时候加大,前提是卷组(VG)中有剩余空间。  
2)      
检查文件系统的完整性  
# umount filesystem_name  
# fsck -y filesystem_name  
注意:文件系统必须先umount,再做检查和修复,否则可导致未  
知的后果。
3)      
查看卷组信息(lsvg -l vg_name):  
有没有"stale"状态的逻辑卷。 若有,用syncvg 命令修复"stale"逻辑卷。  
4)      
检查内存交换区(paging space)使用率(lsps -s):
使用率是否超过70% ,若有则用chps –sX pgname增加X个PP或用
mkps –a –n –sX myvg在myvg上增加一个PP数为X的内存交换区。
5)      
小型机内存泄漏问题
小型机出现内存泄漏,即系统或应用进程无法将使用过的内存释放,使可用内存的容量逐渐减少。如果可用内存降到某最小值将造成系统或应用程序无法FORK子进程,就会造成系统瘫痪。  通常我们可以用ps和sar命令来查看小型机内存和CPU占用率的大概情况以及各进程的内存和CPU占用率的发展趋势。 (请参考AIX性能调优小节)

3.7   
经典案例
3.7.1   在根目录执行rm *的恢复
           在根目录(/)下执行了rm *,如何恢复系统
1 . 从引导介质(bootable
CD-ROM or bootable tape)起动系统。
2.选择 Start Maintenance Mode for System Recovery (Option 3),进入维护菜单.然后依次再选择如下:
a.Access a Root Volume Group (Option
1).  
b.0 continue and Select Volume Group by number.
c.Access this volume group and start a
shell before mounting the file systems (Option 2).  
3.检查并mount根文件系统
# fsck -y /dev/hd4
#mount /dev/hd4 /mnt
4.重建删除的文件和目录
#cd /mnt
#ln -s /usr/bin bin
#ln -s /usr/lib/boot/unix_up unix 或 #ln -s /usr/lib/boot/unix_mp unix
#ln -s /usr/lib lib
#ln -s /home u  
5.重起系统
#cd /
#umount /dev/hd4  
#exit
#sync;sync;sync
#shutdown -Fr
3.7.2   无法使用root帐户登陆的恢复
3.7.2.1            
忘记root密码后,重设root密码步骤:
1、  插入系统启动光盘(就是AIX 安装光盘的 CD 1),重启系统。
2、  在系统启动界面出现时,按1键,进入sms menu模式。
3、  选择7(Select Boot Options)并回车。
选择1(Select Install or Boot Device)并回车。
选择3(CD/DVD)并回车。
选择6(List all device)并回车。
选择12(CD-ROM)并回车。
选择2(Normal Mode Boot)并回车。
选择1(Yes)并回车。
4、  系统提示“STARTING SOFTWOARE PLEASE WAIT...”。
5、  输入 1 选择系统终端,并回车。
6、  选择1(Type 1 and press Enter to have
English during install),并回车。
7、  选择3(Start Maintenance Mode for System
Receovery),并回车。
8、  选择1(Access a Root Volume Group),并回车。
9、  选择0(Continue),并回车。
10、            
选择1(Volume
Group),并回车。
11、            
选择1(Access
this Volume Group and start a shell),并回车,进入root用户提示符“#”。
12、            
执行passwd,输入密码“root”,再次确认密码“root”,重启系统。
13、            
在系统启动界面出现时,按1键,进入menu模式。
14、            
选择7(Select
Boot Options)并回车。
选择1(Select Install or Boot Device)并回车。
选择5(Hard Drive)并回车。
选择6(List all device)并回车。
选择10(SCSI 73GB Harddisk)并回车。
选择2(Normal Mode Boot)并回车。
选择1(Yes)并回车。
15、            
系统提示“STARTING SOFTWOARE        PLEASE
WAIT...”。
16、            
系统启动完成,使用root用户和修改后的密码登录。
17、            
取出系统光盘,密码修改完成。
3.7.2.2            
误删除root用户的恢复办法
误删除root用户,导致无法登陆系统,按照前面的办法引导进入维护模式,在/etc/passw文件中手工添加root用户,如下所示:
# export TERM=vt100
# vi /etc/passwd
root:!:0:0::/:/usr/bin/ksh  
//手工添加root用户,userid=0,groupid=0,homedir=/,shell=ksh
daemon:!:1:1::/etc:
admin:!:0:0::/:/usr/bin/ksh
bin:!:2:2::/bin:
sys:!:3:3::/usr/sys:
adm:!:4:4::/var/adm:
uucp:!:5:5::/usr/lib/uucp:
guest:!:100:100::/home/guest:
nobody:!:4294967294:4294967294::/:
lpd:!:9:4294967294::/:
lp:*:11:11::/var/spool/lp:/bin/false
invscout:*:200:1::/var/adm/invscout:/usr/bin/ksh
ipsec:*:201:1::/etc/ipsec:/usr/bin/ksh
nuucp:*:6:5:uucp login
user:/var/spool/uucppublic:/usr/sbin/uucp/uucico
snapp:*:177:1:snapp login
user:/usr/sbin/snapp:/usr/sbin/snappd
imnadm:*:188:188::/home/imnadm:/usr/bin/ksh
student:!:205:205::/soft:/usr/bin/csh
new:!:206:205::/home/new:/usr/bin/csh
手工添加好root用户后,使用passwd给root用户设上密码,关机重新引导。
3.7.3   替换损坏的镜像卷组硬盘
要替换损坏的镜像卷组硬盘,如datavg中的hdisk7报警,应运行以下命令进行替换:
# unmirrorvg datavg hdisk7  //解除镜像
# reducevg datavg hdisk7   //将hdisk7从datavg中移出
# rmdev -l hdisk7 –d       //从操作系统中删除hdisk7,更换新盘,
#cfgmgr –v           //系统自动查找新盘
# extendvg datavg hdisk7 //将更换后的新盘hdisk7加入到datavg中
# mirrorvg datavg     //给datavg中的lv做镜像

3.7.4   无法创建文件系统
使用smitty fs创建文件系统时经常碰到创建文件过程中报错,以下面创建/opt/informix文件系统为例:
#smitty fs
* LOGICAL VOLUME name                                 lvtest                 +
* MOUNT POINT                                       
[/opt/informix]
  Mount
AUTOMATICALLY at system restart?            
yes                    +

PERMISSIONS                                       
read/write             +
  Mount OPTIONS                                    
[]                      +
  Start
Disk Accounting?                             
no                     +
  Fragment
Size (bytes)                              
4096                   +
  Number of
bytes per inode                          
4096                   +

Allocation Group Size (MBytes)                      8
报错如下所示:
Command: failed        stdout: yes           stderr: no
Before command completion, additional
instructions may appear below.
crfs: 0506-909 /opt/informix file system already
exists.
原因是:
该系统原先已经创建过/opt/informix文件系统,在清理的过程中没有清理干净,查看/etc/filesystems文件会发现有/opt/informix这条记录,把该记录信息删除,如有/opt/informix目录一并删除。重建文件系统即可:
#more /etc/filesystems
/opt/informix:
      
dev             = /dev/lvinfor
      
vfs             = jfs
      
log             = /dev/hd8
      
mount           = true
      
check           = true
      
free            = false
3.7.5   无法卸载文件系统
卸载文件系统时报资源busy,可能是当前用户在当前目录或有别的进程使用该目录,退出该目录,运行fuser –k /filesystem 杀掉占用该目录的进程,即可将文件系统卸载。
# umount /opt/informix
umount: 0506-349 Cannot unmount /dev/lvtest: The
requested resource is busy.
# pwd
/opt/informix
# cd
# pwd
/
# umount /opt/informix
umount: 0506-349 Cannot unmount /dev/lvtest: The
requested resource is busy.
# fuser -k /opt/informix
/opt/informix:   
20520c

3.7.6   系统启动引导故障
3.7.6.1            
系统的启动顺序

当交流电源接到系统后,IPL流程就开始了,IPL流程包括四个步骤:  
. Phase 1: Service Processor 的初始化  
Phase 1 开始于交流电源接到系统后,直到OK显示在I/O柜上的显示面板上为止。在这个步骤会显示 8xxx 或9xxx checkpoints代码 。  
. Phase 2: 由 Service Processor 引导的硬件初始化  
Phase 2 开始于按下I/O柜上的白色电源开关。在这个步骤会显示 9xxx checkpoints 。91FF 是最后的代码标志着第三步骤的开始
. Phase 3: 系统固件的初始化  
在 Phase 3, 一个系统处理器接管控制并继续初始化系统资源, 在这个步骤会显示 Exxx。E105是最后的代码标志着第四步骤AIX启动的开始。在这个过程中还会显示各种位置码( 位置码代表着系统的每一个部分)  
. Phase 4: AIX 启动  
当AIX开始启动时,显示面板上的代码为 0xxx ,同时位置码会出现在第二行。当AIX的登录窗口出现在控制台上时第四步骤结束同时显示面板上再无任何信息出现。  

3.7.6.2            
启动中可能碰到的故障及解决办法
A)       系统不能启动系统停在Stage 1
可能为电源、系统板、CPU、内存等硬件故障。记录故障代码通知IBM工程师。  
B)        系统停在Stage 2
可能是启动顺序表(bootlist)损坏或I/O子系统故障。可尝试进入SMS 菜单检查启动顺序表,并修改。若在选择bootlist时没有硬盘设备可选或显示的硬盘信息不正确则可能是硬盘故障。若根本没有SCSI设备可选则链路有问题。  
C)       系统停在Stage3
可能是硬盘数据损坏,系统设置文件出错,或I/O子系统故障,系统停在551,555或557  发生在系统启动的第三阶段 (Stage 3),可能是:  
文件系统损坏 、文件系统日志(jfslog)损坏 、rootvg中有坏硬盘 。
修复方法  
    用系统光盘或系统备份带启动(必须与硬盘中的操作系统版本一致,请参考第二章系统的备份与恢复),如备份带不能恢复,用诊断光盘(Diagnostic CDROM)检查是否系统硬盘损坏。  
D)       .CDE图形界面挂死
    CDE 运行时不要更改网络参数(如:主机名和IP 地址)  更改网卡设置,请先退出CDE图形环境,选择命令行方式登录,在字符界面下更改。
如CDE 已经挂死 ,远程 telnet 登录 ,找出所有dt有关的进程用kill命令杀掉  
# ps -ef |grep dt
... ...  
# kill PID  
检查当前主机名
# hostname  
mscp01
查看主机名是否对应有效的IP地址  
# netstat -i |grep tscf50  
tr0* 1500 9.185.40 tscf50 506049 0 28247 0 0
更改主机名或IP地址,使主机名与当前有效的IP地址存在对应关系。  
# smitty tcpip  
重新启动CDE界面  

E)      
   系统dump  
发生在系统崩溃时,AIX会做dump(系统内存的快照)。  
此时机器会显示闪动的888 102 xxx 0cx 代码:  
0c9 系统dump 进行中。0c9状态可能会维持超过2分钟,  不要关电和按reset, 等待dump做完。  
0c0 dump 成功完成,这时可以断电重起。
0c2 手动启动dump 功能  
0c4 dump 设备空间不足,只有部分信息保存下来
0c5 不明原因导致dump 失败  
    一般dump是由于软件出错引起(888-102-207 除外),机器通常可以重启。重启时可能提示用户插入磁带拷贝dump文件,不要选择退出,这样会丢失重要的故障信息。  
dump的有关设置  
估算系统dump的大小,在系统最繁忙时(内存使用最多)  
# sysdumpdev -e  
0453-041 Estimated dump size in bytes: 53477376
当前的设置  
#sysdumpdev -l  
primary /dev/hd6 的主设备  
secondary /dev/sysdumpnull  
copy directory /var/adm/ras 拷贝的目录  
forced copy flag TRUE  
always allow dump TRUE  
hd6应比估算值稍大。  
/var/adm/ras 是默认的dump拷贝目录,比较估算值,保证/var文件系统有足够的剩余空间拷贝dump文件。否则机器重起时会提示用户插入磁带。  
dump文件名为vmcore.#  
对PCI机型如要手动做dump,须把" always allow dump" 先设成true。  
# sysdumpdev -K  
dump打包  
# snap -a -o /dev/rmt# 或  
# snap -a -c 把/tmp/ibmsupt目录做成一个压缩文件  
snap.tar.Z如果/tmp文件系统空间不够,  
可用-d directory 参数指定别的目录代  
替/tmp/ibmsupt
4      
第四章 hacmp安装配置
4.1   
Hacmp 的软件安装
4.1.1   安装前提
如果您的操作系统是AIX5.1 ,那么您要安装维护补丁包ML03以上,目前
最高的补丁版本是ML05. 并且您还要安装RSCT 2.2.1.30 或更高版本。
以下的包也是必须要安装的:
• bos.adt.lib
• bos.adt.libm
• bos.adt.syscalls
• bos.net.tcp.client
• bos.net.tcp.server
• bos.rte.SRC
• bos.rte.libc
• bos.rte.libcfg
• bos.rte.libcur
• bos.rte.libpthreads
• bos.rte.odm
     如果您要安装并行的资源组,还要安装下面的包:
• bos.rte.lvm.rte5.1.0.25 or higher
• bos.clvm.enh.
4.1.2   开始安装
一般基本上除了haview ,netwiew ( Tivoli),的
包以外,所有的hacmp的包都要安装。
安装命令:
#Smitty
installp
4.1.3  
打补丁
     注意,客户总是忽略给hacmp打补丁这一步骤。其实对hacmp来说,补丁是十分重要的。很多发现的缺陷都已经在补丁中被解决了。有的客户严格的按照正确步骤安装和配置完hacmp的软件后,发现takeover 有问题,ip接管有问题,机器自动宕机等等千奇百怪的问题,其实都与补丁有关。所以客户一定要注意打补丁这个环节大家可以从IBM网站上下载,或者打800-810-1818 热线电话索要。
4.1.4   重启机器
4.2   
hacmp5.1 的配置
我们以两台机器为例:test1 和test2 , 共享三块7133
硬盘。
4.2.1   双机信任关系配置
在hacmp 5。1 中 为了安全起见,不再使用/.rhosts 文件来控制两台机器之间的命令和数据交换,而是引进的一个新的进程clcomd

如果你编辑/etc/inittab文件就会发现安装完hacmp后,在最后添加了一行:clcomdES:2:once:startsrc
-s clcomdES >/dev/console 2>&1 。
因此重新启机后, ps
–ef|grep clomd ,会发现:root
12908 6478 0 Apr 12 - 0:21 /usr/es/sbin/cluster/clcomd –d ,证明该进程启动了。
Hacmp5.1使用/usr/es/sbin/cluster/etc/rhosts
文件来代替 /.rhosts 文件的功能。
注意:如果两个节点间的通讯发生了什么问题,可以检查rhots 文件,或者编辑rhosts文件加入两个节点的网络信息。

4.2.2  
配置ip
test1:/>netstat -in
Name
Mtu   Network     Address            Ipkts Ierrs    Opkts Oerrs
Coll
en0  
1500  link#2      0.4.ac.49.f2.d5      77960   
0    47805     0   
0
en0  
1500  100.1       100.1.0.1            77960     0   
47805     0     0
en1  
1500  link#3      0.6.29.ec.44.d6         33   
0       11     0   
0
en1  
1500  192.168.0   192.168.0.1             33   
0       11     0   
0

test2:/>netstat -in
Name
Mtu   Network     Address            Ipkts Ierrs    Opkts Oerrs
Coll
en0  
1500  link#2      0.4.ac.49.60.23      31138   
0    82582     0   
0
en0  
1500  100.1       100.1.0.2            31138     0   
82582     0     0
en1  
1500  link#3      0.4.ac.3e.b9.4b         36   
0       13     0   
0
en1  
1500  192.168.0   192.168.0.2             36     0      
13     0     0

test1 :
hdisk0         
0004383268b07574                  
rootvg          active
hdisk3         
000438325e22bca7                  
test1vg
hdisk4         
00043832125e5aa8                  
None
hdisk5         
000438323d0e4487                  
None

test2 :
hdisk0         
000d29574085126d                  
rootvg          active
hdisk5         
000438325e22bca7                  
test1vg
hdisk6         
00043832125e5aa8                  
None
hdisk7         
000438323d0e4487                  
None

/etc/hosts
100.1.0.2      
test2_boot1  test2
100.1.0.1   
   test1_boot1  test1
192.168.0.1   
test1_boot2
192.168.0.2   
test2_boot2
10.1.0.1      
test1_svc
10.1.0.2      
test2_svc
10.1.0.5      
test1_per
10.1.0.6      
test1_per

test2:/ha51>ls –l
-rwxr-xr-x  
1 root     system           65 Apr 13 13:51 start
-rw-r--r--  
1 root     system           31 Apr 13 11:49 start.log
-rwxr-xr-x  
1 root     system           66 Apr 13 14:01 start1
-rw-r--r--  
1 root     system           31 Apr 13 14:01 start1.log
-rwxrwxrwx  
1 root     system           64 Apr 13 11:48 stop
-rw-r--r--  
1 root     system           31 Apr 13 11:48 stop.log
-rwxr-xr-x  
1 root     system           66 Apr 13 14:01 stop1
-rw-r--r--  
1 root     system           31 Apr 13 14:01 stop1.log

vi start
date >> /ha51/start.log
banner " start app1 " >>
/tmp/hacmp.out

vi stop
date >> /ha51/stop.log
banner "stop app1 " >>
/tmp/hacmp.out

vi start1
date >> /ha51/start1.log
banner " start app2 " >>
/tmp/hacmp.out

vi stop1
date >> /ha51/stop1.log
banner
"stop app2 " >> /tmp/hacmp.out

注意:在两个节点要保证hosts 和
启动/停止脚本要一样存在。
4.2.3  
添加cluster和node

smitty hacmp
Initialization and Standard Configuration
  Extended
Configuration
  System
Management (C-SPOC)
  Problem
Determination Tools

Add Nodes to an HACMP Cluster
  Configure
Resources to Make Highly Available
  Configure
HACMP Resource Groups
  Verify
and Synchronize HACMP Configuration
Display HACMP Configuration

                                                      
* Cluster Name                                      
[ha51tsc]
New Nodes
(via selected communication paths)[m      
[test2_boot1 test1_boot1]                                          
Currently
Configured Node(s)

这一部很重要,一般我们都是把每个节点的boot1 作为communication path . New node
可以一起加,也可以一个一个的加。当回车以后,系统会自己discover hacmp 的资源
显示如下:
。。。。。。。。。。。。。。。。。。。。
IP Network Discovery completed normally
Current cluster configuration:

No resource groups defined
Cluster Description of Cluster: ha51tsc
Cluster Security Level: Standard
There are 2 node(s) and 1 network(s) defined

NODE test1:
      
Network net_ether_02
               
test1_boot1     100.1.0.1
               
test1_boot2     192.168.0.1

NODE test2:
      
Network net_ether_02
               
test2_boot1     100.1.0.2
               
test2_boot2     192.168.0.2
4.2.4  
添加高可用资源
添加高可用资源(service ip , application server , vg and
jfs )
添加服务ip地址
  Add Nodes to an HACMP Cluster
  Configure
Resources to Make Highly Available
  Configure
HACMP Resource Groups
  Verify
and Synchronize HACMP Configuration
  Display
HACMP Configuration


  Configure Service IP Labels/Addresses
  Configure
Application Servers
  Configure
Volume Groups, Logical Volumes and Filesystems
  Configure
Concurrent Volume Groups and Logical Volumes

  Add a
Service IP Label/Address

Change/Show a Service IP Label/Address
  Remove
Service IP Label(s)/Address(es)

* IP Label/Address                                 
[test1_svc   ]                                                         
Network Name                                   
[net_ether_02 ]

* IP Label/Address                                   [test2_svc   ]                                                         
Network Name                                   
[net_ether_02 ]

4.2.5   添加application server

  Configure Service IP Labels/Addresses
  Configure
Application Servers
  Configure
Volume Groups, Logical Volumes and Filesystems
  Configure
Concurrent Volume Groups and Logical Volumes


  Add an
Application Server

Change/Show an Application Server
  Remove an
Application Server

* Server Name                                 
     [app1]
* Start Script                                      
[/ha51/start]
* Stop Script                                    
[/ha51/stop]

* Server Name                                       
[app2]
* Start Script                                      
[/ha51/start1]
* Stop Script                                    
[/ha51/stop1]

4.2.6   添加共享vg ,  jfs

注意在前面的步骤中我们看到已经有一个共享VG
test1vg 存在了,它使用传统的方法:
在test1 节点上创建test1vg , lv,jfs
Varyoffvg
在test2 上 importvg
Varyoffvg
现在我们试着用hacmp的功能去创建test2vg

Configure Service IP Labels/Addresses
  Configure Application Servers
  Configure Volume Groups, Logical Volumes and
Filesystems
  Configure
Concurrent Volume Groups and Logical Volumes


  Shared
Volume Groups
  Shared
Logical Volumes
  Shared
File Systems

Synchronize Shared LVM Mirrors

Synchronize a Shared Volume Group Definition


  List All
Shared Volume Groups
  Create a Shared Volume Group
  Create a
Shared Volume Group with Data Path Devices
  Set
Characteristics of a Shared Volume Group
  Import a
Shared Volume Group
  Mirror a
Shared Volume Group
  Unmirror
a Shared Volume Group

在选择菜单中同时用F7 选择test1 和 test2
test1
test2
选中PVID 00043832125e5aa8
  Node
Names                                         
test1,test2
  PVID                                            
   00043832125e5aa8
 VOLUME GROUP name                               
[test2vg ]
  Physical
partition SIZE in megabytes             4                                                                  
Volume group MAJOR NUMBER                        
[49]
  
test2:/ha51>lspv
hdisk0         
000d29574085126d                  
rootvg          active
hdisk5         
000438325e22bca7                  
test1vg
hdisk6         
00043832125e5aa8                  
test2vg
hdisk7         
000438323d0e4487                    None

test1:/ha51>lspv
hdisk0         
0004383268b07574                  
rootvg          active
hdisk3         
000438325e22bca7                  
test1vg
hdisk4         
00043832125e5aa8                  
test2vg
hdisk5         
000438323d0e4487                  
None

同样方法你可以在两个节点上同时创建ljfs
Shared Volume Groups
  Shared
Logical Volumes
  Shared
File Systems

Synchronize Shared LVM Mirrors
Synchronize a Shared Volume Group Definition


  Journaled
File Systems
  Enhanced
Journaled File Systems

  Add a
Journaled File System
  Add a
Journaled File System on a Previously Defined Logical Volume
  List All
Shared File Systems
  Change /
Show Characteristics of a Shared File System
  Remove a
Shared File System

  Add a
Standard Journaled File System
  Add a
Compressed Journaled File System
  Add a
Large File Enabled Journaled File System

test1vg             test1,test2
test2vg             test1,test2

Node Names                                    
test1,test2
Volume
group name                                test1vg
* SIZE of file system                              
[10 ]
* MOUNT POINT                                 
[/test1jfs]

PERMISSIONS                                 
read/write                                                      
   
  Mount OPTIONS                                 
[]                                                                  
  Start
Disk Accounting?                             
no                                                                 
  Fragment
Size (bytes)                              
4096                                                               
  Number of
bytes per inode                          
4096                                                               

Allocation Group Size (MBytes)                       8

系统会自动在test1上添加test1jfs 文件系统,并且自动会在两个节点上作update
. 但是根据经验,最好还是用传统的方式在一个结点上创建vg ,lv, jfs . 然后再import 到另一个节点上。
这里有一个tips , 如果在这里创建共享jfs 遇到问题,可以先手工把vg 在一个结点上varyon , 然后再创建就可以了。

4.2.7   创建资源组

  Initialization and Standard Configuration
  Extended
Configuration
  System
Management (C-SPOC)
  Problem
Determination Tools

Add Nodes to an HACMP Cluster
  Configure
Resources to Make Highly Available
  Configure
HACMP Resource Groups
  Verify
and Synchronize HACMP Configuration
  Display
HACMP Configuration

Add a Resource Group

Change/Show a Resource Group
  Remove a
Resource Group

Change/Show Resources for a Resource Group (standard)


Cascading
Rotating                             
            
Concurrent                       
                                 Custom

                                                  
* Resource Group Name                              
[res1]
* Participating Node Names / Default Node
Priority         [test1 test2]

同样方法可以添加res2  

接下来可以配置资源组,当然也可以在Extended
Configuration 中去详细配置。
我们姑且先在Initialization and
Standard Configuration 中配置。

Smitty  
cm_config_hacmp_resource_groups_menu_dmn

Add a Resource Group

Change/Show a Resource Group
  Remove a
Resource Group
Change/Show Resources for a Resource Group
(standard)

选择res1

Resource Group Name                                
res1

Participating Node Names (Default Node Priority)    test1 test2

* Service IP Labels/Addresses                       
[test1_svc]                                         
              Volume Groups                                    
[mtest1vg]                                                           
Filesystems (empty is ALL for VGs specified)                    [/test1jfs]                                             
            Application Servers                             
           [mapp1]

同样的方法配置res2

4.2.8   检查和同步hacmp配置

Initialization and Standard Configuration
  Extended
Configuration
  System
Management (C-SPOC)
  Problem
Determination Tools

Add Nodes to an HACMP Cluster
  Configure
Resources to Make Highly Available
  Configure
HACMP Resource Groups
  Verify
and Synchronize HACMP Configuration
  Display
HACMP Configuration


Cluster Description of Cluster: ha51tsc
Cluster Security Level: Standard
There are 2 node(s) and 1 network(s) defined

NODE test1:
      
Network net_ether_02
               
test2_svc       10.1.0.2
               
test1_svc       10.1.0.1
               
test1_boot2     192.168.0.1
               
test1_boot1     100.1.0.1

NODE test2:
        Network net_ether_02
               
test2_svc       10.1.0.2
               
test1_svc       10.1.0.1
               
test2_boot1     100.1.0.2
               
test2_boot2     192.168.0.2

Resource Group res1
      
Behavior                 cascading
      
Participating Nodes      test1
test2
      
Service IP Label               
test1_svc

Resource Group res2
      
Behavior                 cascading
      
Participating Nodes      test2
test1
      
Service IP Label               
test2_svc

注意nodetest1 的ip 地址排列,虽然test_boot2 排在test_boot1
前面,但是实验证明,service 地址依然会绑定在communication
path 上。

现在就可以做Initialization and
Standard Configuration 〉〉  Verify and Synchronize HACMP Configuration  .
然后start 一下hacmp ,看看take over 是否都正常。

注意,很多客户是把所有的hacmp 包括应用都配好后再试起hacmp
, 作takeover 测试,这是很不好的一种习惯。因为融入的可能因素太多
了,一旦有了问题,我们还要隔离问题,先把hacmp配置简化,再一步步
作pd , 那么先前的配置就白做了。所以建议客户阶段性的监测一下hacmp

4.2.9   扩展配置
到此为止我们的hacmp已经基本配置完成了。剩下的要在Extended Configuration中配置了。
在Extended Configuration中我们还可以配置 tty 心跳 网络  , hdisk 心跳网络,Persistent Node
IP ,application monitor 等等。

下面我们先介绍一下配置hdisk 心跳网络,这也是hacmp5.1 里的一个新的功能。

首先我们要一个 Enhanced
concurrent VG , 这个vg 不需要一定是放在concurrent 资源组里的vg , 当然也可以用concurrent 资源组里的硬盘来做
心跳网络。这个concurrent vg 可以通过传统方法建立。
Mkvg –c convg  
在一个节点上varyoffvg , 另一个节点上importvg

现在我们介绍用hacmp 来创建concurrent vg .


  Initialization and Standard Configuration  
  Extended
Configuration
  System
Management (C-SPOC)
Problem Determination Tools


  Add Nodes
to an HACMP Cluster
  Configure
Resources to Make Highly Available
  Configure
HACMP Resource Groups
  Verify
and Synchronize HACMP Configuration
  Display
HACMP Configuration

Configure Service IP Labels/Addresses
  Configure
Application Servers
  Configure
Volume Groups, Logical Volumes and Filesystems
  Configure
Concurrent Volume Groups and Logical Volumes


   Concurrent
Volume Groups
   Concurrent Logical Volumes
   Synchronize Concurrent LVM Mirrors


  List All
Concurrent Volume Groups
  Create a
Concurrent Volume Group
  Create a
Concurrent Volume Group with Data Path Devices
  Set
Characteristics of a Concurrent Volume Group
  Import a
Concurrent Volume Group
  Mirror a
Concurrent Volume Group
  Unmirror
a Concurrent Volume Group

  选中test1 and test2
  选中共享硬盘

Node Names                                         
test1,test2
      PVID                                               
000438323d0e4487
      VOLUME GROUP name                        
         convg
      PhysicalpartitionSIZEinmegabytes                         4                                    
Volume group
MAJOR NUMBER                        
[49]                                                               
Enhanced Concurrent Mode                        
         true

下面看一下两个节点的硬盘状况:

test1:
hdisk0         
0004383268b07574              
rootvg     active
hdisk3         
000438325e22bca7              
test1vg
hdisk4         
00043832125e5aa8               
test2vg
hdisk5         
000438323d0e4487              
convg
test2 :
hdisk0         
000d29574085126d              
rootvg          active
hdisk5         
000438325e22bca7                test1vg
hdisk6         
00043832125e5aa8               
test2vg
hdisk7         
000438323d0e4487              
convg

现在检查hdisk 网络的状况,在一个节点上向hdisk 写数据,从另一个节点
上读数据,很像 我们在配置tty 网络之前,检查一下tty 是否连通。

注意:我原来的操作系统是aix5.2 01 ,
安装了hacmp5.1 打了最新的补丁。
但是在/usr/sbin/rsct/bin 下找不到dhb_read 命令。 它应该是属于rsct 的,后来我把aix5.2 打倒ml02 , rsct 所有的包都生级了,reboot 机器后,找到
了dhb_read 命令。

Add
/usr/sbin/rsct/bin/ to /etc/environment 里的path 中
重新login test1 和test2 使path 生效
在test1 上运行:dhb_read -p hdisk5 –r
在test2 上运行:dhb_read -p hdisk7 –t
在test1 上:test1:/>dhb_read -p
hdisk5 -r
Receive Mode:
Waiting for response . . .
Link operating normally
                在test2上:
test2:/usr/sbin/rsct/bin>dhb_read -p hdisk7 -t
Transmit Mode:
Detected remote utility in receive mode.  Waiting for response . . .
Link operating normally

证明通讯正常。

4.2.10         
添加hdisk heart beat 网络和设备

Initialization and Standard Configuration
  Extended
Configuration
  System
Management (C-SPOC)
  Problem
Determination Tools

Discover HACMP-related Information from
Configured Nodes
  Extended
Topology Configuration
  Extended
Resource Configuration
  Extended
Event Configuration
  Extended
Performance Tuning Parameters Configuration
  Security
and Users Configuration
Snapshot Configuration
Extended Verification and Synchronization

Configure an HACMP Cluster
  Configure
HACMP Nodes
  Configure
HACMP Sites
  Configure
HACMP Networks
  Configure
HACMP Communication Interfaces/Devices
  Configure
HACMP Persistent Node IP Label/Addresses
  Configure
HACMP Global Networks
  Configure
HACMP Network Modules
  Configure
Topology Services and Group Services
  Show
HACMP Topology

Add a Network to the HACMP Cluster

Change/Show a Network in the HACMP Cluster
  Remove a
Network from the HACMP Cluster

# Pre-defined Serial Device Types                                    
diskhb                                                               
rs232                                                               
tmscsi                                            
               
tmssa
                           
* Network Name[m                                      
[net_diskhb_01]
* Network Type                                   
        diskhb


添加设备:
Extended Configuration〉〉Extended Topology Configuration〉〉Configure HACMP Communication Interfaces/Devices〉〉
Add Communication Interfaces/Devices 〉〉
Add Pre-defined Communication Interfaces and Devices 〉〉
Communication Devices 〉〉  net_diskhb_01 〉〉
                        
* Device Name                          
           [heartbeatdisk5]
* Network Type                                    
diskhb
* Network Name                                    
net_diskhb_01
* Device Path                                       
[/dev/hdisk5]
* Node Name                        
              [test1]   

* Device Name                                    
[heartbeatdisk7]
* Network Type                                    
diskhb
* Network Name                                    
net_diskhb_01
* Device Path                        
               [/dev/hdisk7]
* Node Name                                       
[test2]   

Extended Configuration〉〉Extended Topology Configuration〉〉 Show HACMP Topology
Cluster Description of Cluster: ha51tsc
Cluster Security Level: Standard

NODE test1:
      
Network net_diskhb_01
               
heartbeatdisk5  /dev/hdisk5
      
Network net_ether_02
               
test1_svc       10.1.0.1
               
test2_svc       10.1.0.2
               
test1_boot2     192.168.0.1
               
test1_boot1     100.1.0.1

NODE test2:
      
Network net_diskhb_01
               
heartbeatdisk7  /dev/hdisk7
      
Network net_ether_02
               
test1_svc       10.1.0.1
               
test2_svc       10.1.0.2
               
test2_boot1     100.1.0.2
                test2_boot2     192.168.0.2
4.2.11         
配置永久的IP标识(persistent IP
label)
    一个永久的IP标识(persistent IP label)是一个IP别名,它可以被分配给一个群集网络中的指定的节点,并且会一直固定在分配的节点上。

  2.永久的IP标识(persistent IP label)的特性:
    (1)一直固定在被分配的节点上(节点绑定)
    (2)作为别名被配置在启动网卡(boot adapter)上
    (3)与已经被配置的服务IP标识(service IP label)或启动IP标识(boot IP label)共同存在
    (4)不需要在节点上安装额外的物理网卡
    (5)不属于任何资源组
    (6)可以被用于在群集中访问指定的节点进行管理工作
    (7)在节点启动后即可用,当HACMP服务停止后也始终保持可用
    (8)在以太网、令牌环网、FDDI以及ATM LANE网络中都可被配置
    (9)不能在SP交换机、ATM传统IP网和串行网络上进行配置
    (10)和配置的服务IP标识(service IP label)和启动IP标识(boot IP label)使用同一块网卡
    (11)如果节点失败,该IP标识不会迁移到群集中的其它节点
    (12)如果网卡失败,它只会迁移到相同网络的同一个节点上的其它网卡
    (13)每个网络的每个节点上只能配置一个永久的IP标识(persistent IP label)

  3.子网的要求
    (1)对于使用传统的IPAT的网络(不使用别名)
      
a.必须被配置为和网络中该节点上的所有standby
IP标识在不同的子网
      
b.可以被配置为和网络中该节点上的service IP标识和boot IP标识在相同的子网或者是不同的子网

    (2)对于使用别名的IPAT的网络
      
a.必须被配置为和网络中该节点上的所有boot IP标识在不同的子网
      
b.可以被配置为和网络中该节点上的作为boot网卡别名的service IP标识在相同的子网或者是不同的子网

Extended Configuration〉〉Extended Topology Configuration〉〉Configure HACMP Persistent Node IP Label/Addresses〉〉
Add a Persistent Node IP Label/Address
* Node Name                                    
test1
* Network Name                                
net_ether_02                                                
   
Node IP Label/Address                           
test1_per  

* Node Name                                    
test2
* Network Name                                
net_ether_02                                                   
Node IP Label/Address                           
test2_per  
注意:永久ip 同步完后, ip 立即绑定到boot1 上。
                                                     
同步:
Extended Configuration〉〉Extended Verification and Synchronization
启动hacmp .
4.3   
Hacmp
的监控和问题诊断
4.3.1   Clstat 监控hacmp
首先加路径:/usr/es/sbin/cluster 到/etc/environment  的path 中。
在aix5.2 下要对snmp  做一些调整才可以看到真正的hacmp的状态。
具体来说, aix 5.2 的 snmp 默认是version 3 :
test2:/usr/sbin>ls -l |grep snmp
lrwxrwxrwx  
1 root     system            8 Apr 08 17:55 clsnmp
-> clsnmpne
-rwxr-x---  
1 root     system        83150 Mar 12 2003  clsnmpne
-rwxr-x---  
1 root     system        55110 Mar 12 2003  pppsnmpd
lrwxrwxrwx  
1 root     system            9 Apr 08 17:55 snmpd
-> snmpdv3ne
而hacmp 只支持snmp version 1 . 所以我们要做一下调整:

stopsrc -s snmpd                        
                                    
/usr/sbin/snmpv3_ssw -1
startsrc -s snmpd

test2:/usr/sbin>ls -l |grep snmp
lrwxrwxrwx  
1 root     system           18 Apr 21 13:40 clsnmp
-> /usr/sbin/clsnmpne
-rwxr-x---  
1 root     system        83150 Mar 12 2003  clsnmpne
-rwxr-x---  
1 root     system        55110 Mar 12 2003  pppsnmpd
lrwxrwxrwx  
1 root     system           17 Apr 21 13:40 snmpd
-> /usr/sbin/snmpdv1

4.3.2   启动hacmp时选择
                                    
            
*  Start
now, on system restart or both[m         
now                                    
                           
  Start
Cluster Services on these nodes            
[test2]                              
                              
  BROADCAST
message at startup?                true                                
                              
  Startup
Cluster Lock Services?                   false                              
                              
  Startup
Cluster Information Daemon?            true                                                               
  Reacquire
resources after forced down ?            false
4.3.3   执行clstat
               
clstat - HACMP Cluster Status Monitor
               
-------------------------------------

Cluster: ha51tsc        (1082085119)
Wed Apr 21 13:55:33 BEIDT 2004
               
State: UP               Nodes: 2
               
SubState: STABLE

      
Node: test1             State: UP
         
Interface: test1_boot1 (1)         
Address: 100.1.0.1
                                                State:   UP
         
Interface: test1_boot2 (1)         
Address: 192.168.0.1
                                               
State:   UP
         
Interface: heartbeatdisk5 (0)      
Address: 0.0.0.0
                     
                         State:   UP
         
Interface: test1_svc (1)            
Address: 10.1.0.1
                                               
State:   UP
         
Resource Group: res1               
State:  On line

      
Node: test2             State: UP
         
Interface: test2_boot1 (1)         
Address: 100.1.0.2
                                               
State:   UP
         
Interface: test2_boot2 (1)         
Address: 192.168.0.2
                                             
  State:  
UP
         
Interface: heartbeatdisk7 (0)      
Address: 0.0.0.0
                                               
State:   UP
         
Interface: test2_svc (1)            
Address: 10.1.0.2
                                               
State:   UP
         
Resource Group: res2               
State:  On line
4.4   
hacmp开关机
4.4.1  
hacmp开机
按面板白色按钮,系统自动引导进入界面。以 root 用户登录,执行以下命令 (两台机最好不要同时执行)
  #
smitty  clstart            (
HACMP  启动 )
进入界面,使用缺省值,回车。待命令状态为 OK 时,按 F10 退出。用tail –f
/tmp/hacmp.out 跟踪HACMP log文件。出现:
EVENT
COMPLETED: node_up_complete hostname
此时HACMP 完全启动,此时可以启动另外一台主机的 HACMP运行时应有以下进程:
Clstrmgr   clinfo   
clsmuxpd

4.4.2  
hacmp关机
以 root 用户登录(口令与用户名相同)执行以下命令 (两台机最好不要同时执行)
  #
smitty  clstop
进入界面,使用缺省值,回车。待命令状态为 OK 时,按 F10 退出。用tail –f
/tmp/hacmp.out 跟踪HACMP log文件。出现:
  EVENT COMPLETED: node_down_complete hostname
此时HACMP 完全停止
#   shutdown  
-Fr   ( 重启 )
#   shutdown  
-F   ( 关机,主机自动关闭 )
参考书目
1)       《AIX Performance & Tuning 》
2)       《pSeries AIX System Administration》
3)       《Hacmp for aix v5.x Certification
study guide》
4)       《AIX Problem Determination Tools and
Techniques》
5)       《AIX Installation and System Recovery》



               
               
               

本文来自ChinaUnix博客,如果查看原文请点:http://blog.chinaunix.net/u/16863/showart_99161.html
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP