免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1460 | 回复: 1
打印 上一主题 下一主题

AIX下应用系统的维护与性能优化 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2011-12-25 15:58 |只看该作者 |倒序浏览
AIX下应用系统的维护与性能优化








应用维护是一项细致的工作,在工作中除了要求技术人员工作严谨、认真负责外,还要求技术人员必须具备在各种突发事件中较高的处理能力和工作经验.随着工商银行两大数据中心的建立,工行核心业务数据集中到数据中心,各一级分行的工作重点转移到柜面业务系统、综合前置系统和历史数据查询系统等外围系统的维护工作方面,其中AIX操作系统在工行的使用比较广泛.在应用维护方面,工行使用AIX操作系统的应用主要有:综合前置系统、跨行支付系统、客户对账系统、历史数据查询系统、国际业务结算系统5个应用系统.通过几年来的工作实践,我们积累了一些AIX操作系统环境下应用系统的维护及性能优化的经验,归纳为5个方面,供同行借鉴。
  一、AIX系统数据安全措施

  在IBM小型机硬件配置期间,就应该考虑数据的安全性,系统资源的配置要满足容错处理的要求.主要应考虑以下几点:

  ①生产主机发生硬件故障后,备机可以马上自动接管应用系统;

  ②提高操作系统的硬件冗余,尽量减少单点故障对系统的影响;

  ③加强系统备份,减少系统版本升级造成的影响.

  针对以上要求,可以采取一些安全措施,主要是硬件资源的冗余备份、系统软件和应用软件的合理分布以及高可靠性集群软件的使用.我们的经验是:把AIX操作系统和HACMP(High Availability Cluster Multi-Processing)软件安装在rootvg上,因为rootvg损坏,系统将无法运行,即使通过备份磁带恢复,也会造成系统停机.因此在磁盘空间充裕的情况下,可考虑对rootvg作镜像.具体做法是将主机的两块内置硬盘做rootvg镜像,这样可提高系统的安全性,防止单块硬盘损坏对系统的影响,即使内置硬盘坏了一块,系统仍可正常运行.在建立rootvg镜像时,应尽量使用连接在不同SCSI上的硬盘,以做到负载均衡.另外,为提高系统的容错能力,可对磁盘阵列上的硬盘进行镜像配置(RAID0)或RAID5冗余配置,配置为datavg,在上面安装数据库和应用程序.为提高节点可靠性,可搭建HACMP集群环境,做到双机热备,即在2台互为备份的主机上配置HACMP参数,满足系统热备要求.在日常操作方面,要做好系统备份工作,定期对生产机做两个或两个以上的介质备份。

1.rootvg的配置

  将hdisk0和hdisk1做成mirror,配置为rootvg.

  ①把hdisk0、hdisk1加到rootvg:smitty extentvg hdisk1、hdisk0 →rootvg.

  ②做mirror:mirrorvg -c 2 rootvg.

  ③在hdisk0、hdisk1上创建boot IMAGE:bosboot -ad hdisk0,bosboot -ad hdisk1.

  ④改变启动设备的顺序:bootlist -m normal hdisk0,hdisk1 cd0

  2.HACMP工作原理

  HACMP主要是对群集(cluster)资源的管理,根据应用复杂程度和配置的不同,其群集资源的接管时间在30秒到300秒不等,完全不需要人工干预.一个群集中的资源通常包括:应用程序、硬盘、卷组(VG)、文件系统、NFS文件系统、IP地址等.资源分属三类资源组(Resource Group):层递式(Cascading)、替换式(Rotating)、同时存取式(Concurrent).不同类型的资源组对应不同的接管方式. 一个群集中可以有几个资源组,它们可以分别是不同类型,因此,资源接管的方式可以多种多样,配置十分灵活。

  我们一般采用的是层递式方式,即热备份工作方式,其工作原理是:NodeA和NodeB都是资源组a的成员,该资源组a被设置成层递式方式,NodeA对其拥有最高优先级.因此 NodeA在群集中处于active状态时,它会控制资源组a中的所有资源,此时NodeB处于闲置(idle)状态,仅当NodeA down掉时,NodeB才会接管资源组a,一旦NodeA重新加入群集,NodeB将释放资源组a NodeA重新取得控制权.NodeB发生任何故障,不会造成任何影响。

  二、AIX系统维护经验

  1.故障信息的收集

  收集故障信息对于判断、诊断故障原因,修复系统非常重要.我们通过检查系统错误报告errorlog、发给root用户的错误报告mail和检查 hacmp.out smit.log boot.log等内容来判断系统是否发生故障,根据故障信息进行相应的处理。

IPL流程如下:当系统加电后,自动进入IPL流程,IPL流程包括4个步骤,

  ①Service Processor的初始化,始于系统加电,直到OK显示在机柜上的显示面板上为止.这个步骤会显示8xxx或9xxx checkpoints代码。

  ②由Service Processor引导的硬件初始化,始于按下机柜上的白色电源开关.这个步骤会显示9xxx checkpoints.“91FF”是最后的代码,标志着第3步的开始。

  ③系统固件的初始化,一个系统处理器接管控制并继续初始化系统资源,这个步骤会显示Exxx.“E105”是最后的代码,标志着第4步骤AIX启动的开始.在这个过程中还会显示各种位置码(位置码代表着系统的每一个部分)。

  ④AIX启动,当AIX开始启动时,显示面板上的代码为0xxx,同时位置码会出现在第二行.当AIX的登录窗口出现在控制台上时,第4步骤结束,同时显示面板上再无任何信息显示。

  当系统运行发现错误时,SRNs码(Service request numbers,服务请求码)会以xxx-xxx的形式显示在显示面板上,同时在AIX的errorlog中也会进行登记;当SSA磁盘柜出现故障时,在磁盘柜前面板的液晶显示屏上会显示相应的SRNs,同时黄色的显示灯会闪动,在AIX的errorlog中会登记相应错误信息,在出现问题后记录下代码, 并告之IBM公司解决。

  3.软件问题处理

  软件故障情况错综复杂,下面列举几个常见的故障处理方法.

  (1)文件系统空间不够

  查看有没有“满”的文件系统.特别是/、/var、/tmp,不要超过90%.文件系统满可导致系统不能正常工作,尤其是AIX的基本文件系统.如/ ?根文件系统?满则会导致用户不能登录.用df-k查看。

  # df -k 查看AIX的基本文件系统

  除/usr文件系统,其他文件系统都不应太满,一般不超过80%.

  处理方法1:删除垃圾文件

以root用户身份分别进入系统各节点,执行# smit clstop命令.

  (3)查询HACMP 双机系统的状态

  在双机系统的运行中,操作员只有知道双机系统的当前状态,才有可能对双机系统出现的异常情况进行恢复处理,保证双机系统的高可用性和高容错性.查询 HACMP双机系统的状态,以root用户身份进入需要查询的节点,用# lssrc -g cluster命令检查HACMP双机软件在该节点是否已启动,系统显示3个active的信息,则说明HACMP 双机软件已正常启动。

  在确认双机软件HACMP 正常启动的情况下,在命令行执行# /usr/sbin/cluster/clstat -a命令查看双机系统的当前状态。

  5.网络故障处理

  (1)网络不通的诊断过程

  ifconfig 查看网卡是否启动(up);netstat-i查看网卡状态;Ierrs/Ipkts和Oerrs/Opkts是否>1%;ping本机网卡地址;ping其他机器地址,如不通,在其机器上用diag检测网卡是否有问题。

  在同一网中,子网掩码应一致.

  (2)网络配置的基本方法

  ①如需修改网络地址、主机名等,一定要用chdev 命令.

  # chdev -l inet0 -a hostname=myhost

  # chdev -l en0 -a netaddr='112.0.15.1' -a netmask=255.255.255.0'

  ②查看网卡状态:# lsdev -Cc-if

  ③确认网络地址:# ifconfig en0

  ④启动网卡:# ifconfig en0 up

  ⑤配置路由,有两种方式加入路由:

  a.永久路由

  # chdev -l inet0 -a route='112.1.15.2','112.0.15.254'

  b.临时路由

  # route add 112.1.15.2 112.0.15.254

  用命令 netstat -rn 查看路由表

  6.IBM公司的巡检流程

  IBM公司的巡检流程,对我们日常维护应重点关注的事项有所帮助,大家可以借鉴一下。

检查Paging Space的大小,在物理内存<2G时,应至少设定为物理内存的1.5倍,若物理内存>2G,可作适当调整.同时在创建Paging Space时应尽量分配在不同的硬盘上,提高其性能.利用smitty chps修改原有Paging Space的大小或利用smitty mkps增加一块Paging Space。

  4.系统核心参数配置

  利用lsattr -Elsys0检查maxuproc,minpout,maxpout等参数的大小.maxuproc为每个用户的最大进程数通常如果系统运行 Oracle应调整maxuproc,将Default:128调整到500,maxuproc增加可以马上生效.当应用涉及大量的顺序读写而影响前台程序响应时间时,可考虑将maxpout设为33 minpout设为16,用smitty chgsys命令设置。

  5.文件系统空间的设定

  一般来说,文件系统/、/usr、/var、/tmp的使用率不应超过80%,/tmp建议至少为300M,文件系统满将导致系统不能正常工作,尤其是 AIX的基本文件系统,如/根文件系统满则会导致用户不能登录.用df 查看:#df-k(查看AIX的基本文件系统),利用smitty chfs扩展文件系统的空间。

  6.激活SSA Fast-Write Cache

  利用smitty ssafastw激活每一个逻辑盘hdiskn的Fast-Write Cache:选择硬盘后,把Enable Fast-Write改为Yes后,回车即可.

  7.High water mark for pending write I/Os per file maxpout和Low water mark for pending write I/Os per file配置

  其缺省值为0,在双机环境中一般应将High water mark设为33 Low water mark设为24,这两个参数可用smitty chgsys来设置.

  8.syncd daemon的数据刷新频率

  该值表示刷新内存数据到硬盘的频率,缺省值为60,一般可改为20,也可根据实际情况更改.该参数通过/sbin/rc.boot配置,将nohup /usr/sbin/syncd 60>/dev/null 2>&1&参数中的60改为20即可。

论坛徽章:
0
2 [报告]
发表于 2012-01-04 14:59 |只看该作者
谢谢分享
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP