免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 15147 | 回复: 12

[小机硬件] POWER HA5.5中,资源回切出现问题,求指点(已解决) [复制链接]

论坛徽章:
0
发表于 2011-06-15 15:39 |显示全部楼层
本帖最后由 lanfeng356 于 2011-06-16 11:35 编辑

1.平台:
主机:IBM P6 550
操作系统:AIX 6100-06
cluster:POWER HA5.5

2.问题现象:
A主机上的资源组1(包含单实例数据库)可以切换到B主机上
B主机将资源组1(包含单实例数据库)无法回切到A主机上
(双机配置已经同步,两边的启停脚本一模一样,执行权限也一模一样)
此时无法停止B主机双机
B主机:root:/hacmp>lssrc -ls clstrmgrES
Current state: ST_RP_FAILED
sccsid = "@(#)36    1.135.5.2 src/43haes/usr/sbin/cluster/hacmprd/main.C, hacmp.pe, 53haes_r550, 0934B_hacmp550 8/8/09 14:48:23"
i_local_nodeid 1, i_local_siteid -1, my_handle 2
ml_idx[1]=0     ml_idx[2]=1     
tp is 20714628
Events on event queue:
te_type 36, te_nodeid 2, te_network 1
There are 0 events on the Ibcast queue
There are 0 events on the RM Ibcast queue
CLversion: 10
local node vrmf is 5506
cluster fix level is "6"
The following timer(s) are currently active:
Event error node list: node_B
Current DNP values
DNP Values for NodeId - 1  NodeName - node_A
    PgSpFree = 2222330  PvPctBusy = 0  PctTotalTimeIdle = 369.378540
DNP Values for NodeId - 2  NodeName - node_B
    PgSpFree = 2224876  PvPctBusy = 0  PctTotalTimeIdle = 365.773210

切换资源组的时候报错:
Command: failed        stdout: yes           stderr: no

Before command completion, additional instructions may appear below.

Attempting to move resource group RG1 to node A.

Waiting for the cluster to process the resource group movement request....

Waiting for the cluster to stabilize...........

ERROR: Event processing has failed for the requested resource
group movement.  The cluster is unstable and requires manual intervention
to continue processing.

查看双机状态:
Resource Group Name: RG1
Startup Policy: Online On Home Node Only
Fallover Policy: Fallover To Next Priority Node In The List
Fallback Policy: Fallback To Higher Priority Node In The List
Site Policy: ignore
Primary instance(s):
The following node temporarily has the highest priority for this instance:
A, user-requested rg_move performed on Mon Jun 13 18:03:22 2011

Node                         Group State
---------------------------- ---------------
A                                 OFFLINE
B                                 ERROR

只有将主机B shutdown -Fr 以后,主机A自动重新接管资源组RG1

B主机上的资源组2(只有一个浮动IP)可以切换到主机A上
A主机可以将资源组2(只有一个浮动IP)回切到主机B上

3.报错日志
hacmp.rar (39.63 KB, 下载次数: 74)

论坛徽章:
0
发表于 2011-06-15 16:20 |显示全部楼层
资源组的策略贴出来 看看

论坛徽章:
0
发表于 2011-06-15 16:26 |显示全部楼层
回复 2# yclhyhy


    [TOP]                                                   [Entry Fields]
  Resource Group Name                                 RG1
  Participating Nodes (Default Node Priority)         node_A node_B
  
  Startup Policy                                      Online On Home Node Only
  Fallover Policy                                     Fallover To Next Priority Node In The List
  Fallback Policy                                     Fallback To Higher Priority Node In The List                             
  Fallback Timer Policy (empty is immediate)         []                                                                       +
  
  Service IP Labels/Addresses                        [node_A_svc]                                                            +
  Application Servers                                [app]                                                                    +
  
  Volume Groups                                      [datavg ]                                                                +
  Use forced varyon of volume groups, if necessary    false                                                                   +
  Automatically Import Volume Groups                  false                                                                   +
  Filesystems (empty is ALL for VGs specified)       [ ]                                                                      +
  Filesystems Consistency Check                       fsck                                                                    +
  Filesystems Recovery Method                         sequential                                                              +
  Filesystems mounted before IP configured            false                                                                   +

论坛徽章:
0
发表于 2011-06-15 16:38 |显示全部楼层
Online On Home Node Only
所以不TKO,是这样的吗?

论坛徽章:
0
发表于 2011-06-15 16:49 |显示全部楼层
回复 4# tianyue01


    什么是TKO?

论坛徽章:
0
发表于 2011-06-15 16:55 |显示全部楼层
好像从2切回1的时候  app1没完全成功down掉,datavg也没成功varyoffvg掉,在2上掉死了。

论坛徽章:
0
发表于 2011-06-15 17:07 |显示全部楼层
回复 6# yclhyhy


    似乎是这样的,但是我从node_A往node_B上切换就没问题,我觉得也是vg导致的问题,我node_B上有个只有浮动IP的资源组,切换到node_A主机,就没问题。

那我应该如何做呢?是脚本导致的问题吗?还是snmp导致的问题呢?

论坛徽章:
0
发表于 2011-06-15 17:12 |显示全部楼层
你在datavg上还建了/arch1 文件系统??

测试是否脚本导致的很简单,把脚本先从hacmp配置里面去掉,测试ha切换,看地址、资源能不能在A、B间正常切换,成功地话再在脚本里找原因,看是不是down应用前后顺序什么的。

论坛徽章:
0
发表于 2011-06-15 22:30 |显示全部楼层
本帖最后由 lanfeng356 于 2011-06-16 11:34 编辑

回复 1# lanfeng356


    又做了一些测试,把双机启停脚本注释掉,在node_A做资源offline和online没有问题

    不带脚本,将资源切回也没问题。

判断是脚本的问题。

后来问题找到原因:文件权限问题

在node_B节点中,start.sh和stop.sh中,将日志输出到cluster.log,这个文件的权限是755,属主是root,停止数据库的时候,su 到oracle用户,没有权限往里面输入日志,双机切换执行脚本时报错,导致双机切换不过去。
在node_A节点中,cluster.log的权限是777,所以切换过去没有问题。

论坛徽章:
0
发表于 2011-06-16 20:24 |显示全部楼层
哈哈 文件属主、文件属性 太重要了....
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP