免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: applegump
打印 上一主题 下一主题

heartbeat crm模块如何使用 [复制链接]

论坛徽章:
0
11 [报告]
发表于 2012-08-21 17:43 |只看该作者
再续上:


cib[14549]: 2012/08/21_17:35:48 info: log_data_element: readCibXmlFile: [on-disk]     <crm_config>
cib[14549]: 2012/08/21_17:35:48 info: log_data_element: readCibXmlFile: [on-disk]       <cluster_property_set id="cib-bootstrap-options">
cib[14549]: 2012/08/21_17:35:48 info: log_data_element: readCibXmlFile: [on-disk]         <attributes>
cib[14549]: 2012/08/21_17:35:48 info: log_data_element: readCibXmlFile: [on-disk]           <nvpair id="cib-bootstrap-options-symmetric-cluster" name="symmetric-cluster" value="true"/>
cib[14549]: 2012/08/21_17:35:48 info: log_data_element: readCibXmlFile: [on-disk]           <nvpair id="cib-bootstrap-options-no_quorum-policy" name="no_quorum-policy" value="stop"/>
crmd[13744]: 2012/08/21_17:35:48 info: crm_timer_popped: Wait Timer (I_NULL) just popped!
cib[14549]: 2012/08/21_17:35:48 info: log_data_element: readCibXmlFile: [on-disk]           <nvpair id="cib-bootstrap-options-default-resource-stickiness" name="default-resource-stickiness" value="0"/>
crmd[13744]: 2012/08/21_17:35:48 WARN: cib_native_signon: Connection to CIB failed: connection failed
cib[14549]: 2012/08/21_17:35:48 info: log_data_element: readCibXmlFile: [on-disk]           <nvpair id="cib-bootstrap-options-default-resource-failure-stickiness" name="default-resource-failure-stickiness" value="0"/>
cib[14549]: 2012/08/21_17:35:48 info: log_data_element: readCibXmlFile: [on-disk]           <nvpair id="cib-bootstrap-options-stonith-enabled" name="stonith-enabled" value="false"/>
cib[14549]: 2012/08/21_17:35:48 info: log_data_element: readCibXmlFile: [on-disk]           <nvpair id="cib-bootstrap-options-stonith-action" name="stonith-action" value="reboot"/>
cib[14549]: 2012/08/21_17:35:49 info: log_data_element: readCibXmlFile: [on-disk]           <nvpair id="cib-bootstrap-options-stop-orphan-resources" name="stop-orphan-resources" value="true"/>
cib[14549]: 2012/08/21_17:35:49 info: log_data_element: readCibXmlFile: [on-disk]           <nvpair id="cib-bootstrap-options-stop-orphan-actions" name="stop-orphan-actions" value="true"/>
cib[14549]: 2012/08/21_17:35:49 info: log_data_element: readCibXmlFile: [on-disk]           <nvpair id="cib-bootstrap-options-remove-after-stop" name="remove-after-stop" value="false"/>
cib[14549]: 2012/08/21_17:35:49 info: log_data_element: readCibXmlFile: [on-disk]           <nvpair id="cib-bootstrap-options-short-resource-names" name="short-resource-names" value="true"/>
cib[14549]: 2012/08/21_17:35:49 info: log_data_element: readCibXmlFile: [on-disk]           <nvpair id="cib-bootstrap-options-transition-idle-timeout" name="transition-idle-timeout" value="5min"/>
cib[14549]: 2012/08/21_17:35:49 info: log_data_element: readCibXmlFile: [on-disk]           <nvpair id="cib-bootstrap-options-default-action-timeout" name="default-action-timeout" value="5s"/>
cib[14549]: 2012/08/21_17:35:49 info: log_data_element: readCibXmlFile: [on-disk]           <nvpair id="cib-bootstrap-options-is-managed-default" name="is-managed-default" value="true"/>
cib[14549]: 2012/08/21_17:35:49 info: log_data_element: readCibXmlFile: [on-disk]         </attributes>
mgmtd[14063]: 2012/08/21_17:35:49 info: login to cib: 4, ret:-10
cib[14549]: 2012/08/21_17:35:49 info: log_data_element: readCibXmlFile: [on-disk]       </cluster_property_set>
cib[14549]: 2012/08/21_17:35:49 info: log_data_element: readCibXmlFile: [on-disk]     </crm_config>
cib[14549]: 2012/08/21_17:35:49 info: log_data_element: readCibXmlFile: [on-disk]     <nodes/>
cib[14549]: 2012/08/21_17:35:49 info: log_data_element: readCibXmlFile: [on-disk]     <resources>
cib[14549]: 2012/08/21_17:35:49 info: log_data_element: readCibXmlFile: [on-disk]       <group id="group_1">
cib[14549]: 2012/08/21_17:35:49 info: log_data_element: readCibXmlFile: [on-disk]         <primitive class="ocf" id="IPaddr_192_1_101_212" provider="heartbeat" type="IPaddr">
cib[14549]: 2012/08/21_17:35:49 info: log_data_element: readCibXmlFile: [on-disk]           <operations>
cib[14549]: 2012/08/21_17:35:49 info: log_data_element: readCibXmlFile: [on-disk]             <op id="IPaddr_192_1_101_212_mon" interval="5s" name="monitor" timeout="5s"/>
cib[14549]: 2012/08/21_17:35:49 info: log_data_element: readCibXmlFile: [on-disk]           </operations>
cib[14549]: 2012/08/21_17:35:49 info: log_data_element: readCibXmlFile: [on-disk]           <instance_attributes id="IPaddr_192_1_101_212_inst_attr">
cib[14549]: 2012/08/21_17:35:49 info: log_data_element: readCibXmlFile: [on-disk]             <attributes>
cib[14549]: 2012/08/21_17:35:49 info: log_data_element: readCibXmlFile: [on-disk]               <nvpair id="IPaddr_192_1_101_212_attr_0" name="ip" value="192.1.101.212"/>
cib[14549]: 2012/08/21_17:35:49 info: log_data_element: readCibXmlFile: [on-disk]             </attributes>
cib[14549]: 2012/08/21_17:35:49 info: log_data_element: readCibXmlFile: [on-disk]           </instance_attributes>
cib[14549]: 2012/08/21_17:35:49 info: log_data_element: readCibXmlFile: [on-disk]         </primitive>
cib[14549]: 2012/08/21_17:35:49 info: log_data_element: readCibXmlFile: [on-disk]         <primitive class="lsb" id="myhttpd_2" provider="heartbeat" type="myhttpd">
crmd[13744]: 2012/08/21_17:35:49 WARN: cib_native_signon: Connection to CIB failed: connection failed
cib[14549]: 2012/08/21_17:35:49 info: log_data_element: readCibXmlFile: [on-disk]           <operations>
crmd[13744]: 2012/08/21_17:35:50 WARN: do_cib_control: Couldn't complete CIB registration 6 times... pause and retry
cib[14549]: 2012/08/21_17:35:50 info: log_data_element: readCibXmlFile: [on-disk]             <op id="myhttpd_2_mon" interval="120s" name="monitor" timeout="60s"/>
cib[14549]: 2012/08/21_17:35:50 info: log_data_element: readCibXmlFile: [on-disk]           </operations>
cib[14549]: 2012/08/21_17:35:50 info: log_data_element: readCibXmlFile: [on-disk]         </primitive>
cib[14549]: 2012/08/21_17:35:50 info: log_data_element: readCibXmlFile: [on-disk]       </group>
cib[14549]: 2012/08/21_17:35:50 info: log_data_element: readCibXmlFile: [on-disk]     </resources>
cib[14549]: 2012/08/21_17:35:50 info: log_data_element: readCibXmlFile: [on-disk]     <constraints>
cib[14549]: 2012/08/21_17:35:50 info: log_data_element: readCibXmlFile: [on-disk]       <rsc_location id="rsc_location_group_1" rsc="group_1">
cib[14549]: 2012/08/21_17:35:50 info: log_data_element: readCibXmlFile: [on-disk]         <rule id="prefered_location_group_1" score="100">
mgmtd[14063]: 2012/08/21_17:35:50 info: login to cib failed
cib[14549]: 2012/08/21_17:35:50 info: log_data_element: readCibXmlFile: [on-disk]           <expression attribute="#uname" id="prefered_location_group_1_expr" operation="eq" value="kf28-1"/>
mgmtd[14063]: 2012/08/21_17:35:50 ERROR: Can't initialize management library.Shutting down.(-1)
heartbeat[13722]: 2012/08/21_17:35:50 WARN: Exiting /usr/local/lib/heartbeat/mgmtd -v process 14063 returned rc 1.
heartbeat[13722]: 2012/08/21_17:35:50 ERROR: Respawning client "/usr/local/lib/heartbeat/mgmtd -v":
heartbeat[13722]: 2012/08/21_17:35:50 info: Starting child client "/usr/local/lib/heartbeat/mgmtd -v" (0,0)
heartbeat[14561]: 2012/08/21_17:35:50 info: Starting "/usr/local/lib/heartbeat/mgmtd -v" as uid 0  gid 0 (pid 14561)
cib[14549]: 2012/08/21_17:35:50 info: log_data_element: readCibXmlFile: [on-disk]         </rule>
mgmtd[14561]: 2012/08/21_17:35:50 info: G_main_add_SignalHandler: Added signal handler for signal 15
cib[14549]: 2012/08/21_17:35:50 info: log_data_element: readCibXmlFile: [on-disk]       </rsc_location>
mgmtd[14561]: 2012/08/21_17:35:50 debug: Enabling coredumps
crmd[13744]: 2012/08/21_17:35:50 info: crm_timer_popped: Wait Timer (I_NULL) just popped!
cib[14549]: 2012/08/21_17:35:50 info: log_data_element: readCibXmlFile: [on-disk]     </constraints>
mgmtd[14561]: 2012/08/21_17:35:50 info: G_main_add_SignalHandler: Added signal handler for signal 10
crmd[13744]: 2012/08/21_17:35:50 WARN: cib_native_signon: Connection to CIB failed: connection failed
cib[14549]: 2012/08/21_17:35:50 info: log_data_element: readCibXmlFile: [on-disk]   </configuration>
mgmtd[14561]: 2012/08/21_17:35:50 info: G_main_add_SignalHandler: Added signal handler for signal 12
cib[14549]: 2012/08/21_17:35:50 info: log_data_element: readCibXmlFile: [on-disk]   <status/>
mgmtd[14561]: 2012/08/21_17:35:50 info: init_crm
cib[14549]: 2012/08/21_17:35:50 info: log_data_element: readCibXmlFile: [on-disk] </cib>
mgmtd[14561]: 2012/08/21_17:35:50 info: login to cib: 0, ret:-10
cib[14549]: 2012/08/21_17:35:50 notice: readCibXmlFile: Enabling DTD validation on the existing (sane) configuration
cib[14549]: 2012/08/21_17:35:50 info: startCib: CIB Initialization completed successfully
cib[14549]: 2012/08/21_17:35:50 WARN: init_start: CCM Activation failed
cib[14549]: 2012/08/21_17:35:51 WARN: init_start: CCM Connection failed 1 times (30 max)
cib[14549]: 2012/08/21_17:35:52 WARN: init_start: CCM Activation failed
cib[14549]: 2012/08/21_17:35:52 WARN: init_start: CCM Connection failed 2 times (30 max)

论坛徽章:
0
12 [报告]
发表于 2012-08-21 18:34 |只看该作者
工程的背景,配置,出错信息已经全部附上了,请各位不吝赐教,谢谢大家

论坛徽章:
0
13 [报告]
发表于 2012-08-21 19:41 |只看该作者
本帖最后由 sacry 于 2012-08-21 19:41 编辑

瞅了两眼没看出root case。
不过有几点

1,使用的是什么版本的...
2,oradb2-1上crm_mon出现[Not connected:Refresh in 3s...]的话,是oradb2-1上crm还没启动起来吧。
3,版本不明,所以这里也不太确定。不过ha.cf里配置了crm yes,那haresources文件应该没用了(也许还有效,但是不推荐再在那里配置)。
4,http有community版脚本的,不需要自己写。
4a,ps | grep会把grep这个进程也算进去,所以会比实际的多。
4b,rh的话可以引入/etc/rc.d/init.d/functions, 里面有status函数。 不是rh也可以参照下其他脚本怎么写的,你现在写的这个用在ha里有点纠结...
5,如果有你用的版本有crm命令的话,可以用crm configure show贴出配置。xml的配置看起来还是有点麻烦的。
5a,cib配置似乎没有什么问题。

以上所说不太能解决你描述的问题的样子,唯一像一点的原因还是2,oradb2-1上crm根本没有启动起来
看log里有:
ccm[13739]: 2012/08/21_17:34:14 ERROR: socket_wait_conn_new: unlink failure(/usr/local/var/run/heartbeat/ccm/ccm): Permission denied

heartbeat[13821]: 2012/08/21_17:34:21 info: Starting "/usr/local/lib/heartbeat/ccm" as uid 503  gid 501

503 501是你的ha用户组?有/usr/local/var/run/heartbeat/ccm/的访问权限吗?

论坛徽章:
0
14 [报告]
发表于 2012-08-21 19:58 |只看该作者
drwxr-x--- 2        17       65 4096 08-16 19:25 ccm
drwxr-xr-t 2 root      root     4096 08-21 17:34 rsctmp
srwxrwxrwx 1 root      root        0 08-21 17:34 stonithd_callback
srwxrwxrwx 1 root      root        0 08-21 17:34 stonithd
srwxrwxrwx 1 root      root        0 08-21 17:34 register
srwxrwxrwx 1 root      root        0 08-21 17:34 lrm_cmd_sock
srwxrwxrwx 1 root      root        0 08-21 17:34 lrm_callback_sock
drwxr-x--- 2 hacluster haclient 4096 08-21 19:40 crm

论坛徽章:
0
15 [报告]
发表于 2012-08-21 20:00 |只看该作者
是这个有问题吧,请教怎么解决呢?

直接chown -R hacluster ccm

然后 chgrp -R haclient  ccm

这样吗?

我想应该是我在安装的时候没有注意到什么吧。kf28-1上这个是好的,请教在安装的时候如何规避这个问题呢?

谢谢楼上的

论坛徽章:
20
CU大牛徽章
日期:2013-04-17 11:48:26羊年新春福章
日期:2015-03-10 22:39:202015年中国系统架构师大会
日期:2015-06-29 16:11:282015亚冠之平阳省
日期:2015-07-31 09:19:042015七夕节徽章
日期:2015-08-21 11:06:17IT运维版块每日发帖之星
日期:2015-09-30 06:20:002015亚冠之柏太阳神
日期:2015-10-19 20:29:5915-16赛季CBA联赛之天津
日期:2016-11-29 14:03:4315-16赛季CBA联赛之北控
日期:2016-12-24 20:51:492015年辞旧岁徽章
日期:2015-03-03 16:54:15双鱼座
日期:2015-01-12 20:58:532014年中国系统架构师大会
日期:2014-10-14 15:59:00
16 [报告]
发表于 2012-08-21 21:45 |只看该作者
我最近也碰到类似的问题,顶起

论坛徽章:
0
17 [报告]
发表于 2012-08-22 09:05 |只看该作者
我设置了权限,现在两个节点的crm应该是都起来了。现在两台机器的crm_mon运行情况如下


============
Last updated: Wed Aug 22 08:50:00 2012
Current DC: oradb2-1 (34bd366d-3b86-4cb1-9bb1-b901f0e4e08b)
2 Nodes configured.
1 Resources configured.
============

Node: oradb2-1 (34bd366d-3b86-4cb1-9bb1-b901f0e4e08b): online
Node: kf28-1 (b275747d-b787-43c1-b05e-15a84603ebbf): online

Resource Group: group_1
    IPaddr_192_1_101_212        (heartbeat:cf:IPaddr):        Started kf28-1
    myhttpd_2   (lsb:myhttpd):  Started kf28-1




============
Last updated: Wed Aug 22 08:42:18 2012
Current DC: oradb2-1 (34bd366d-3b86-4cb1-9bb1-b901f0e4e08b)
2 Nodes configured.
1 Resources configured.
============

Node: oradb2-1 (34bd366d-3b86-4cb1-9bb1-b901f0e4e08b): online
Node: kf28-1 (b275747d-b787-43c1-b05e-15a84603ebbf): online

Resource Group: group_1
    IPaddr_192_1_101_212        (heartbeat:cf:IPaddr):        Started kf28-1
    myhttpd_2   (lsb:myhttpd):  Started kf28-1


主节点的heartbeat能正常拉起httpd,能分配到 192.1.101.212这个IP,但是备节点oradb2-1还是不能拉起httpd,主节点的ha-debug日志看不出异常,备节点oradb2-1


的日志里面有少量错误如下:

pengine[2945]: 2012/08/22_08:47:56 notice: cluster_option: Using default value 'stop' for cluster option 'no-quorum-policy'
pengine[2945]: 2012/08/22_08:47:56 notice: cluster_option: Using default value '60s' for cluster option 'cluster-delay'
pengine[2945]: 2012/08/22_08:47:56 notice: cluster_option: Using default value '-1' for cluster option 'pe-error-series-max'
pengine[2945]: 2012/08/22_08:47:56 notice: cluster_option: Using default value '-1' for cluster option 'pe-warn-series-max'
pengine[2945]: 2012/08/22_08:47:56 notice: cluster_option: Using default value '-1' for cluster option 'pe-input-series-max'
pengine[2945]: 2012/08/22_08:47:56 notice: cluster_option: Using default value 'true' for cluster option 'startup-fencing'
pengine[2945]: 2012/08/22_08:47:56 info: determine_online_status: Node oradb2-1 is online
pengine[2945]: 2012/08/22_08:47:56 info: determine_online_status: Node kf28-1 is online
pengine[2945]: 2012/08/22_08:47:56 ERROR: native_add_running: Resource lsb::myhttpd:myhttpd_2 appears to be active on 2 nodes.
pengine[2945]: 2012/08/22_08:47:56 ERROR: See http://linux-ha.org/v2/faq/resource_too_active for more information.
pengine[2945]: 2012/08/22_08:47:56 info: group_print: Resource Group: group_1
pengine[2945]: 2012/08/22_08:47:56 info: native_print:     IPaddr_192_1_101_212 (heartbeat:cf:IPaddr):        Stopped
pengine[2945]: 2012/08/22_08:47:56 info: native_print:     myhttpd_2    (lsb:myhttpd)
pengine[2945]: 2012/08/22_08:47:56 info: native_print:  0 : oradb2-1
pengine[2945]: 2012/08/22_08:47:56 info: native_print:  1 : kf28-1
pengine[2945]: 2012/08/22_08:47:56 info: native_color: Combine scores from myhttpd_2 and IPaddr_192_1_101_212
pengine[2945]: 2012/08/22_08:47:56 notice: StartRsc:  kf28-1    Start IPaddr_192_1_101_212
pengine[2945]: 2012/08/22_08:47:57 notice: Recurring: kf28-1       IPaddr_192_1_101_212_monitor_5000
pengine[2945]: 2012/08/22_08:47:57 ERROR: native_create_actions: Attempting recovery of resource myhttpd_2
pengine[2945]: 2012/08/22_08:47:57 notice: StopRsc:   oradb2-1  Stop myhttpd_2
pengine[2945]: 2012/08/22_08:47:57 notice: StopRsc:   kf28-1    Stop myhttpd_2
pengine[2945]: 2012/08/22_08:47:57 notice: StartRsc:  kf28-1    Start myhttpd_2
pengine[2945]: 2012/08/22_08:47:57 notice: Recurring: kf28-1       myhttpd_2_monitor_120000


我在网上查了一下“ERROR: native_add_running: Resource lsb::myhttpd:myhttpd_2 appears to be active on 2 nodes”这个错误,找到了下面这个页面

http://www.gossamer-threads.com/lists/linuxha/users/65560

这个页面描述的问题跟我的好像比较类似,可是我英文不是太好,背景知识也不够,看不懂是什么意思,请教大家能不能给我一点指教,谢谢大家





论坛徽章:
0
18 [报告]
发表于 2012-08-22 09:07 |只看该作者
前述的朋友提到软件版本,我安装的heartbeat是heartbeat-2.0.8

论坛徽章:
0
19 [报告]
发表于 2012-08-22 09:29 |只看该作者

论坛徽章:
0
20 [报告]
发表于 2012-08-22 09:31 |只看该作者
主节点的heartbeat能正常拉起httpd,能分配到 192.1.101.212这个IP,但是备节点oradb2-1还是不能拉起httpd


primitive资源本来就不能同时启动,只能Failover。
如果有crm命令的话,贴一下crm configure show的结果,xml看起来麻烦。
不过多半不是资源配置的问题,你那lsb脚本....
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP