免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3096 | 回复: 1
打印 上一主题 下一主题

rgmanager的restart行为模式的疑问 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2012-11-05 09:37 |只看该作者 |倒序浏览
本帖最后由 PinkOrient 于 2012-11-05 09:52 编辑

发现Rgmanager做restart的时候实际上是先stop再start脚本,跟预期的有点差异,为什么不直接调用脚本的restart参数呢?

设置如下
  1.                 <service autostart="1" domain="xxx_dm" name="xxx_server" recovery="restart" max_restarts="3" restart_expire_time="60">
  2.                         <ip address="139.122.10.187" monitor_link="1">
  3.                                 <script ref="xxx_server"/>
  4.                         </ip>
  5.                 </service>
复制代码
其中脚本xxx_server会监控n个xxx进程,如果任何一个xxx进程不存在了,则脚本status返回1,此时如果调用脚本的restart/start函数的话,其他n-1个正常的xxx进程不受影响,只是把停掉的拉起来。
尝试kill掉一个其中一个xxx_server进程,期望的是rgmanager会在本地主机调用一次service xxx_serverd restart, 直接把死掉的尝试拉起来,其他在跑的不影响,
但是实际情况如下,cluster发现status不为0后,重新把服务停掉并把资源withdraw,然后再重新register资源和拉起服务,把好的xxx进程也干掉了,并且整个过程的周期是18s左右。
  1. Nov  2 17:03:52 ServerNode01 xxx_serverd[29499]: status ... [OK]
  2. Nov  2 17:04:25 ServerNode01 xxx_serverd[30222]: status ... [OK]
  3. Nov  2 17:04:58 ServerNode01 xxx_serverd[30842]: status ... [Failed]                                            #发现死了一个,status不正常
  4. Nov  2 17:04:58 ServerNode01 clurgmgrd: [23683]: <err> script:xxx_server: status of /etc/init.d/xxx_serverd failed (returned 1)
  5. Nov  2 17:04:58 ServerNode01 clurgmgrd[23683]: <notice> status on script "xxx_server" returned 1 (generic error)
  6. Nov  2 17:04:58 ServerNode01 clurgmgrd[23683]: <notice> Stopping service service:xxx_server      #停掉service,导致其他的几个也退出了
  7. Nov  2 17:04:58 ServerNode01 xxx_serverd[30985]: stop ... [OK]
  8. Nov  2 17:04:58 ServerNode01 avahi-daemon[6987]: Withdrawing address record for 139.122.10.187 on bond0.    #VIP也withdraw掉了
  9. Nov  2 17:05:09 ServerNode01 clurgmgrd[23683]: <notice> Service service:xxx_server is recovering
  10. Nov  2 17:05:09 ServerNode01 clurgmgrd[23683]: <notice> Recovering failed service service:xxx_server
  11. Nov  2 17:05:11 ServerNode01 avahi-daemon[6987]: Registering new address record for 139.122.10.187 on bond0.
  12. Nov  2 17:05:16 ServerNode01 xxx_serverd[31550]: start ... [OK]
  13. Nov  2 17:05:16 ServerNode01 clurgmgrd[23683]: <notice> Service service:xxx_server started         #重新分配资源和启动完成
  14. Nov  2 17:05:49 ServerNode01 xxx_serverd[32390]: status ... [OK]
复制代码

论坛徽章:
0
2 [报告]
发表于 2014-03-20 21:38 |只看该作者
呵呵,我也遇到这个问题了
我还有一个疑问是:Recovering failed service servicexx_server
为什么恢复失败了,才又开始在本机上启动各资源
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP