免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
123下一页
最近访问板块 发新帖
查看: 15528 | 回复: 29
打印 上一主题 下一主题

rhel5.3的rhcs双机不断重启,求原因 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2010-07-15 23:12 |只看该作者 |倒序浏览
本帖最后由 oraliy 于 2010-07-18 05:15 编辑

redhat5.3整理的双机。A/B机两台。心跳线是A机心跳连B机eth0,B机心跳连A机eth0,
现在是A/B机cman与rgmanager手动启动时双机正常,但设置cman与rgmanager为自动时,A/B机同时重启,
发现A机启动成功。B机被自动重启,B机重启成功后.A机会自动重启。这种情况如何处理?SOS。。。

-------------------------------------------------------------------------------------
整了一天一夜,现在是7.18的早上5点多,结果如下:
1、不使用双网卡绑定,只使用eth1连接DCN网,eth0与对方机器的ilo对接,修改post_join_delay为50,clustat正常
2、eth1与eth2使用双网卡绑定,产生虚拟网卡bond0连接DCN(eth1与eth2互备,mode=1),eth0与对方机器的ilo对接,怎么修改post_join_delay等,结果都是A/B机你切我,我切你,不断重启。

现在有几套就是现在这种情况,暂时没有办法使用双网卡。看看大家还有什么办法?休息一下,还是要想出个办法。

现在有一台服务器不知哪修改错了,有这么一个新情况:
可能是修改双网卡绑定或其它信息后,现象如下:
---------------------------------------------------------------
每两次reboot就会有一次异常:一次能正常启动,一次不能
异常情况表现为:
在启动到PCI:Not MMCONFIG
Red Hat nash verion 5.1.19.6 starting
后面就会和正常情况不一致
接下来日志为:
INIT:Entering runlevel:5
..lying Intel CPU microcode update..
...
Bringing up lookback interface:
Bringing up interface eth0:mktemp:..
./network-functions:line 270rsctmp:..
./network-functions:line 271rsctmp:..

Bringing up interface eth1:
can't touch '/var/lock/subsys/network' :read-only file system

starting auditd: fail
starting system logger:...
如果一直等,会最后出现提示:
“INIT: Id “1″ respawning too fast: disabled for 5 minutes”
一直到时间,提示login
使用网上提供的一些如:fsck -r之类都没有作用。在starting system logger:...或login后,或其它任何时间直接关电源,
重启就会正常一次,再reboot又会如此异常情况

另一次正常:
在启动到PCI:Not MMCONFIG
Red Hat nash verion 5.1.19.6 starting
.....
弹出界面eth0
弹出界面eth1
启动auditd
启动系统日志记录器
....
可以顺利一直下去
---------------------------------------------------------------
google了很多网上的同仁位有关:
1) 启动时 starting system logger
2)、启动时“INIT: Id “1″ respawning too fast: disabled for 5 minutes”
这两种现象的处理办法,如:
a、fsck -r 硬盘;
b、修改eth0等网卡的返回标志;
c、拔掉所有网线,重新设置
d、去除/etc/rc.d/内所有修改信息等
.....
结果都没有效果。就想到最后一条路:重装!
重装一次,发现还是这种情况,以为是重装有问题。彻底把hp380G6 bios 重置default、ilo重做、主机raid0+1重做。再重装一次redhat5.3。结果仍和上面的情况一致,没有发生改变。。

各位大X:
还请帮忙看看:
1、双网卡绑定后为什么死活不能正常rhcs双机?
2、出现的这种一次正常重启,一次异常报错不能正常重启的情况到底是hp设备的问题,还是redhat的问题?

论坛徽章:
0
2 [报告]
发表于 2010-07-16 11:48 |只看该作者
有没有fence设备啊,如果有心跳是正常的?

论坛徽章:
0
3 [报告]
发表于 2010-07-16 13:02 |只看该作者
fence_ilo都正常,互相切换过程中/var/log/messages也没有明显报错的地方。郁闷。。哪位老兄SOS!!!

论坛徽章:
0
4 [报告]
发表于 2010-07-16 15:07 |只看该作者
确认一下心跳有没有问题啊,奇怪了,上次我是拔心跳的时候会出现反复轮流fence对方的机器。
但是重启对方的机器应该会有fence的日志记录啊?!
或者不用心跳线,直接把hosts改一下,把节点指到服务网卡IP。试一下吧。

论坛徽章:
0
5 [报告]
发表于 2010-07-16 15:33 |只看该作者
典型的没有心跳的问题:

第一,确认两台机器防火墙关闭;
第二,修改/etc/cluster/cluster.conf中的post_join_delay值到更大;
第三,如果上述方法解决不了你的问题,暂时尝试用直连线跑心跳测试,我估计问题就在你的中间设备上。

论坛徽章:
0
6 [报告]
发表于 2010-07-16 18:48 |只看该作者
我使用的设备是HP380g6,有4个网卡和一个ilo2卡,因为hp ilo不能用交叉线直连(ilo直接用交叉线或直联线连接A机ping不到B机的ilo ip),就使用了:
1、A机的eth0和B机的ilo交叉线连接,eth0和ilo的ip都为1.1.1.*段
2、B机的eth0和A机的ilo交叉线连接,eth0和ilo的ip都为1.1.1.*段
3、A/B机的eth1和eth2都用于双网卡绑定

在/etc/hosts中配置了:
127.0.0.1 localhost
A机ip A机主机名(eth1和eth2绑定的ip)
B机ip B机主机名(eth1和eth2绑定的ip)

其它就没有配置什么。

当cman与rgmanager都设为手头是,在A/B同时启动cman及rgmanager是可以用clustat看到A/B机都online的,但一旦启动cman及rgmanager使用了自动,则A/B互相切换的情况就会出来。。
郁闷相当。。911。
另:redhat的技术支持相当不负责,看了看sosreport说配置问题,后面怎么找也找不到了。哎。.

论坛徽章:
33
荣誉会员
日期:2011-11-23 16:44:17天秤座
日期:2014-08-26 16:18:20天秤座
日期:2014-08-29 10:12:18丑牛
日期:2014-08-29 16:06:45丑牛
日期:2014-09-03 10:28:58射手座
日期:2014-09-03 16:01:17寅虎
日期:2014-09-11 14:24:21天蝎座
日期:2014-09-17 08:33:55IT运维版块每日发帖之星
日期:2016-04-17 06:23:27操作系统版块每日发帖之星
日期:2016-04-18 06:20:00IT运维版块每日发帖之星
日期:2016-04-24 06:20:0015-16赛季CBA联赛之天津
日期:2016-05-06 12:46:59
7 [报告]
发表于 2010-07-16 18:55 |只看该作者
兄弟 心跳线呢?

你的eth0是fence线了.

你把eth3用网线接起来, 配成心跳, 应该可以.

论坛徽章:
0
8 [报告]
发表于 2010-07-16 18:57 |只看该作者
兄弟 心跳线呢?

你的eth0是fence线了.

你把eth3用网线接起来, 配成心跳, 应该可以.
q1208c 发表于 2010-07-16 18:55



    你的意思是:
不要把A机eth0与B机ilo连接,而且改成A机的eth3与B机的ilo连接?

论坛徽章:
33
荣誉会员
日期:2011-11-23 16:44:17天秤座
日期:2014-08-26 16:18:20天秤座
日期:2014-08-29 10:12:18丑牛
日期:2014-08-29 16:06:45丑牛
日期:2014-09-03 10:28:58射手座
日期:2014-09-03 16:01:17寅虎
日期:2014-09-11 14:24:21天蝎座
日期:2014-09-17 08:33:55IT运维版块每日发帖之星
日期:2016-04-17 06:23:27操作系统版块每日发帖之星
日期:2016-04-18 06:20:00IT运维版块每日发帖之星
日期:2016-04-24 06:20:0015-16赛季CBA联赛之天津
日期:2016-05-06 12:46:59
9 [报告]
发表于 2010-07-16 18:59 |只看该作者
你的意思是:
不要把A机eth0与B机ilo连接,而且改成A机的eth3与B机的ilo连接?
oraliy 发表于 2010-07-16 18:57



   
eth0 还按你原来的接就好.

你再拿一条线, 把两台机器的eth3接起来. 在cluster的配置里, 把这个配成心跳看看.
要记住 heartbeat 和 fence 是两回事 .

论坛徽章:
0
10 [报告]
发表于 2010-07-16 19:02 |只看该作者
eth0 还按你原来的接就好.

你再拿一条线, 把两台机器的eth3接起来. 在cluster的配置里, 把 ...
q1208c 发表于 2010-07-16 18:59



   
怎么把第三块网卡整成心跳?
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP