免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: oraliy

rhel5.3的rhcs双机不断重启,求原因 [复制链接]

论坛徽章:
33
荣誉会员
日期:2011-11-23 16:44:17天秤座
日期:2014-08-26 16:18:20天秤座
日期:2014-08-29 10:12:18丑牛
日期:2014-08-29 16:06:45丑牛
日期:2014-09-03 10:28:58射手座
日期:2014-09-03 16:01:17寅虎
日期:2014-09-11 14:24:21天蝎座
日期:2014-09-17 08:33:55IT运维版块每日发帖之星
日期:2016-04-17 06:23:27操作系统版块每日发帖之星
日期:2016-04-18 06:20:00IT运维版块每日发帖之星
日期:2016-04-24 06:20:0015-16赛季CBA联赛之天津
日期:2016-05-06 12:46:59
发表于 2010-07-16 19:04 |显示全部楼层
怎么把第三块网卡整成心跳?
oraliy 发表于 2010-07-16 19:02



这个, 实在抱歉, 我很久没配过 rhcs了. 都不知道新的要怎么配置了. 你可能得看一下手册了.

如果是图形的配置, 里面应该会有一个选网卡的地方吧?

论坛徽章:
0
发表于 2010-07-16 19:10 |显示全部楼层
哈哈。默认是第一块网卡,没有图形界面配这个。我把网络改一下:
eth0与eth1绑成虚拟网卡,eth2去与ilo对接。
再试一次。R

论坛徽章:
0
发表于 2010-07-16 19:53 |显示全部楼层
难道你所有的网络都是直连?中间没有交换机或者hub这样的连接设备吗?

论坛徽章:
0
发表于 2010-07-17 00:03 |显示全部楼层
试了,还是不成。。。
我是A机的etho使用交叉线与B机的ilo2连接
      B机的eth0使用交叉线与A机的ilo2连接
A机的eth1/B机的eth1与A交换机连接;
A机的eth2/B机的eth2与B交换机连接;
A/B机的eth1与eth2做双网卡绑定。
A交换机与B交换机分别直接连接DCN网,A交换机与B交换机用交叉线连接。
A交换机与B交换机互备,这就是整个的网络情况。
哪位大兄能帮再想想哪哪出了问题,郁闷。。

论坛徽章:
0
发表于 2010-07-17 00:07 |显示全部楼层
试了,还是不成。。。
我是A机的etho使用交叉线与B机的ilo2连接
      B机的eth0使用交叉线与A机的ilo2连 ...
oraliy 发表于 2010-07-17 00:03



A机的eth0IP:1.1.1.4,B机ilo IP:1.1.1.2
B机的eth0IP:1.1.1.5,    A机的ilo IP:1.1.1.3

论坛徽章:
0
发表于 2010-07-17 10:48 |显示全部楼层
这个网络结构基本OK,但是还是有问题:

造成互相fence的原因,一定是开机的时候无法找到对方的心跳导致,从你的网络上看,估计是中间设备,就是那两台交换机的影响。你要不信可以试试把bonding拆了,将你原来在bonding上的地址配到某一个网卡上,然后两个网卡用直连线而不通过中间设备,相信就不会有这个问题。

所以与其你在这里漫无目的地搞,倒不如好好看看我的回帖好了。再不然,既然你有买RH服务,而自己又懒得去琢磨,不如打个电话问清楚他们。

论坛徽章:
0
发表于 2010-07-17 11:14 |显示全部楼层
这个网络结构基本OK,但是还是有问题:

造成互相fence的原因,一定是开机的时候无法找到对方的心跳导致, ...
jerrywjl 发表于 2010-07-17 10:48



    有道理,呵呵
    RH的服务就是个LJ,昨天找说在开会,邮件晚上回!结果今天电话也不接了。哎
    我试着折开bond,不过HP的设备ilo我直接连不能通过fence_ilo,郁闷。我折开bond试试

论坛徽章:
0
发表于 2010-07-17 14:05 |显示全部楼层
我相信你要按照我说的做,现在应该已经测出不同的结果了。

对于这种问题,我觉得比较好的办法是调你中间那两台交换机,让端口恢复时间尽量短一些;另外在集群配置文件中有两个参数,一个叫做post_join_delay,另外一个叫做post_fail_delay,这两个值都调大一些。尤其是post_join_delay,先调到30以上,不行调60,如果还不行,那么我就不敢再往上调了。我觉得你调交换机会更好一些。另外你的集群系统版本是什么,如果是5.4以上的,还有一种方法。

顺便提一下,RH一般在周六日只对买24x7服务的用户提供标准工作时间之外的支持,而且在这种时候只处理严重级别最高的问题,所以你要确认你买了24x7服务,但这种部署类的问题,一般也不属于周六日处理的范畴之内。所以如果你没有这样的服务级别,人家不搭理你也无可厚非。反正按我说的做就是了。

论坛徽章:
0
发表于 2010-07-18 05:13 |显示全部楼层
整了一天一夜,现在的结果如下:
1、不使用双网卡绑定,只使用eth1连接DCN网,eth0与对方机器的ilo对接,修改post_join_delay为50,clustat正常
2、eth1与eth2使用双网卡绑定,产生虚拟网卡bond0连接DCN(eth1与eth2互备,mode=1),eth0与对方机器的ilo对接,怎么修改post_join_delay等,结果都是A/B机你切我,我切你,不断重启。

现在有几套就是现在这种情况,暂时没有办法使用双网卡。看看大家还有什么办法?休息一下,还是要想出个办法。

现在有一台服务器不知哪修改错了,有这么一个新情况:
可能是修改双网卡绑定或其它信息后,现象如下:
---------------------------------------------------------------
每两次reboot就会有一次异常:一次能正常启动,一次不能
异常情况表现为:
在启动到PCI:Not MMCONFIG
Red Hat nash verion 5.1.19.6 starting
后面就会和正常情况不一致
接下来日志为:
INIT:Entering runlevel:5
..lying Intel CPU microcode update..
...
Bringing up lookback interface:
Bringing up interface eth0:mktemp:..
./network-functions:line 270rsctmp:..
./network-functions:line 271rsctmp:..

Bringing up interface eth1:
can't touch '/var/lock/subsys/network' :read-only file system

starting auditd: fail
starting system logger:...
如果一直等,会最后出现提示:
“INIT: Id “1″ respawning too fast: disabled for 5 minutes”
一直到时间,提示login
使用网上提供的一些如:fsck -r之类都没有作用。在starting system logger:...或login后,或其它任何时间直接关电源,
重启就会正常一次,再reboot又会如此异常情况

另一次正常:
在启动到PCI:Not MMCONFIG
Red Hat nash verion 5.1.19.6 starting
.....
弹出界面eth0
弹出界面eth1
启动auditd
启动系统日志记录器
....
可以顺利一直下去
---------------------------------------------------------------
google了很多网上的同仁位有关:
1) 启动时 starting system logger
2)、启动时“INIT: Id “1″ respawning too fast: disabled for 5 minutes”
这两种现象的处理办法,如:
a、fsck -r 硬盘;
b、修改eth0等网卡的返回标志;
c、拔掉所有网线,重新设置
d、去除/etc/rc.d/内所有修改信息等
.....
结果都没有效果。就想到最后一条路:重装!
重装一次,发现还是这种情况,以为是重装有问题。彻底把hp380G6 bios 重置default、ilo重做、主机raid0+1重做。再重装一次redhat5.3。结果仍和上面的情况一致,没有发生改变。。:em12:

各位大X:
还请帮忙看看:
1、双网卡绑定后为什么死活不能正常rhcs双机?
2、出现的这种一次正常重启,一次异常报错不能正常重启的情况到底是hp设备的问题,还是redhat的问题?

论坛徽章:
0
发表于 2010-07-18 09:03 |显示全部楼层
1.就是说,你已经将post_join_delay改到一个比较大的值,如果A机eth1单网卡<-->交换机<-->B机eth1单网卡不会出现相互重启的情况?

这不应该是双网卡绑定的问题,主备网卡一般断线切换时间是以毫秒级计算。这个时间远远小于集群心跳判断时间,我比较怀疑你中间那两台交换机。

2.什么型号的交换机?
3.操作系统版本?
4.不管在双网卡和单网卡环境下,把post_join_delay再调大些,60以上。
5.你要准确告诉我你每次的测试的连接情况,尤其是要说清楚中间有没有走交换机,还是直连。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP