Chinaunix

标题: redhat cluster 问题 [打印本页]

作者: lky    时间: 2005-02-26 00:02
标题: redhat cluster 问题
我做了redhat cluster ,每台服务器有2快网卡,其中一块连交换机,另一块互联作为心跳现。现在的问题是,我关了其中一台服务器,另外一台能够几个,但我拔了活动服务器连交换机网卡的网线是,cluster检测不到,也不切换。我做的是HA方式,即一台活动一台备份。
作者: netbee    时间: 2005-04-08 21:18
标题: redhat cluster 问题
我在VMWARE中没这个问题。我在VMWARE中不管是DOWN那块网卡,都能自动切换。在实际应用当中没试过。
作者: xingrong_0598    时间: 2005-07-21 11:02
标题: redhat cluster 问题
[quote]原帖由 "lky"]我做了redhat cluster ,每台服务器有2快网卡,其中一块连交换机,另一块互联作为心跳现。现在的问题是,我关了其中一台服务器,另外一台能够几个,但我拔了活动服务器连交换机网卡的网线是,cluster检测不到,也不?.........[/quote 发表:



你首先要先测一下,你们之间的机子能不能通
还有在/etc/hosts把两台主机加上了吗
作者: zydudu    时间: 2005-07-21 11:21
标题: redhat cluster 问题
[quote]原帖由 "lky"]我做了redhat cluster ,每台服务器有2快网卡,其中一块连交换机,另一块互联作为心跳现。现在的问题是,我关了其中一台服务器,另外一台能够几个,但我拔了活动服务器连交换机网卡的网线是,cluster检测不到,也不
作者: 刘旭东    时间: 2005-07-21 16:00
标题: redhat cluster 问题
你是用redhat clustermanager么?
你的redhat 是什么版本?

对于两个节点的集群,需要设置 network tiebreaker
否则不能正常工作,严重的会导致数据损坏。
作者: lky    时间: 2005-08-29 15:51
标题: redhat cluster 问题
现在网线断了能切换了,但是系统会把网线断了的机器直接重启掉。很奇怪,什么提示都没有就直接强制重启,跟按主机上的restart按键一样的。
作者: q1208c    时间: 2005-08-29 15:59
标题: redhat cluster 问题
[quote]原帖由 "lky"]现在网线断了能切换了,但是系统会把网线断了的机器直接重启掉。很奇怪,什么提示都没有就直接强制重启,跟按主机上的restart按键一样的。[/quote 发表:


不重启它怎么保证数据完整性呀?
作者: lky    时间: 2005-08-29 16:04
标题: redhat cluster 问题
原帖由 "q1208c" 发表:


不重启它怎么保证数据完整性呀?


做过小型机HA和win下的HA,从来没有把服务器强制重启的啊。只要把磁柜和IP释放掉就可以了不用重新启动服务器的。数据只有有一份,是放在磁柜上的。
作者: q1208c    时间: 2005-08-29 16:40
标题: redhat cluster 问题
原帖由 "lky" 发表:


做过小型机HA和win下的HA,从来没有把服务器强制重启的啊。只要把磁柜和IP释放掉就可以了不用重新启动服务器的。数据只有有一份,是放在磁柜上的。


手工切换时当然没问题了.

可要是真的因为什么原因, 机器 hang 了. 你还能让它把 资源放出来么?
作者: nntp    时间: 2005-08-29 18:23
标题: redhat cluster 问题
原帖由 "q1208c" 发表:


手工切换时当然没问题了.

可要是真的因为什么原因, 机器 hang 了. 你还能让它把 资源放出来么?


机器hung了,OS都不工作了,什么东西在占用资源?

所以要heart-beat+quorum牙,否则 lock manager干吗用的?
作者: q1208c    时间: 2005-08-29 18:34
标题: redhat cluster 问题
原帖由 "nntp" 发表:


机器hung了,OS都不工作了,什么东西在占用资源?

所以要heart-beat+quorum牙,否则 lock manager干吗用的?


可不一定是 os 不工作.

所以, 重启了它就最好了.  
作者: cnadl    时间: 2005-08-29 20:02
标题: redhat cluster 问题
据我所知以前clustersuite是不重起的,是不是楼主quorum没配好?
作者: lky    时间: 2005-08-30 17:28
标题: redhat cluster 问题
[quote]原帖由 "cnadl"]据我所知以前clustersuite是不重起的,是不是楼主quorum没配好?[/quote 发表:


我试过好多次,在实机上还是vmware上都是会重启的。
作者: q1208c    时间: 2005-08-30 17:30
标题: redhat cluster 问题
[quote]原帖由 "cnadl"]据我所知以前clustersuite是不重起的,是不是楼主quorum没配好?[/quote 发表:


会重启的.
当 hosta 不能访问 quorum 或是 tieroute 之类的就会因为 watchdog 而自已重启. 另一台当然就会接管.
作者: liyhappy    时间: 2005-11-29 15:56
原帖由 lky 于 2005-8-29 15:51 发表
现在网线断了能切换了,但是系统会把网线断了的机器直接重启掉。很奇怪,什么提示都没有就直接强制重启,跟按主机上的restart按键一样的。



我做的也有这个情况,断掉主机的连交换机的网线,服务也能转移到备份机,但是主机直接重新启动,这个是不是不正常啊,怎么解决呢?
作者: nntp    时间: 2005-12-01 00:57
原帖由 q1208c 于 2005-8-29 18:34 发表


可不一定是 os 不工作.

所以, 重启了它就最好了.  



LOL.... if rebooting is the silver bullet, why do RAC getta to market? :"  

for most mission critical systems, rebooting means your boss is going to  kick your ass.

rebooting is the most stupid way to solve HA problem.

[ 本帖最后由 nntp 于 2005-12-1 00:58 编辑 ]
作者: nntp    时间: 2005-12-01 01:06
原帖由 q1208c 于 2005-8-30 17:30 发表
[quote]原帖由 "cnadl"]据我所知以前clustersuite是不重起的,是不是楼主quorum没配好?[/quote 发表:


会重启的.
当 hosta 不能访问 quorum 或是 tieroute 之类的就会因为 watchdog 而自 ...



This is because redhat cluster is a silly ha cluster system that was developped base on Kimberlite.
If you really familiar with HA system, Kimberlite and it's commerical edition Convolo Data Guard is the protype of RHCS.

RHCS utilize SCSI reservation to issue lock conflict when whole nodes are in brain-split status. To avoid 50%-50% election in a "dual node HA cluster ", trigger watchdog to reboot the system is the easiest way for those RHCS developer to make system rolling back.

Actually advanced HA software never use such mechanism for a Real "High Availability Production System".
作者: q1208c    时间: 2005-12-04 17:14
I know few about the HA software. The Red Hat Cluster Suite is the first one that I learned.


Thanks for your information for the HA software.

Could you tell me more about the RAC ? I just know the Oracle RAC.

And as I think. if the hosta hang, the hostb is take over the service. How to deal the hosta ? just let it hang?

If the OS is hang, the administrator is just power off the machine, and then restart it. that we do it more times ( the Windows machine).


Waiting for your information.

Thanks again!!
作者: nntp    时间: 2005-12-06 05:01
Morning dude,

I was shocked by TruCluster When i started to help manufacture customers to setup high availability environment with Tru64 Unix on Alpha System.

I said, WoW ,  the cluster is the strongest HA cluster i've seen that can support real time sync data between nodes via special technology (we called it memory channel - A kind of HBA adapters on all nodes) . Ofcoz the whole system has sucessfully implemented SSI (single system image).And now days, people  know OCFS from Oracle, but a few years ago, Alpha already has it's VERY mature clusterwide filesystem by it's TruCluster.

Let's back to Oracle RAC:

- A not so mature ocfs , standalone clulster-aware(even not cluster-wide),
- A replacement solution but only stick on Oracle data management - ASM which support clusteraware storage too.
- A cache fusion core to support sync data between nodes, but limited to Oracle

anyway, Oracle learns faster,  they made it possible to  deploy a real time SSI Database Cluster with complete high availability on linux platform.

Try to access otn.oracle.com and check out linux section, there are 9i/10g RAC step by step guides for you . Furthermore, a guru who wrote series articles to instruct you setp by step installing  Oracle RAC on Linux with IEEE1394 system also can be searched. Very interesting? yep,that's made me happy for several weeks. ( but buddy you've to purchase Maxtor OneTouch Button IEEE1394 hardisk and enclosure to support two concurrent I/O block access from two nodes, suppose they are two standalone PC).

Metalink account(metalink.oracle.com) will booth you directly to getin know everytihing arround RAC.

I' don't want to explain more on how do these modern HA clusters to solve  the node dead/rebooting/hang situation because you can obtain those information easily from their official website. Some of them even provide evaluation copy of the cluster software as well.

To me, i'm an experienced HP MC/SG cluster guy, so i can explain your further question on this HA product if you really wanna give a shoot.

docs.hp.com --> high availability -> MC/SG for linux  Admin guide + toolkit guide witll be a good start point.

www.steeleye.com provide lifekeeper for linux, another pretty nice , well designed HA cluster for people who love to do so.

[ 本帖最后由 nntp 于 2005-12-6 05:12 编辑 ]
作者: q1208c    时间: 2005-12-06 22:36
Thanks for your information.

I can try to read the basic documents first.
作者: lky    时间: 2005-12-07 21:55
原帖由 netbee 于 2005-4-8 21:18 发表
我在VMWARE中没这个问题。我在VMWARE中不管是DOWN那块网卡,都能自动切换。在实际应用当中没试过。


cluster好像没法指定心跳网卡的,你是怎么做的,能介绍一下吗?
作者: q1208c    时间: 2005-12-09 23:58
原帖由 lky 于 2005-12-7 21:55 发表


cluster好像没法指定心跳网卡的,你是怎么做的,能介绍一下吗?



当然可以了.

一看你就没看那安装手册.
作者: lky    时间: 2005-12-10 12:00
原帖由 q1208c 于 2005-12-9 23:58 发表



当然可以了.

一看你就没看那安装手册.



没看懂,能否明确指点一下。
作者: q1208c    时间: 2005-12-10 16:35
原帖由 lky 于 2005-12-10 12:00 发表



没看懂,能否明确指点一下。

安装手册上说,要给每个网卡上的IP一个主机名的. 如果是两台机器,那 /etc/hosts 里最少也有5行(127算一行). 然后再加member 时, 加那个心跳网卡的主机名, 这样就指定了哪块网卡做心跳了.
作者: lky    时间: 2005-12-11 12:16
那加member应该加应用网卡对应的hostname,还是应该加心跳网卡对应的hostname




欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2