用Heartbeat配置Linux高可用性集群《一》

三里屯摇滚 发表于 2011-11-02 17:23

用Heartbeat配置Linux高可用性集群《一》

Linux下高可用集群方案很多，本文介绍的是性价比比较高的一种:
使用Heartbeat 2.0配置Linux高可用性集群。

一、准备工作
你首先需要两台电脑，这两台电脑并不需要有相同的硬件（或者内存大小等），但如果相同的话，当某个部件出现故障时会容易处理得多。接下来您需要决定如何部署。你的集群是通过Heartbeat软件产生在两台电脑之间心跳信号来建立的。为了传输心跳信号，需要在节点之间存在一条或多条介质通路（串口线通过modem电线，以太网通过交叉线，等等）。现在可以开始配置硬件了。既然想要获得高可用性（HA），那么您很可能希望避免单点失效。在本例中，可能是您的nullmodem线/串口，或者网卡（NIC）/ 交叉线。因此便需要决定是否希望为每个节点添加第二条串口nullmodem连线或者第二条NIC/交叉线连接。我使用一个串口和一块额外的网卡来作为heartbeat的通路，这是因为我只有一条nullmodem线和一块多余的网卡，并且认为有两种介质类型传输heartbeat信号比较好。硬件配置完成之后，便需要安装操作系统以及配置网络（我在本文中使用的是RedHat）。假设您有两块网卡，那么有一块应该配置用于常规网络用途，另一块作为集群节点之间的专用网络连接（通过交叉线）。例如，假设集群节点有如表-1下的IP地址：
表-1集群节点的IP地址

输入如下命令检查您的配置：
ifconfig
这将显示您的网卡及其配置。也可以使用命令“netstat ?nr”来获得网络路由信息。如果一切正常，接下来要确定可以来两个节点之间通过所有接口ping通对方。如果使用了串口，便需要检测其连接情况。把一个节点作为接收者，输入命令：
cat </dev/ttyS0
在另一个节点上，输入：
echo hello >/dev/ttyS0
应该可以在接收节点上看到该文本。如果正常的话交换这两个节点的角色再作一次，否则有可能是使用了错误的设备文件。现在就开始动手搭建和配置一个简单的高性能计算集群系统。关闭不需要的服务：/sbin/chkconfig acpid off

•/sbin/chkconfig anacron off

•/sbin/chkconfig apmd off

•/sbin/chkconfig auditd off

•/sbin/chkconfig autofs off

•/sbin/chkconfig bluetooth off

•/sbin/chkconfig cpuspeed off

•/sbin/chkconfig cups off

•/sbin/chkconfig gpm off

•/sbin/chkconfig haldaemon off

•/sbin/chkconfig iptables off

•/sbin/chkconfig isdn off

•/sbin/chkconfig kudzu off

•/sbin/chkconfig mDNSResponder off

•/sbin/chkconfig mdmonitor off

•/sbin/chkconfig messagebus off

•/sbin/chkconfig netfs off

•/sbin/chkconfig nfslock off

•/sbin/chkconfig nifd off

•/sbin/chkconfig pcmcia off

•/sbin/chkconfig portmap off

•/sbin/chkconfig rhnsd off

•/sbin/chkconfig rpcgssd off

•/sbin/chkconfig rpcidmapd off

•/sbin/chkconfig sendmail off

•/sbin/chkconfig xfs off复制代码初始方案是使用两台PC（系统的具体结构如图-1所示），CPU为Pentium D 805，内存为 512MB，用1000Mbps交换机连接，整个硬件环境可以说是再普通不过了。操作系统采用的是Red Hat Enterprise Linux 5.0，该方法对于红旗Linux、Fedora Linux和SuSE等发布版本均可实现。

图-1系统的物理结构参考文献：Achieving High Availability in Linux-based Cluster Environments
http://www.dell.com/downloads/global/power/ps3q06-20060219-Guinn-OE.pdf

二、下载安装软件包
接下来便可以安装Heartbeat软件。可以从如下位置得到:http://linux-ha.org/downloadHeartbeat软件包。在网站上也有RPM安装包，您也可以选择从源代码编译。取得源代码tar文件或者安装sourceRPM包，将其解包到某个文件夹。在源代码树的顶端，输入"./ConfigureMe configure", 之后输入"make"和"makeinstall"。
如果使用RPM安装包的话需要包括如下软件包： ipfail，Stonith，Ldirectord。

ipfail的功能直接包含在heartbeat里面，是一个能够在探知服务IP失效了便立即将服务IP抓取来用的功能。

Stonith是为了要在任何server停止时，确保剩下的server不会被正在运作的server所影响，
可以选择性强制停止一些 server的解决方案。可能会使用在例如共享数据的情况之下。

Ldirector是一个负载平衡的服务器。
安装命令：
#rpm -ivh heartbeat-pils-*.rpm

•#rpm -ivh hearbeat-stonith-*.rpm

•#rpm -ivh hearbeat-*i386.rpm
复制代码也可以使用yum命令在线安装，这样做不需要考虑依赖包所带来的麻烦。命令：
yum install heartbeat

1、配置主服务器的heartbeat 在启用Heartbeat之前，安装后要配置三个文件（如没有可手动建立）：ha.cf、haresources、authkeys。这三个配置文件需要在/etc/ha.d目录下面，但是默认是没有这三个文件的，可以到官网上下这三个文件，也可以在源码包里找这三个文件，在源码目录下的DOC子目录里。
1 配置ha.cf
第一个是ha.cf该文件位于在安装后创建的/etc/ha.d目录中。该文件中包括为Heartbeat使用何种介质通路和如何配置他们的信息。在源代码目录中的ha.cf文件包含了您可以使用的全部选项，详述如下：
serial /dev/ttyS0
使用串口heartbeat－如果不使用串口heartbeat，则必须使用其他的介质，如bcast（以太网）heartbeat。用适当的设备文件代替/dev/ttyS0。
watchdog /dev/watchdog
该选项是可选配置。通过Watchdog功能可以获得提供最少功能的系统，该系统不提供heartbeat，可以在持续一份钟的不正常状态后重新启动。该功能有助于避免一台机器在被认定已经死亡之后恢复heartbeat的情况。如果这种情况发生并且磁盘挂载因故障而迁移（failover），便有可能有两个节点同时挂载一块磁盘。如果要使用这项功能，则除了这行之外，也需要加载“softdog”内核模块，并创建相应的设备文件。方法是使用命令“insmod softdog”加载模块。然后输入“grep misc/proc/devices”并记住得到的数字（应该是10）。然后输入”cat /proc/misc | grepwatchdog”并记住输出的数字（应该是130）。根据以上得到的信息可以创建设备文件，“mknod /dev/watchdog c 10130”。
bcast eth1
表示在eth1接口上使用广播heartbeat（将eth1替换为eth0，eth2，或者您使用的任何接口）。
keepalive 2
设定heartbeat之间的时间间隔为2秒。
warntime 10
在日志中发出“late heartbeat“警告之前等待的时间，单位为秒。
deadtime 30
在30秒后宣布节点死亡。
initdead 120
在某些配置下，重启后网络需要一些时间才能正常工作。这个单独的”deadtime”选项可以处理这种情况。它的取值至少应该为通常deadtime的两倍。
baud 19200
波特率，串口通信的速度。
udp port 694
使用端口694进行bcast和ucast通信。这是默认的，并且在IANA官方注册的端口号。
auto_failback on
该选项是必须配置的。对于那些熟悉Tru64 Unix的人来说，heartbeat的工作方式类似于“favoredmember“模式。在failover之前，haresources文件中列出的主节点掌握所有的资源，之后从节点接管这些资源。当auto_failback设置为on时，一旦主节点重新恢复联机，将从从节点取回所有资源。若该选项设置为off，主节点便不能重新获得资源。该选项与废弃的nice_failback选项类似。如果要从一个nice_failback设置为off的集群升级到这个或更新的版本，需要特别注意一些事项以防止flash cut。请参阅FAQ中关于如何处理这类情况的章节。
node primary.mydomain.com
该选项是必须配置的。集群中机器的主机名，与“uname ?n”的输出相同。
node backup.mydomain.com
该选项是必须配置的。同上。
respawn <userid> <cmd>
该选项是可选配置的：列出将要执行和监控的命令。例如：要执行ccm守护进程，则要添加如下的内容：
respawn hacluster /usr/lib/heartbeat/ccm
使得Heartbeat以userid（在本例中为hacluster）的身份来执行该进程并监视该进程的执行情况，如果其死亡便重启之。对于ipfail，则应该是：
respawn hacluster /usr/lib/heartbeat/ipfail
注意：如果结束进程的退出代码为100，则不会重启该进程。

2 配置haresources
配置好ha.cf文件之后，便是haresources文件。该文件列出集群所提供的服务以及服务的默认所有者。注意：两个集群节点上的该文件必须相同。集群的IP地址是该选项是必须配置的，不能在haresources文件以外配置该地址,haresources文件用于指定双机系统的主节点、集群IP、子网掩码、广播地址以及启动的服务等。其配置语句格式如下：
node-name network-config <resource-group>
其中node-name指定双机系统的主节点，取值必须匹配ha.cf文件中node选项设置的主机名中的一个，node选项设置的另一个主机名成为从节点。network-config用于网络设置，包括指定集群IP、子网掩码、广播地址等。resource-group用于设置heartbeat启动的服务，该服务最终由双机系统通过集群IP对外提供。在本文中我们假设要配置的HA服务为Apache和Samba。
在haresources文件中需要如下内容：
primary.mydomain.com 192.168.85.3 httpd smb
该行指定在启动时，节点linuxha1得到IP地址192.168.85.3，并启动Apache和Samba。在停止时，Heartbeat将首先停止smb，然后停止Apache，最后释放IP地址192.168.85.3。这里假设命令“uname?n”的输出为“primary.mydomain.com”－如果输出为“primary”，便应使用“primary”。
正确配置好haresources文件之后，将ha.cf和haresource拷贝到/etc/ha.d目录。

3 配置Authkeys
需要配置的第三个文件authkeys决定了您的认证密钥。共有三种认证方式：crc，md5，和sha1。您可能会问：“我应该用哪个方法呢？”简而言之：如果您的Heartbeat运行于安全网络之上，如本例中的交叉线，可以使用crc，从资源的角度来看，这是代价最低的方法。如果网络并不安全，但您也希望降低CPU使用，则使用md5。最后，如果您想得到最好的认证，而不考虑CPU使用情况，则使用sha1，它在三者之中最难破解。
文件格式如下：
auth <number>
<number> <authmethod> [<authkey>]
因此，对于sha1，示例的/etc/ha.d/authkeys可能是
auth 1
1 sha1 key-for-sha1-any-text-you-want
对于md5，只要将上面内容中的sha1换成md5就可以了。对于crc，可作如下配置：
auth 2
2 crc
不论您在关键字auth后面指定的是什么索引值，在后面必须要作为键值再次出现。如果您指定“auth 4”，则在后面一定要有一行的内容为“4 <signaturetype>”。
确保该文件的访问权限是安全的，如600。

4.配置备份服务器的heartbeat
依次安装主服务器上的rpm软件包到备份服务器的heartbeat。然后使用ssh命令把主服务器配置文件传输到备份服务器。
#scp -r /etc/ha.d backupnode:/etc/ha.d
Backupnode是备份服务器的ip地址。
5、设置主服务器和备份服务器时间同步
虽然Heartbeat不要求在两个服务器上使系统钟同步主要和备份服务器，但是系统时钟应该在的几十秒之内，否则在高可用**的环境下会产生故障。在在两个系统启动Heartbeat之前，你应该人工检查并且放置系统时间(使用date命令)。关于一种更好的长期的解决的方法你应该在两个系统上使用NTP软件同步钟。
6、启动主服务器的Heartbeat

在启动主服务器的Heartbeat，使用命令：
#/etc/init.d/heartbeat start
或者
#service heartbeat start
可以使用命令查看日志文件：
#tail -f /var/log/messages
此时会发现出现如下信息：
primary.mydomain.com heartbeat: WARN: node backup.mydomain.com: is dead
表示备份服务器死机的警告，原因是备份服务器的Heartbeat还没有启动。
主服务器的web服务应该被heartbeat启动，同时heartbeat为主节点设置IP地址192.168.100.10。使用ifconfig eth0:0可以看到如下信息：eth0:0 Link encap:Ethernet HWaddr 00:0C:298:FD:EB

•inet addr:192.168.100.10 Bcast:192.168.100.15 Mask:255.255.255.240

•UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1

•RX packets:14970 errors:0 dropped:0 overruns:0 frame:0

•TX packets:14977 errors:0 dropped:0 overruns:0 carrier:0

•collisions:0 txqueuelen:100

•RX bytes:3624073 (3.4 Mb) TX bytes:3626223 (3.4 Mb)•Interrupt:19 Base address:0x10a0
复制代码同时/dev/sdb1，应该被挂接。使用df -h,可以看到的信息包含下面的行：
/dev/sdb1 485M 8.1M 452M 2% /ha

7、启动备份服务器的Heartbeat 启动主服务器的Heartbeat，使用命令：
#/etc/init.d/heartbeat start
或者
#service heartbeat start
可以使用命令查看日志文件：
#tail -f /var/log/messages
此时会发现出现如下信息：backup heartbeat: info: No local resources [/usr/lib/heartbeat/
ResourceManager listkeys backup.mydomain.com]
backup.mydomain.com heartbeat: info: Resource acquisition completed.表示备份服务器没有可以使用的资源，原因是备份服务器的现在是闲置状态，它只监听主服务器心跳，直到主服务器失效。
8、查看主服务器日志信息
可以使用命令查看日志文件：
#tail -f /var/log/messages
此时会发现出现如下信息：primary heartbeat: info: Heartbeat restart on node backup.mydomain.com

•primary heartbeat: info: Link backup.mydomain.com:eth2 up.

•primary heartbeat: info: Node backup.mydomain.com: status up

•primary heartbeat: info: Running /etc/ha.d/rc.d/status status

•primary heartbeat: info: Running /etc/ha.d/rc.d/ifstat ifstat

•primary heartbeat: info: Node backup.mydomain.com: status active•primary heartbeat: info: Running /etc/ha.d/rc.d/status status
复制代码可以使用tcpdump命令查看心跳广播是否到达两个服务器节点。
#tcpdump -i all -n -p udp port 694

9、停止主服务器的Heartbeat
停止主服务器的Heartbeat，使用命令：
#/etc/init.d/heartbeat stop
或者
#service heartbeat stop
此时可以使用命令查看备份服务器日志文件：
#tail -f /var/log/messages
此时会发现出现如下信息：backup.mydomain.com heartbeat: WARN: node primary.mydomain.com: is dead

•backup.mydomain.com heartbeat: info: Link primary.mydomain.com:eth1dead.

•backup.mydomain.com heartbeat: info: Running /etc/ha.d/rc.d/status status

•backup.mydomain.com heartbeat: info: Running /etc/ha.d/rc.d/ifstat ifstat

•backup.mydomain.com heartbeat: info: Taking over resource group test

•*** /etc/ha.d/resource.d/test called with status

•backup.mydomain.com heartbeat: info: Acquiring resource group:

•primary.mydomain.

•com test

•backup.mydomain.com heartbeat: info: Running /etc/ha.d/resource.d/test start

•*** /etc/ha.d/resource.d/test called with start

•backup.mydomain.com heartbeat: info: mach_down takeover complete.复制代码在这个过程中，使用ping命令进行不间断监测，可以发现集群IP地址一直处于可通状态，并没有产生任何阻塞或延迟，所以，在关闭处于激活状态的heartbeat的情况下，双机系统可以实现无缝切换。但是在另外一些情况下，比如网络故障、主机关机或重启等，如果该主机的heartbeat处于激活状态，则不能实现双机的无缝切换，切换过程需要有一定的延迟，使用ping命令可以发现集群IP地址暂时无法使用。

页: [1]

Chinaunix's Archiver

用Heartbeat配置Linux高可用性集群《一》