- 论坛徽章:
- 0
|
这几天杂事太多,停几天再做
最近一直在vmware 中做2节点的cluster 碰到了许多问题,希望能总结一些经验,省得大家再走弯路。也把自己目前没有解决的问题放在这里,希望大家都给帮助一下。
目前的状态:两个节点的cluster已经安装完成。(7/29)
下一步的打算:
先设置一个简单的NFS cluster
问题
1、怎么知道quorum设备投票给哪一个设备?
2、agent是通过什么来监测是否应该切换的
难道都是机器down机时才切换,能为能配置成当网卡或存储down时就切换?
kill /usr/lib/nfs/lockd 自动就发生切换了。
kill /usr/lib/nfs/mountd 没有切换,系统又自己启动了一个
配置点:
因为基本的网上都有,我只说个大概,如果你对下面不清楚的话,可以问我。
A、版本问题 vmware安装server版本的,否则不支持共享磁盘,目前准备用2.0 beta。cluster3。2目前不支持X86 32位的系统。要安装Solaris Express Community Edition snv_86 X86,安装clusterexpress-20080522-x86版。要求安装Entire Plus OEM Support,有点大。Solaris Express Community Edition snv_91 X86这个版本与这个cluster版本有问题,已经确认(07/29)
pxfs与metaset问题都是版本问题造成的。
A、Solaris Express Community Edition snv_86 X86版本是opensolaris的,会直接安装,不让选软件包和分区。安装之后要自己重新建立/globaldevices和metadb要用的分区。
A、安装的系统要是netservice open的,30分得来的。在solaris10安装时有选择,好像在11安装时没有选择(已经确认7/23)
A、记得做snapshot,好恢复
A、共享磁盘 要修改host 的vmx文件,添加disk.locking = \"false\" scsi1.sharedBus = \"virtual\" (7/30)
scsi1.sharedBus = \"virtual\" (不加这个可以看到共享,但是用起来有问题,如metaset,quorum等)
disk.locking = \"FALSE\"
diskLib.dataCacheMaxSize = \"0\"
diskLib.dataCacheMaxReadAheadSize = \"0\"
diskLib.DataCacheMinReadAheadSize = \"0\"
diskLib.dataCachePageSize = \"4096\"
diskLib.maxUnsyncedWrites = \"0\"
共享磁盘在两个系统中占的SCSI的位置要一样,否则做quorum会不成功(by yuhuoyu)
A、我每个系统虚拟了3个网卡,分别为10网段和172网段,要都通,也就是VMWARE中网段要自己手工去修改网段
A、两个系统要分别安装,不能做好一个复制到另一个,否则两个系统本地磁盘也会被认成一个DID号,做共享磁盘集会有问题。(已经重新安装,解决)
A、两个系统的本地盘一个做IDE,一个做SCSI的,否则也会被认成一个DID号,发现如果按这样配置做,每个系统只能虚拟出2个网卡,再多会报PCI出错,不知道是不是我系统的问题(系统问题,再次安装就没有再出现这样的问题7/23)
A、globaldevices分区两个系统的位置不要一样,如一个在S4一个在S7,否则一个系统在DID中认不出,是不是只要做了上面的改动这个就不必要了,我没有测试(7/22)。
A、pm_tick delay 问题,有说是因为vmware 时钟同步问题,有说是因为CPU不够。你可以试试如下操作,反正我是没有成功,最后是修改/etc/syslog.conf文件,kernel的都改成warning了,
Try the following:
Stop VMs being paged to disk in VMWare (only use physical memory for your VMs). This is a VMWare server, host setting from memory
Ensure Memory Trimming is disabled for your VMware Server Sun Cluster Guests
On each Cluster node, in order, configure the heartbeats to be father apart, and have a longer timeout:
scconf -c -w heartbeat_timeout=60000
scconf -c -w heartbeat_quantum=10000
以上两个命令还是要跑一下,好像是增大心跳延时
A、metaset -s red -a -h sun2 sun1 的命令加-M 和不加-M有什么区别
多属主磁盘集允许多个节点共享磁盘集的拥有权并同时写入
共享磁盘。以前,磁盘集中的所有参与主机都可以看到共享磁盘集,但是一次只能有
一个主机访问该磁盘集。
clrt register SUNW.rac_svm
vi /var/run/nodelist
1 sun1 192.168.0.11 ......
metaset -s blue -M -a -h sun2 sun1
[ 本帖最后由 dogg 于 2008-8-5 16:24 编辑 ] |
|