Chinaunix

标题: rhcs中移動虛擬機服務問題. [打印本页]

作者: seebise    时间: 2013-04-26 09:12
标题: rhcs中移動虛擬機服務問題.
本帖最后由 seebise 于 2013-04-26 11:17 编辑

    我有兩台HP DL 385 G6主機做rhcs,主機上主要跑虛擬機服務,機器上接了eva 4400的存儲,劃了三塊100G的盤給兩個主機,一塊盤用作虛擬機配置文件用,用了GFS2,其他兩塊盤分別給兩個虛擬機當了硬盤,主要想實現宿主掛了以後虛擬機會自動跑到另一邊運行達到HA的目的....


   中間遇到一個奇怪的問題,我在利用clusvcadm -M service -m node 這樣的指令把虛擬機移動到另一主機的時候,虛擬機已經移動過去了,然後虛擬機就ping不通了,要過1分鐘左右才能恢復, 在線遷移不是不會斷網嗎....或者丟包很少...,想請教有經驗的如何檢查這問題? 有可能是網絡設備的問題嗎?  

這問題折磨我好幾天了,受不了了.
這是我的測試機,可以隨便搞...

用的宿主操作系統:rhel 6.4
用的虛擬機操作系統:rhel 6.3

[root@rhv1 yum.repos.d]# clustat -
Cluster Status for cluster_vm @ Thu Apr 25 20:24:09 2013
Member Status: Quorate

Member Name                                                     ID   Status
------ ----                                                     ---- ------
rhv1                                                                1 Online, Local, rgmanager
rhv2                                                                2 Online, rgmanager

Service Name                                                     Owner (Last)                                                     State
------- ----                                                     ----- ------                                                     -----
service:store_rv1                                                rhv1                                                             started
service:store_rv2                                                rhv2                                                             started
vm:vm0001-dev #一號虛擬機                                 rhv1                                                             started
vm:vm0003-dev #二號虛擬機                                  rhv2                                                             started

遷移成功
[root@rhv1 yum.repos.d]# clusvcadm  -M vm:vm0003-dev -m rhv1
Trying to migrate vm:vm0003-dev to rhv1...Success

就ping 不通了.

10.134.35.214 是虛擬機二號vm0003-dev





這是cluster.conf文件:
<?xml version="1.0"?>
<cluster config_version="49" name="cluster_vm">
        <clusternodes>
                <clusternode name="rhv1" nodeid="1">
                        <fence>
                                <method name="rhv1_fence">
                                        <device name="RHV1_ILO"/>
                                </method>
                        </fence>
                </clusternode>
                <clusternode name="rhv2" nodeid="2">
                        <fence>
                                <method name="RHV1_ILO">
                                        <device name="RHV2_ILO"/>
                                </method>
                        </fence>
                </clusternode>
        </clusternodes>
        <fencedevices>
                <fencedevice agent="fence_ilo" ipaddr="10.134.35.211" login="root" name="RHV1_ILO" passwd="12345~"/>
                <fencedevice agent="fence_ilo" ipaddr="10.134.35.216" login="root" name="RHV2_ILO" passwd="12345~"/>
        </fencedevices>
        <fence_daemon post_join_delay="10"/>
        <rm>
                <failoverdomains>
                        <failoverdomain name="vm_fov1" nofailback="1" restricted="1">
                                <failoverdomainnode name="rhv1"/>
                        </failoverdomain>
                        <failoverdomain name="vm_fov2" nofailback="1" restricted="1">
                                <failoverdomainnode name="rhv2"/>
                        </failoverdomain>
                        <failoverdomain name="primary_an01" nofailback="1" ordered="1" restricted="1">
                                <failoverdomainnode name="rhv1" priority="1"/>
                                <failoverdomainnode name="rhv2" priority="2"/>
                        </failoverdomain>
                        <failoverdomain name="primary_an02" nofailback="1" ordered="1" restricted="1">
                                <failoverdomainnode name="rhv1" priority="2"/>
                                <failoverdomainnode name="rhv2" priority="1"/>
                        </failoverdomain>
                </failoverdomains>
                <resources>
                        <script file="/etc/init.d/clvmd" name="clvmd"/>
                        <script file="/etc/init.d/gfs2" name="gfs2"/>
                        <script file="/etc/init.d/libvirtd" name="libvirtd"/>
                </resources>
                <service domain="vm_fov2" name="store_rv2" recovery="restart">
                        <script ref="clvmd"/>
                        <script ref="gfs2"/>
                        <script ref="libvirtd"/>
                </service>
                <service domain="vm_fov1" name="store_rv1" recovery="restart">
                        <script ref="clvmd"/>
                        <script ref="gfs2"/>
                        <script ref="libvirtd"/>
                </service>
                <vm autostart="0" domain="primary_an01" max_restarts="2" name="vm0001-dev" path="/shared/definitions/" recovery="restart" restart_expire_time="600"/>
                <vm autostart="0" domain="primary_an02" max_restarts="2" name="vm0003-dev" path="/shared/definitions/" recovery="restart" restart_expire_time="600"/>
        </rm>
        <cman expected_votes="1" two_node="1"/>
</cluster>

作者: seebise    时间: 2013-04-26 11:11
本帖最后由 seebise 于 2013-04-26 11:16 编辑

看起來是這樣嗎? 去抓了一下虛擬機包,發現有ARP請求后這個虛擬機才會通....對網絡不懂...求解...

10:55:49.453154 IP (tos 0x0, ttl 123, id 12829, offset 0, flags [none], proto ICMP (1), length 60)
    10.148.55.224 > 10.134.35.214: ICMP echo request, id 2, seq 17375, length 40
10:55:54.453140 IP (tos 0x0, ttl 123, id 12851, offset 0, flags [none], proto ICMP (1), length 60)
    10.148.55.224 > 10.134.35.214: ICMP echo request, id 2, seq 17376, length 40
10:55:54.455558 ARP, Ethernet (len 6), IPv4 (len 4), Request who-has 10.134.34.1 tell 10.134.35.214, length 46
10:55:54.456374 ARP, Ethernet (len 6), IPv4 (len 4), Reply 10.134.34.1 is-at 00:00:0c:07:ac:22 (oui Cisco), length 46

10.134.35.214 是虛擬機二號vm0003-dev
10.134.34.1 是網關。。。
作者: kamui0523    时间: 2013-05-06 13:18
哥们,这不是在线迁移,你这只是用RHCS实现了集群的HA功能而已,这个切换是会重启相关服务的,肯定会断网。如果是大数据库,断网会更久,因为大数据库,DB启动会很慢。你说的在线迁移应该是XEN下的live migration功能,这个迁移是在内存中实现的,所以不会有停机时间,,具体你可以参考这个。
https://access.redhat.com/site/d ... live_migration.html
作者: wenhq    时间: 2013-05-06 15:12
esx也由online的migration

作者: seebise    时间: 2013-05-17 17:10
kamui0523 发表于 2013-05-06 13:18
哥们,这不是在线迁移,你这只是用RHCS实现了集群的HA功能而已,这个切换是会重启相关服务的,肯定会断网。如 ...


可是就算把cluster 全部都關掉,用遷移指令或者圖形工具遷移還是一樣的情況.....鬱悶了。




欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2