Chinaunix

标题: rhcs中移動虛擬機服務問題. [打印本页]

作者: seebise 时间: 2013-04-26 09:12
标题: rhcs中移動虛擬機服務問題.
本帖最后由 seebise 于 2013-04-26 11:17 编辑

我有兩台HP DL 385 G6主機做rhcs,主機上主要跑虛擬機服務,機器上接了eva 4400的存儲,劃了三塊100G的盤給兩個主機,一塊盤用作虛擬機配置文件用，用了GFS2，其他兩塊盤分別給兩個虛擬機當了硬盤,主要想實現宿主掛了以後虛擬機會自動跑到另一邊運行達到HA的目的....

中間遇到一個奇怪的問題,我在利用clusvcadm -M service -m node 這樣的指令把虛擬機移動到另一主機的時候,虛擬機已經移動過去了,然後虛擬機就ping不通了,要過1分鐘左右才能恢復, 在線遷移不是不會斷網嗎....或者丟包很少...,想請教有經驗的如何檢查這問題? 有可能是網絡設備的問題嗎?

這問題折磨我好幾天了，受不了了.
這是我的測試機，可以隨便搞...

用的宿主操作系統:rhel 6.4
用的虛擬機操作系統:rhel 6.3

[root@rhv1 yum.repos.d]# clustat -
Cluster Status for cluster_vm @ Thu Apr 25 20:24:09 2013
Member Status: Quorate

Member Name                                                    ID Status
------ ----                                                    ---- ------
rhv1                                                             1 Online, Local, rgmanager
rhv2                                                             2 Online, rgmanager

Service Name                                                    Owner (Last)                                                    State
------- ----                                                    ----- ------                                                    -----
service:store_rv1                                              rhv1                                                          started
service:store_rv2                                              rhv2                                                          started
vm:vm0001-dev #一號虛擬機                               rhv1                                                          started
vm:vm0003-dev #二號虛擬機                               rhv2                                                          started

遷移成功
[root@rhv1 yum.repos.d]# clusvcadm  -M vm:vm0003-dev -m rhv1
Trying to migrate vm:vm0003-dev to rhv1...Success

就ping 不通了.

10.134.35.214 是虛擬機二號vm0003-dev

這是cluster.conf文件:
<?xml version="1.0"?>
<cluster config_version="49" name="cluster_vm">
      <clusternodes>
            <clusternode name="rhv1" nodeid="1">
                     <fence>
                              <method name="rhv1_fence">
                                    <device name="RHV1_ILO"/>
                              </method>
                     </fence>
            </clusternode>
            <clusternode name="rhv2" nodeid="2">
                     <fence>
                              <method name="RHV1_ILO">
                                    <device name="RHV2_ILO"/>
                              </method>
                     </fence>
            </clusternode>
      </clusternodes>
      <fencedevices>
            <fencedevice agent="fence_ilo" ipaddr="10.134.35.211" login="root" name="RHV1_ILO" passwd="12345~"/>
            <fencedevice agent="fence_ilo" ipaddr="10.134.35.216" login="root" name="RHV2_ILO" passwd="12345~"/>
      </fencedevices>
      <fence_daemon post_join_delay="10"/>
      <rm>
            <failoverdomains>
                     <failoverdomain name="vm_fov1" nofailback="1" restricted="1">
                              <failoverdomainnode name="rhv1"/>
                     </failoverdomain>
                     <failoverdomain name="vm_fov2" nofailback="1" restricted="1">
                              <failoverdomainnode name="rhv2"/>
                     </failoverdomain>
                     <failoverdomain name="primary_an01" nofailback="1" ordered="1" restricted="1">
                              <failoverdomainnode name="rhv1" priority="1"/>
                              <failoverdomainnode name="rhv2" priority="2"/>
                     </failoverdomain>
                     <failoverdomain name="primary_an02" nofailback="1" ordered="1" restricted="1">
                              <failoverdomainnode name="rhv1" priority="2"/>
                              <failoverdomainnode name="rhv2" priority="1"/>
                     </failoverdomain>
            </failoverdomains>
            <resources>
                     <script file="/etc/init.d/clvmd" name="clvmd"/>
                     <script file="/etc/init.d/gfs2" name="gfs2"/>
                     <script file="/etc/init.d/libvirtd" name="libvirtd"/>
            </resources>
            <service domain="vm_fov2" name="store_rv2" recovery="restart">
                     <script ref="clvmd"/>
                     <script ref="gfs2"/>
                     <script ref="libvirtd"/>
            </service>
            <service domain="vm_fov1" name="store_rv1" recovery="restart">
                     <script ref="clvmd"/>
                     <script ref="gfs2"/>
                     <script ref="libvirtd"/>
            </service>
            <vm autostart="0" domain="primary_an01" max_restarts="2" name="vm0001-dev" path="/shared/definitions/" recovery="restart" restart_expire_time="600"/>
            <vm autostart="0" domain="primary_an02" max_restarts="2" name="vm0003-dev" path="/shared/definitions/" recovery="restart" restart_expire_time="600"/>
      </rm>
      <cman expected_votes="1" two_node="1"/>
</cluster>

作者: seebise 时间: 2013-04-26 11:11
本帖最后由 seebise 于 2013-04-26 11:16 编辑

看起來是這樣嗎? 去抓了一下虛擬機包,發現有ARP請求后這個虛擬機才會通....對網絡不懂...求解...

10:55:49.453154 IP (tos 0x0, ttl 123, id 12829, offset 0, flags [none], proto ICMP (1), length 60)
10.148.55.224 > 10.134.35.214: ICMP echo request, id 2, seq 17375, length 40
10:55:54.453140 IP (tos 0x0, ttl 123, id 12851, offset 0, flags [none], proto ICMP (1), length 60)
10.148.55.224 > 10.134.35.214: ICMP echo request, id 2, seq 17376, length 40
10:55:54.455558 ARP, Ethernet (len 6), IPv4 (len 4), Request who-has 10.134.34.1 tell 10.134.35.214, length 46
10:55:54.456374 ARP, Ethernet (len 6), IPv4 (len 4), Reply 10.134.34.1 is-at 00:00:0c:07:ac:22 (oui Cisco), length 46

10.134.35.214 是虛擬機二號vm0003-dev
10.134.34.1 是網關。。。

作者: kamui0523 时间: 2013-05-06 13:18
哥们，这不是在线迁移，你这只是用RHCS实现了集群的HA功能而已,这个切换是会重启相关服务的，肯定会断网。如果是大数据库，断网会更久，因为大数据库，DB启动会很慢。你说的在线迁移应该是XEN下的live migration功能，这个迁移是在内存中实现的，所以不会有停机时间，，具体你可以参考这个。
https://access.redhat.com/site/d ... live_migration.html

作者: wenhq 时间: 2013-05-06 15:12
esx也由online的migration

作者: seebise 时间: 2013-05-17 17:10

kamui0523 发表于 2013-05-06 13:18
哥们，这不是在线迁移，你这只是用RHCS实现了集群的HA功能而已,这个切换是会重启相关服务的，肯定会断网。如 ...

可是就算把cluster 全部都關掉，用遷移指令或者圖形工具遷移還是一樣的情況.....鬱悶了。

欢迎光临 Chinaunix (http://bbs.chinaunix.net/)