免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2649 | 回复: 4
打印 上一主题 下一主题

rhcs中移動虛擬機服務問題. [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-04-26 09:12 |只看该作者 |倒序浏览
20可用积分
本帖最后由 seebise 于 2013-04-26 11:17 编辑

    我有兩台HP DL 385 G6主機做rhcs,主機上主要跑虛擬機服務,機器上接了eva 4400的存儲,劃了三塊100G的盤給兩個主機,一塊盤用作虛擬機配置文件用,用了GFS2,其他兩塊盤分別給兩個虛擬機當了硬盤,主要想實現宿主掛了以後虛擬機會自動跑到另一邊運行達到HA的目的....


   中間遇到一個奇怪的問題,我在利用clusvcadm -M service -m node 這樣的指令把虛擬機移動到另一主機的時候,虛擬機已經移動過去了,然後虛擬機就ping不通了,要過1分鐘左右才能恢復, 在線遷移不是不會斷網嗎....或者丟包很少...,想請教有經驗的如何檢查這問題? 有可能是網絡設備的問題嗎?  

這問題折磨我好幾天了,受不了了.
這是我的測試機,可以隨便搞...

用的宿主操作系統:rhel 6.4
用的虛擬機操作系統:rhel 6.3

[root@rhv1 yum.repos.d]# clustat -
Cluster Status for cluster_vm @ Thu Apr 25 20:24:09 2013
Member Status: Quorate

Member Name                                                     ID   Status
------ ----                                                     ---- ------
rhv1                                                                1 Online, Local, rgmanager
rhv2                                                                2 Online, rgmanager

Service Name                                                     Owner (Last)                                                     State
------- ----                                                     ----- ------                                                     -----
service:store_rv1                                                rhv1                                                             started
service:store_rv2                                                rhv2                                                             started
vm:vm0001-dev #一號虛擬機                                 rhv1                                                             started
vm:vm0003-dev #二號虛擬機                                  rhv2                                                             started

遷移成功
[root@rhv1 yum.repos.d]# clusvcadm  -M vm:vm0003-dev -m rhv1
Trying to migrate vm:vm0003-dev to rhv1...Success

就ping 不通了.

10.134.35.214 是虛擬機二號vm0003-dev





這是cluster.conf文件:
<?xml version="1.0"?>
<cluster config_version="49" name="cluster_vm">
        <clusternodes>
                <clusternode name="rhv1" nodeid="1">
                        <fence>
                                <method name="rhv1_fence">
                                        <device name="RHV1_ILO"/>
                                </method>
                        </fence>
                </clusternode>
                <clusternode name="rhv2" nodeid="2">
                        <fence>
                                <method name="RHV1_ILO">
                                        <device name="RHV2_ILO"/>
                                </method>
                        </fence>
                </clusternode>
        </clusternodes>
        <fencedevices>
                <fencedevice agent="fence_ilo" ipaddr="10.134.35.211" login="root" name="RHV1_ILO" passwd="12345~"/>
                <fencedevice agent="fence_ilo" ipaddr="10.134.35.216" login="root" name="RHV2_ILO" passwd="12345~"/>
        </fencedevices>
        <fence_daemon post_join_delay="10"/>
        <rm>
                <failoverdomains>
                        <failoverdomain name="vm_fov1" nofailback="1" restricted="1">
                                <failoverdomainnode name="rhv1"/>
                        </failoverdomain>
                        <failoverdomain name="vm_fov2" nofailback="1" restricted="1">
                                <failoverdomainnode name="rhv2"/>
                        </failoverdomain>
                        <failoverdomain name="primary_an01" nofailback="1" ordered="1" restricted="1">
                                <failoverdomainnode name="rhv1" priority="1"/>
                                <failoverdomainnode name="rhv2" priority="2"/>
                        </failoverdomain>
                        <failoverdomain name="primary_an02" nofailback="1" ordered="1" restricted="1">
                                <failoverdomainnode name="rhv1" priority="2"/>
                                <failoverdomainnode name="rhv2" priority="1"/>
                        </failoverdomain>
                </failoverdomains>
                <resources>
                        <script file="/etc/init.d/clvmd" name="clvmd"/>
                        <script file="/etc/init.d/gfs2" name="gfs2"/>
                        <script file="/etc/init.d/libvirtd" name="libvirtd"/>
                </resources>
                <service domain="vm_fov2" name="store_rv2" recovery="restart">
                        <script ref="clvmd"/>
                        <script ref="gfs2"/>
                        <script ref="libvirtd"/>
                </service>
                <service domain="vm_fov1" name="store_rv1" recovery="restart">
                        <script ref="clvmd"/>
                        <script ref="gfs2"/>
                        <script ref="libvirtd"/>
                </service>
                <vm autostart="0" domain="primary_an01" max_restarts="2" name="vm0001-dev" path="/shared/definitions/" recovery="restart" restart_expire_time="600"/>
                <vm autostart="0" domain="primary_an02" max_restarts="2" name="vm0003-dev" path="/shared/definitions/" recovery="restart" restart_expire_time="600"/>
        </rm>
        <cman expected_votes="1" two_node="1"/>
</cluster>

论坛徽章:
0
2 [报告]
发表于 2013-04-26 11:11 |只看该作者
本帖最后由 seebise 于 2013-04-26 11:16 编辑

看起來是這樣嗎? 去抓了一下虛擬機包,發現有ARP請求后這個虛擬機才會通....對網絡不懂...求解...

10:55:49.453154 IP (tos 0x0, ttl 123, id 12829, offset 0, flags [none], proto ICMP (1), length 60)
    10.148.55.224 > 10.134.35.214: ICMP echo request, id 2, seq 17375, length 40
10:55:54.453140 IP (tos 0x0, ttl 123, id 12851, offset 0, flags [none], proto ICMP (1), length 60)
    10.148.55.224 > 10.134.35.214: ICMP echo request, id 2, seq 17376, length 40
10:55:54.455558 ARP, Ethernet (len 6), IPv4 (len 4), Request who-has 10.134.34.1 tell 10.134.35.214, length 46
10:55:54.456374 ARP, Ethernet (len 6), IPv4 (len 4), Reply 10.134.34.1 is-at 00:00:0c:07:ac:22 (oui Cisco), length 46

10.134.35.214 是虛擬機二號vm0003-dev
10.134.34.1 是網關。。。

论坛徽章:
0
3 [报告]
发表于 2013-05-06 13:18 |只看该作者
哥们,这不是在线迁移,你这只是用RHCS实现了集群的HA功能而已,这个切换是会重启相关服务的,肯定会断网。如果是大数据库,断网会更久,因为大数据库,DB启动会很慢。你说的在线迁移应该是XEN下的live migration功能,这个迁移是在内存中实现的,所以不会有停机时间,,具体你可以参考这个。
https://access.redhat.com/site/d ... live_migration.html

论坛徽章:
16
IT运维版块每日发帖之星
日期:2015-10-02 06:20:00IT运维版块每月发帖之星
日期:2015-09-11 19:30:52IT运维版块每周发帖之星
日期:2015-09-11 19:20:31IT运维版块每日发帖之星
日期:2015-08-26 06:20:00每日论坛发贴之星
日期:2015-08-20 06:20:00IT运维版块每日发帖之星
日期:2015-08-20 06:20:002015年辞旧岁徽章
日期:2015-03-03 16:54:15金牛座
日期:2014-05-04 16:58:09双子座
日期:2013-12-17 16:44:37辰龙
日期:2013-11-22 15:20:59狮子座
日期:2013-11-18 22:55:08射手座
日期:2013-11-12 10:54:26
4 [报告]
发表于 2013-05-06 15:12 |只看该作者
esx也由online的migration

论坛徽章:
0
5 [报告]
发表于 2013-05-17 17:10 |只看该作者
kamui0523 发表于 2013-05-06 13:18
哥们,这不是在线迁移,你这只是用RHCS实现了集群的HA功能而已,这个切换是会重启相关服务的,肯定会断网。如 ...


可是就算把cluster 全部都關掉,用遷移指令或者圖形工具遷移還是一樣的情況.....鬱悶了。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP