免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 5299 | 回复: 4
打印 上一主题 下一主题

[Lustre] lustre的mds主备切换 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2009-06-16 14:33 |只看该作者 |倒序浏览
现在用drbd+heartbeat做mds的主备切换。
主备机器都是有两块网卡的,其中一个做心跳测试,一个做网络通讯
主mds:eth0:192.168.128.10(通讯)
             eth1:192.168.0.1(心跳)
备mds1:eth0:192.168.128.11(通讯)
             eth1:192.168.0.2(心跳)

主mds启动后,由heartbeat自动挂载并启动mgs服务。
查看日志/var/log/messages,mgs成功启动并挂载。
备mds1启动后,查看日志/var/log/messages,
Jun 16 14:10:30 mds1 heartbeat: [4252]: info: mds1 wants to go standby [foreign]
Jun 16 14:10:40 md1 heartbeat: [4252]: WARN: No reply to standby request.  Standby request cancelled.
意思是不是:mds1想作为备机,但是没有回复mds1的请求,所以请求取消了。
不知道此时备mds1的日志内容是不是正常的?

然后把主mds关机,由heartbeat实现在备机上的自动切换,等了很久都没有启动mgs服务,也没有挂载。
查看/var/log/messages:
Jun 16 14:30:07 mgs1 kernel: [20396.365345] drbd0: peer( Primary -> Secondary )
Jun 16 14:30:37 mgs1 kernel: [20426.588971] drbd0: peer( Secondary -> Unknown ) conn( Connected -> NetworkFailure ) pdsk( UpToDate -> DUnknown )
Jun 16 14:30:37 mgs1 kernel: [20426.589268] drbd0: asender terminated
Jun 16 14:30:37 mgs1 kernel: [20426.589347] drbd0: Terminating asender thread
Jun 16 14:30:37 mgs1 kernel: [20426.601783] drbd0: Connection closed
Jun 16 14:30:37 mgs1 kernel: [20426.601940] drbd0: conn( NetworkFailure -> Unconnected )
Jun 16 14:30:37 mgs1 kernel: [20426.602058] drbd0: receiver terminated
Jun 16 14:30:37 mgs1 kernel: [20426.602092] drbd0: Restarting receiver thread
Jun 16 14:30:37 mgs1 kernel: [20426.602108] drbd0: receiver (re)started
Jun 16 14:30:37 mgs1 kernel: [20426.602113] drbd0: conn( Unconnected -> WFConnection )

日志就这么内容了,没有搞明白为什么heartbeat没有启动资源(haresouces)?
查看cat /proc/drbd,
version: 8.3.0 (api:88/proto:86-89)
GIT-hash: 9ba8b93e24d842f0dd3fb1f9b90e8348ddb95829 build by root@web1, 2009-06-12 13:34:57
0: cs:WFConnection ro:Secondary/Unknown ds:UpToDate/DUnknown C r---
    ns:0 nr:5124 dw:5124 dr:0 al:0 bm:0 lo:0 pe:0 ua:0 ap:0 ep:1 wo:b oos:0
也没有切换为primary

请各位大牛帮帮忙吧。很急的!

论坛徽章:
0
2 [报告]
发表于 2009-06-18 09:51 |只看该作者
Make sure your DRBD works well.

Simple I made some test on DRBD

ror2 ~]# cat /proc/drbd
version: 8.2.6 (api:88/proto:86-88)
GIT-hash: 3e69822d3bb4920a8c1bfdf7d647169eba7d2eb4 build by buildsvn@c5-i386-build, 2008-10-03 11:42:32

1: cs:Connected st:Secondary/Primary ds:UpToDate/UpToDate C r---
    ns:0 nr:5100964 dw:5100964 dr:0 al:0 bm:299 lo:0 pe:0 ua:0 ap:0 oos:0

ror1 ~]# cat /proc/drbd
version: 8.2.6 (api:88/proto:86-88)
GIT-hash: 3e69822d3bb4920a8c1bfdf7d647169eba7d2eb4 build by buildsvn@c5-i386-build, 2008-10-03 11:42:32

2: cs:Connected st:Primary/Secondary ds:UpToDate/UpToDate C r---
    ns:5100964 nr:0 dw:209392 dr:4891672 al:71 bm:299 lo:0 pe:0 ua:0 ap:0 oos:0

But i don't have much time to test for you.

http://linux-ha.org/DRBD

[ 本帖最后由 cuplinux 于 2009-6-18 09:52 编辑 ]

论坛徽章:
0
3 [报告]
发表于 2009-06-19 08:54 |只看该作者

回复 #2 cuplinux 的帖子

drbd工作正常,主备的drbd用cat /proc/drbd查看,和你贴出来的是一样的。
只是主机宕机的时候,备机的drbd没有切换为primary,这时候应该是由heartbeat执行drbddisk脚本使drbd变为primary的。
所以我认识是heartbeat此时没有工作,但是ps -ef 查看进程,heartbeat又确实处于工作状态。
heartbeat的配置文件haresources内容:
mds 192.168.128.200 drbddisk::r0 Filesystem::/dev/drbd0::/mnt/mds::lustre
有点迷茫,为什么备机的heartbeat没有把资源抢过来。

论坛徽章:
0
4 [报告]
发表于 2009-06-20 11:10 |只看该作者
不玩lustre好多年.呵呵.

论坛徽章:
33
荣誉会员
日期:2011-11-23 16:44:17天秤座
日期:2014-08-26 16:18:20天秤座
日期:2014-08-29 10:12:18丑牛
日期:2014-08-29 16:06:45丑牛
日期:2014-09-03 10:28:58射手座
日期:2014-09-03 16:01:17寅虎
日期:2014-09-11 14:24:21天蝎座
日期:2014-09-17 08:33:55IT运维版块每日发帖之星
日期:2016-04-17 06:23:27操作系统版块每日发帖之星
日期:2016-04-18 06:20:00IT运维版块每日发帖之星
日期:2016-04-24 06:20:0015-16赛季CBA联赛之天津
日期:2016-05-06 12:46:59
5 [报告]
发表于 2009-06-23 16:46 |只看该作者
印象中lustre好象要配置一下才会成为主备的.
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP