Chinaunix

标题: lustre mds 问题! [打印本页]

作者: yangludy    时间: 2009-01-16 16:52
标题: lustre mds 问题!
先说下环境~
ubuntu  linux-kernel-2.6.22

MDS     sdb          1G
ost     sdb          1G
ost1    sdb          1G

我在client 上写了一个循环脚本
for ((i=1;i<100;i++))
do
   dd if=/de/zero of=test_$i bs=1024 count=10000;
done

执行脚本后,两台ost 均存入了 55M 的数据,client 就死机了,报了很多 错误代码,ping 也没反应了,我只能从起client.从起后,从新挂载,执行ls还是报同样的错误,
我就怀疑mds 有问题。把mds从新挂载,果然报错,错误如下:请大家分析看什么问题?


Jan 16 03:33:21 mds kernel: [  249.964236] LDISKFS-fs: mounted filesystem with ordered data mode.
Jan 16 03:33:21 mds kernel: [  250.109722] Lustre: MGS MGS started
Jan 16 03:33:21 mds kernel: [  250.282758] Lustre: Enabling user_xattr
Jan 16 03:33:21 mds kernel: [  250.286323] Lustre: 4236:0mds_fs.c:460:mds_init_server_data()) RECOVERY: service testfs-MDT0000, 1 recoverable clients, last_transno 335
Jan 16 03:33:21 mds kernel: [  250.327847] Lustre: MDT testfs-MDT0000 now serving dev (testfs-MDT0000/758d56e2-979c-b8cc-4ccf-5edb0bcd88af), but will be in recovery for at least 5:00, or until 1 client reconnect. During this time new clients will not be allowed to connect. Recovery progress can be monitored by watching /proc/fs/lustre/mds/testfs-MDT0000/recovery_status.
Jan 16 03:33:21 mds kernel: [  250.327884] Lustre: 4236:0lproc_mds.c:262:lprocfs_wr_group_upcall()) testfs-MDT0000: group upcall set to /usr/sbin/l_getgroups
Jan 16 03:33:21 mds kernel: [  250.327891] Lustre: testfs-MDT0000.mdt: set parameter group_upcall=/usr/sbin/l_getgroups
Jan 16 03:33:21 mds kernel: [  250.328247] Lustre: 4236:0mds_lov.c:1008:mds_notify()) MDS testfs-MDT0000: in recovery, not resetting orphans on testfs-OST0000_UUID
Jan 16 03:33:26 mds kernel: [  255.323684] Lustre: Request x7 sent from testfs-OST0000-osc to NID 192.168.6.22@tcp 5s ago has timed out (limit 5s).
Jan 16 03:33:26 mds kernel: [  255.325477] Lustre:    cmd=cf00d 0:testfs-mdtlov  1:testfs-OST0000_UUID  2:0  3:1
Jan 16 03:33:26 mds kernel: [  255.331677] Lustre: Failing over testfs-MDT0000
Jan 16 03:33:26 mds kernel: [  255.331703] Lustre: *** setting obd testfs-MDT0000 device 'unknown-block(147,0)' read-only ***
Jan 16 03:33:27 mds kernel: [  255.360260] Turning device drbd0 (0x9300000) read-only
Jan 16 03:33:27 mds kernel: [  255.360370] Lustre: Failing over testfs-mdtlov
Jan 16 03:33:27 mds kernel: [  255.362071] Lustre: testfs-MDT0000: shutting down for failover; client state will be preserved.
Jan 16 03:33:27 mds kernel: [  255.362254] Lustre: MDT testfs-MDT0000 has stopped.
Jan 16 03:33:27 mds kernel: [  255.393366] Lustre: MGS has stopped.
作者: yftty    时间: 2009-01-17 20:49
看起来是clinet死机,导致mds数据recovery失败,系统发现异常,进入read-only状态,客户端的状态倒是一直保存着。
需要作failover操作。

你们要拿lustre作什么呢?
作者: baif    时间: 2009-01-17 21:17
小数据块写,看样子压力太大了,MDS硬件受不了。 放弃吧。
作者: yangludy    时间: 2009-02-02 14:38
标题: 回复 #2 yftty 的帖子
拿 lustre 做 web  共享数据存储
作者: yangludy    时间: 2009-02-02 14:41
原帖由 baif 于 2009-1-17 21:17 发表
小数据块写,看样子压力太大了,MDS硬件受不了。 放弃吧。




            我是在虚拟机做的测试,准备拿到机器上作测试~
作者: yftty    时间: 2009-02-03 11:18
原帖由 yangludy 于 2009-2-2 14:38 发表
拿 lustre 做 web  共享数据存储


多大的存储容量?多大的文件个数?文件大小是?支持的并发数目是?




欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2