免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 5141 | 回复: 7

请教一个 gpfs tiebreakerDisks 的问题 [复制链接]

论坛徽章:
0
发表于 2009-02-18 16:35 |显示全部楼层
简单说明一下问题,主要是想通过测试了解一下tiebreakerDisks的使用方法。文档上说要一半以上的tiebreakerDisks可用gpfs集群就可以使用。所以我做了如下测试。\r\n0)集群一共2个server\r\n1)一共有8个nsd\r\n# mmlsnsd -aL\r\n\r\n File system   Disk name    NSD volume ID      NSD servers                                   \r\n---------------------------------------------------------------------------------------------\r\n sharelv       gpfs1nsd     0A30CCCA4994D41F   NSD1,NSD2                \r\n sharelv       gpfs2nsd     7F0000014994D424   NSD2,NSD1                \r\n sharelv       gpfs3nsd     0A30CCCA4994D42B   (directly attached)      \r\n sharelv       gpfs4nsd     0A30CCCA4994D42E   (directly attached)      \r\n sharelv       gpfs11nsd    0A30CCCA4994E404   (directly attached)      \r\n sharelv       gpfs12nsd    0A30CCCA4994E405   (directly attached)      \r\n sharelv       gpfs13nsd    0A30CCCA4994E976   NSD1,NSD2                \r\n sharelv       gpfs14nsd    7F0000014994E977   NSD2,NSD1  \r\n\r\n\r\n2)其中设定了3个为 tiebreakerDisks\r\n#mmchconfig tiebreakerDisks=\"gpfs4nsd;gpfs11nsd;gpfs12nsd\"\r\n3)然后 使用命令stop 其中的 tiebreakerDisks\r\nmmchdisk sharelv stop -d  \"gpfs4nsd\"\r\n4)后来发现停了所有的tiebreakerDisks gpfs依然可用。\r\n\r\n# mmlsdisk sharelv -L\r\ndisk         driver   sector failure holds    holds                                    storage\r\nname         type       size   group metadata data  status        availability disk id pool         remarks   \r\n------------ -------- ------ ------- -------- ----- ------------- ------------ ------- ------------ ---------\r\ngpfs1nsd     nsd         512       1 yes      yes   ready         up                 1 system        desc\r\ngpfs2nsd     nsd         512       2 yes      yes   ready         up                 2 system        desc\r\ngpfs3nsd     nsd         512       3 no       no    ready         up                 3 system        desc\r\ngpfs4nsd     nsd         512      -1 no       no    ready         down               4 system        \r\ngpfs13nsd    nsd         512       1 yes      yes   ready         up                 5 system        desc\r\ngpfs11nsd    nsd         512      -1 no       no    ready         down               6 system        \r\ngpfs12nsd    nsd         512      -1 no       no    ready         down               7 system        \r\ngpfs14nsd    nsd         512       2 yes      yes   ready         up                 8 system        desc\r\n\r\n\r\n可能是我对tiebreakerDisks的概念理解有问题,请问如何设计一种测试来验证tiebreakerDisks 的使用方法。谢谢!

论坛徽章:
0
发表于 2009-02-18 21:01 |显示全部楼层
你理解错了,\r\n GPFS CLUSTER 能否正常工作有两种方式:\r\n  1、Node quorum,这种方式只要有一半以上的Node quorum存活,GPFS CLUSTER就能正常运行。Node quorum数量没有限制。\r\n  2、Node quorum with tiebreaker disks,这种方式是tiebreaker disks 要连接到Node quorum,能正常访问。Node quorum数量最多8个,tiebreaker disks 最多3个。该种方式GPFS CLUSTER 正常运行下面任意情况都可以:\r\n    1) 只要有一半以上的Node quorum存活, 不管tiebreaker disks 状态如何,都能正常运行\r\n    2) 只要至少一个Node quorum能访问一半以上的tiebreaker disks ,也能正常运行\r\n  \r\n  所以你的情况属于一半以上的Node quorum存活,你把tiebreaker disks stop 也不影响。明白了吗?

论坛徽章:
0
发表于 2009-02-19 19:36 |显示全部楼层
这段在手册里看到过,当时实在是绕不过来是什么意思,以为是一半以上的tiebreaker disks 存活才行,哎英文差呀!不好意思!\r\n既然问了,那就再多请教一个问题 \r\n在ibm网站看 《构建高可用、高性能的 GPFS 集群》一文 ,其中有一段文字是:\r\n“\r\nQuorum 机制的选择 ,本方案预算只有 4 台主服务器,如果采用 Node quorum 的方式,整\r\n个系统可用性只能支持一台主机离线,可用性非常差。如果采用 Break Tie Disk 的方式,整\r\n个系统可用性支持被指定为 quorum 的两台主机,任意一台离线,以及其他 2 台主机的任意\r\n离线。我们可以看到采用 Break Tie Disk 的方式有较高的可用性。但是由于采用 Break Tie Disk\r\n模式对两台设置为 quorum 的主机可用性要求较高,而且灵活性较差。从 FD quorum 的角度\r\n来看,我们只有 2 个存储,也即 2 个 Failure Group。任意一个存储的宕机也将会导致文件系\r\n统的关闭。我们必须增加第三个 Failure Group 的磁盘来提高可用性。我们考虑从某一台服务\r\n器本地拿出一个磁盘作为第三个 Failure Group 的磁盘。\r\n”\r\n\r\n其中的:\r\n1、整个系统可用性只能支持一台主机离线,可用性非常差。 \r\n2、我们必须增加第三个 Failure Group 的磁盘来提高可用性。\r\n\r\n能帮忙解释一下,上述两句是什么概念吗?谢谢了。\n\n[ 本帖最后由 honglong 于 2009-2-19 19:44 编辑 ]

论坛徽章:
0
发表于 2009-02-20 12:35 |显示全部楼层
1、我觉得说法有问题,四个server一般来说要配置3个节点作为quorum node,如果说的是只允许一个quorum node 离线没问题,但是只允许一个主机离线,我感觉有点问题。\r\n2、FD是保存 GPFS 文件系统信息的,它是有GPFS内部机制建立的,它的检测机制和quorum node一样。当GPFS检测到可用的信息数量不占大多数时,会关闭文件系统。如果你连接了两个存储,它会生成两分,所以一台存储down掉,会关闭文件系统。如果你从其他存储上连接一个盘进来,专门存放FD,此时GPFS会自动生成三分的FD。当一台存储down掉后,还有两分,不会关闭文件系统。你可以看看下面这段话:\r\n  File system descriptor quorum\r\n● In addition to quorum nodes three\r\ndisks, by default (NSDs) are used as\r\nTiebreaker disks\r\n● Where they are created:\r\n– If there are at least five different failure\r\ngroups, five replicas are created.\r\n– If there are at least three different disks,\r\nthree replicas are created.\r\n– If there are only one or two disks, a replica\r\nis created on each disk.\r\n● A majority of the replicas on the\r\nsubset of disks must remain available\r\nto sustain file system operations\r\n● Can add one by creating a\r\ndecOnly NSD

论坛徽章:
0
发表于 2009-02-20 17:25 |显示全部楼层
比较笨!四个server为什么一般来说要配置3个节点作为quorum node?哎看文档时也经常出现一些数字感觉莫名其妙的,大侠解释一下吗?\r\n还有就是 从某一台服务器本地拿出一个磁盘作为第三个 Failure Group 的磁盘。\r\n这和我理解的Failure Group 机制不一样呀,如果2个Failure Group挂存储 ,第三个Failure Group  用内置硬盘,这样内部的复制机制也不对称呀,一个超大,一个内置。我一直认为\r\nFailure Group 的中的nsd容量应该一致吧。\r\n.十分感谢!

论坛徽章:
0
发表于 2009-02-24 15:37 |显示全部楼层
请楼上的老大,帮忙再解释一下,谢谢!

论坛徽章:
0
发表于 2009-02-24 20:49 |显示全部楼层
1、一般要求cluster里面quorum node的数量为奇数,这个很好理解,你偶数个quorum node的意义和偶数-1个quorum node一样。比如说:4个node的cluster,如果设置2个quorum node ,一个掉了就不能用了。设置3个允许掉一个,设置4个还是只能掉一个。\r\n2、第三块内置的nsd只是用来存放文件系统的描述信息,不存放任何其他数据,所以很小都可以。它的目的只是为了保证,即使一个阵列跨掉后,有超过半数的FD可以访问,cluster不会跨掉,所以它建立的描述信息都是descOnly,不是其他的dataAndMetadata、dataOnly、metadataOnly。\r\n   它的英文描述如下:\r\n   Indicates that the disk contains no data and no file metadata. Such a disk is used solely to keep a copy of the file system descriptor, and can be used as a third failure group in certain disaster recovery configurations. For more information, see General Parallel File System: Advanced Administration and search on Synchronous mirroring utilizing GPFS replication.

论坛徽章:
0
发表于 2010-07-14 23:02 |显示全部楼层
meyer,都是朱诺害你堕入黑暗面…
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP