免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 5425 | 回复: 12
打印 上一主题 下一主题

SUN Cluster3.x找不到did设备了 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2008-12-01 00:21 |只看该作者 |倒序浏览
硬件配置为V480 +3310jbod
软件为sun cluster3.1+vxvm3.5+oracle 9
目前双机状态为正常,主机1票,备机1票,业务都是正常的,vxvm也正常。
但是只要是连接3310jbod的盘在cluster里都找不到,就是说丢失了除内置硬盘外的所有did设备
已经做过scdidadm -C;scdidadm -r;scgdevs;
在系统一级是format可以看到盘,vxvm也可以正常,所有的volume也正常
启动的时候报了:
NOTICE: CMM: Quorum device 1 (/dev/did/rdsk/d4s2) added; votecount = 1, bitmask of nodes with configured paths = 0x3.
WARNING: CMM: Open failed with error '(No such device or address)' and errno = 6 for quorum device 1 with gdevname '/dev/did/rdsk/d4s2'.

device id for '/dev/rdsk/c2t8d0' does not match physical disk's id.
The drive may have been replaced
device id for '/dev/rdsk/c2t9d0' does not match physical disk's id.
The drive may have been replaced
device id for '/dev/rdsk/c2t11d0' does not match physical disk's id.
The drive may have been replaced
device id for '/dev/rdsk/c2t12d0' does not match physical disk's id.
The drive may have been replaced
device id for '/dev/rdsk/c3t8d0' does not match physical disk's id.
The drive may have been replaced
device id for '/dev/rdsk/c3t9d0' does not match physical disk's id.
The drive may have been replaced
device id for '/dev/rdsk/c3t10d0' does not match physical disk's id.
The drive may have been replaced
device id for '/dev/rdsk/c3t11d0' does not match physical disk's id.
The drive may have been replaced
device id for '/dev/rdsk/c3t12d0' does not match physical disk's id.
The drive may have been replaced
原来的scdidadm的输出结果:
1        mdsp1:/dev/rdsk/c0t0d0         /dev/did/rdsk/d1     
2        mdsp1:/dev/rdsk/c1t0d0         /dev/did/rdsk/d2     
3        mdsp1:/dev/rdsk/c1t1d0         /dev/did/rdsk/d3     
4        mdsp1:/dev/rdsk/c2t8d0         /dev/did/rdsk/d4     
4        mdsp2:/dev/rdsk/c2t8d0         /dev/did/rdsk/d4     
5        mdsp1:/dev/rdsk/c2t9d0         /dev/did/rdsk/d5     
5        mdsp2:/dev/rdsk/c2t9d0         /dev/did/rdsk/d5     
6        mdsp1:/dev/rdsk/c2t10d0        /dev/did/rdsk/d6     
6        mdsp2:/dev/rdsk/c2t10d0        /dev/did/rdsk/d6     
7        mdsp1:/dev/rdsk/c2t11d0        /dev/did/rdsk/d7     
7        mdsp2:/dev/rdsk/c2t11d0        /dev/did/rdsk/d7     
8        mdsp1:/dev/rdsk/c2t12d0        /dev/did/rdsk/d8     
8        mdsp2:/dev/rdsk/c2t12d0        /dev/did/rdsk/d8     
9        mdsp1:/dev/rdsk/c3t8d0         /dev/did/rdsk/d9     
9        mdsp2:/dev/rdsk/c3t8d0         /dev/did/rdsk/d9     
10       mdsp1:/dev/rdsk/c3t9d0         /dev/did/rdsk/d10   
10       mdsp2:/dev/rdsk/c3t9d0         /dev/did/rdsk/d10   
11       mdsp1:/dev/rdsk/c3t10d0        /dev/did/rdsk/d11   
11       mdsp2:/dev/rdsk/c3t10d0        /dev/did/rdsk/d11   
12       mdsp1:/dev/rdsk/c3t11d0        /dev/did/rdsk/d12   
12       mdsp2:/dev/rdsk/c3t11d0        /dev/did/rdsk/d12   
13       mdsp1:/dev/rdsk/c3t12d0        /dev/did/rdsk/d13   
13       mdsp2:/dev/rdsk/c3t12d0        /dev/did/rdsk/d13   
14       mdsp2:/dev/rdsk/c0t0d0         /dev/did/rdsk/d14   
15       mdsp2:/dev/rdsk/c1t0d0         /dev/did/rdsk/d15   
16       mdsp2:/dev/rdsk/c1t1d0         /dev/did/rdsk/d16   
现在的scdidadm输出结果:
2        mdsp1:/dev/rdsk/c1t0d0         /dev/did/rdsk/d2     
3        mdsp1:/dev/rdsk/c1t1d0         /dev/did/rdsk/d3     
6        mdsp1:/dev/rdsk/c2t10d0        /dev/did/rdsk/d6     
6        mdsp2:/dev/rdsk/c2t10d0        /dev/did/rdsk/d6     
14       mdsp2:/dev/rdsk/c0t0d0         /dev/did/rdsk/d14   
15       mdsp2:/dev/rdsk/c1t0d0         /dev/did/rdsk/d15   
16       mdsp2:/dev/rdsk/c1t1d0         /dev/did/rdsk/d16   
format输出结果:
AVAILABLE DISK SELECTIONS:
       0. c1t0d0 <SUN72G cyl 14087 alt 2 hd 24 sec 424>
          /pci@9,600000/SUNW,qlc@2/fp@0,0/ssd@w500000e0106f2dd1,0
       1. c1t1d0 <SUN72G cyl 14087 alt 2 hd 24 sec 424>
          /pci@9,600000/SUNW,qlc@2/fp@0,0/ssd@w500000e0106f2791,0
       2. c2t8d0 <SUN72G cyl 14087 alt 2 hd 24 sec 424>
          /pci@8,600000/pci@1/scsi@4/sd@8,0
       3. c2t9d0 <SUN72G cyl 14087 alt 2 hd 24 sec 424>
          /pci@8,600000/pci@1/scsi@4/sd@9,0
       4. c2t10d0 <SUN72G cyl 14087 alt 2 hd 24 sec 424>
          /pci@8,600000/pci@1/scsi@4/sd@a,0
       5. c2t11d0 <SUN72G cyl 14087 alt 2 hd 24 sec 424>
          /pci@8,600000/pci@1/scsi@4/sd@b,0
       6. c2t12d0 <SUN72G cyl 14087 alt 2 hd 24 sec 424>
          /pci@8,600000/pci@1/scsi@4/sd@c,0
       7. c3t8d0 <SUN72G cyl 14087 alt 2 hd 24 sec 424>
          /pci@8,600000/pci@2/scsi@4/sd@8,0
       8. c3t9d0 <SUN72G cyl 14087 alt 2 hd 24 sec 424>
          /pci@8,600000/pci@2/scsi@4/sd@9,0
       9. c3t10d0 <SUN72G cyl 14087 alt 2 hd 24 sec 424>
          /pci@8,600000/pci@2/scsi@4/sd@a,0
      10. c3t11d0 <SUN72G cyl 14087 alt 2 hd 24 sec 424>
          /pci@8,600000/pci@2/scsi@4/sd@b,0
      11. c3t12d0 <SUN72G cyl 14087 alt 2 hd 24 sec 424>
          /pci@8,600000/pci@2/scsi@4/sd@c,0
vxvm的输出结果我就不贴了,也是正常的,所有的volume都是enable的。
quorum device是用3310jbod上数据盘做的,这个应该没有问题,scstat的输出在quorum列为offline状态,所有硬件的连接没有动过,11月份的时候换过一次quorum盘当时是用vxdiskadm直接换的,没有使用增加quorum的方法换。
如果有那位兄弟碰到过这样的问题麻烦指导下,基本上我该想到的都想到了,实在不行,我看就只能重新配cluster了。谢谢了!

论坛徽章:
0
2 [报告]
发表于 2008-12-01 10:53 |只看该作者
scgdevs
or
scdidadm -C
scdidadm -r
试试看

论坛徽章:
7
荣誉会员
日期:2011-11-23 16:44:17水瓶座
日期:2013-08-28 21:20:16丑牛
日期:2013-10-02 21:01:462015年迎新春徽章
日期:2015-03-04 09:54:45操作系统版块每日发帖之星
日期:2016-06-05 06:20:0015-16赛季CBA联赛之吉林
日期:2016-06-20 08:24:0515-16赛季CBA联赛之四川
日期:2016-08-18 15:02:02
3 [报告]
发表于 2008-12-01 10:56 |只看该作者
两个机器reboot -- -r基本上大部分问题都解决了。

此外不好说具体问题是出在哪儿,我想现在你的系统应该是没有问题的。

quorum device一定要确保正常,否则你的cluster一个节点出现问题,那么cluster将会失败!

论坛徽章:
0
4 [报告]
发表于 2008-12-01 12:55 |只看该作者
scdidadm -C;scdidadm -r已经都做过了,如果重起的话两台主机都会不停的panic,下面就是reboot -- -r的重起过程中部分信息,
Nov 28 00:28:50 mdsp1 Cluster.Framework: stderr: /usr/cluster/lib/sc/run_reserve[16]: 977 Segmentation Fault(coredump)
Nov 28 00:28:51 mdsp1 Cluster.Framework: stderr: /usr/cluster/lib/sc/run_reserve[26]: 1161 Segmentation Fault(coredump)
Nov 28 00:28:51 mdsp1 Cluster.Framework: stderr: vxvm:vxdg: ERROR:
Nov 28 00:28:51 mdsp1 Cluster.Framework: stderr: Disk group billdg: No such disk group is imported
Fatal error: could not deport VxVM diskgroup billdg. Halting node.
Nov 28 00:28:51 mdsp1 halt: halted by root



Caught terminate signal
vxvm:vxvol: INFO: Attempting to cleanup after failure ...
Caught terminate signal
vxvm:vxvol: INFO: Attempting to cleanup after failure ...
Nov 28 00:28:51 mdsp1 Cluster.RGM.rgmd: fatal: received signal 15
Nov 28 00:28:51 mdsp1 Cluster.Framework: clexecd: Going down on signal 15.
Nov 28 00:28:51 mdsp1

论坛徽章:
0
5 [报告]
发表于 2008-12-02 16:24 |只看该作者
重配CLUSTER是不需要的。但是要调整磁盘。
1。 重新设置quorum设备。 scsetup 添加D6为新的quorum设备。同时删除老的quorum设备D4。
2。 devfsadm -C; devfsadm   on both nodes.
3.  scdidadm -C ;scdidadm -r ;scdidadm -L

论坛徽章:
0
6 [报告]
发表于 2008-12-04 14:25 |只看该作者
quorum 昨天已经加成功了,但是did设备还是找不到,而且机器不能做切换,一切换就报vxvm dg can't find,然后机器就panic,所以现在两个业务都在一台机器上运行。我觉得did设备有误差,可能需要重新识别下did设备。

论坛徽章:
0
7 [报告]
发表于 2008-12-04 14:27 |只看该作者
Configuring DID devices
ERROR in discover_paths: Cannot walk /dev/rmt.
path /dev/rdsk/c3t12d0s2 moved.
path /dev/rdsk/c2t9d0s2 moved.
path /dev/rdsk/c2t11d0s2 moved.
path /dev/rdsk/c2t12d0s2 moved.
path /dev/rdsk/c3t8d0s2 moved.
path /dev/rdsk/c3t9d0s2 moved.
path /dev/rdsk/c3t10d0s2 moved.
path /dev/rdsk/c3t11d0s2 moved.
Could not read symbolic link for: /dev/rdsk/c0t0d0s2 path not loaded
No such file or directory
device id for '/dev/rdsk/c2t9d0' does not match physical disk's id.
The drive may have been replaced
device id for '/dev/rdsk/c2t11d0' does not match physical disk's id.
The drive may have been replaced
device id for '/dev/rdsk/c2t12d0' does not match physical disk's id.
The drive may have been replaced
device id for '/dev/rdsk/c3t8d0' does not match physical disk's id.
The drive may have been replaced
device id for '/dev/rdsk/c3t9d0' does not match physical disk's id.
The drive may have been replaced
device id for '/dev/rdsk/c3t10d0' does not match physical disk's id.
The drive may have been replaced
device id for '/dev/rdsk/c3t11d0' does not match physical disk's id.
The drive may have been replaced
device id for '/dev/rdsk/c3t12d0' does not match physical disk's id.
The drive may have been replaced
Could not read symbolic link for: /dev/rmt/0l path not loaded

论坛徽章:
0
8 [报告]
发表于 2008-12-04 14:40 |只看该作者
暂时把quorum改到D6 ,删除 D4 ;
然后先关闭一个节点,在另一个节点上reboot -- -x,看系统是否正常,然后reboot -- -r启动,看cluster状态如何?

论坛徽章:
0
9 [报告]
发表于 2008-12-08 14:21 |只看该作者
呵呵,quorum device我前几天就已经改成了d6了,因为d4在备机上找不到,只能找到d6的设备,reboot -x是没有问题的,vxvm能正常import dg,业务也都可以运行,但是一旦在cluster状态的话,就不行。现在还没有做重新配置did的操作,如果重新配置did的操作不行,那证明应该是cluster的配置已经坏了,我想没有办法做恢复了,只能重新配置。

论坛徽章:
0
10 [报告]
发表于 2008-12-30 02:51 |只看该作者
大家好,谢谢大家回贴给我的支持。我今天已经完全解决问题了。12月初的时候,我将已经更换的quorum device坏盘从北京调了回来,将坏盘插入磁盘阵列原来的槽位,quorum能够online,然后将quorum device改在了d6上。但是随即发现不能进行资源组切换,原因就是备机系统不能找到磁盘阵列上的did设备,没有办法正常导入vxvm dg,然后就直接panic重起了。
今天我将6月份收集的explorer中的ccr配置文件分别导入主机和备机,然后重新启动两台机器,启动以后quorum device认到的是d4,但是为offline状态。我将d6也加入quorum 也是offline状态。然后我将d6又删除。运行scdidadm -R d4将d4盘reset下,运行scdidadm -ui,scdidadm -r,d4盘就online起来了,然后所有丢失的did设备都找到了。主机备机都可以正常进行切换了。我个人觉得运气还是占一部分,然后scdidadm -R dX这个命令比较强大,能重新读取cluster的quorum device信息。所以我觉得did的配置还有识别信息应该是除了ccr中有外,quorum中也会有相关的配置信息,一旦quorum丢失,did相应的丢失的可能性比较大。谢谢大家!

评分

参与人数 1可用积分 +5 收起 理由
yuhuohu + 5 我很赞同

查看全部评分

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP