免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2299 | 回复: 6
打印 上一主题 下一主题

cluster 问题,有时会导致主机重启 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2007-12-03 22:32 |只看该作者 |倒序浏览
clsuter里面的有些东西,我还没有理解,大伙有时间的帮忙看看,下面的是一套双机系统 S8+sc3.0 + sds, 接个双T3跑在v880上的,搞oracle , 出了点小故障。影响倒不是很大,因为现在是正常的。就是有时候系统会重启,然后就在message里报了一堆参杂err的info . 我所发现的问题就是 :

appds/d30: Mirror
    Submirror 0: appds/d31
      State: Needs maintenance
    Submirror 1: appds/d32
      State: Needs maintenance
    Pass: 1
    Read option: roundrobin (default)
    Write option: parallel (default)
    Size: 565723136 blocks

appds/d31: Submirror of appds/d30
    State: Needs maintenance
    Invoke: metareplace appds/d30 d8s0 <new device>
    Size: 565723136 blocks
    Stripe 0:
        Device Start Block  Dbase State        Hot Spare
        d8s0          0     No    Maintenance  


appds/d32: Submirror of appds/d30
    State: Needs maintenance
    Invoke: after replacing "Maintenance" components:
                metareplace appds/d30 d9s0 <new device>
    Size: 565723136 blocks
    Stripe 0:
        Device Start Block  Dbase State        Hot Spare
        d9s0          0     No    Last Erred   


vfstab:
#device        device        mount        FS        fsck        mount        mount
#to        mount        to        fsck                point                type        pass        at boot        options
#                       
#/dev/dsk/c1d0s2        /dev/rdsk/c1d0s2        /usr        ufs        1        yes        -
fd        -        /dev/fd        fd        -        no        -
/proc        -        /proc        proc        -        no        -
/dev/md/dsk/d23        -        -        swap        -        no        -
/dev/md/dsk/d20        /dev/md/rdsk/d20        /        ufs        1        no        logging       
/dev/md/dsk/d26        /dev/md/rdsk/d26        /var        ufs        1        no        logging
#/dev/dsk/c1t0d0s3        /dev/rdsk/c1t0d0s3        /globaldevices        ufs        2        yes        -
swap        -        /tmp        tmpfs        -        yes        -
#/dev/did/dsk/d14s3 /dev/did/rdsk/d14s3 /global/.devices/node@2 ufs 2 yes global/dev/md/dsk/d50 /dev/md/rdsk/d50 /global/.devices/node@2 ufs 2 yes global,logging
/dev/md/appds/dsk/d4 /dev/md/appds/rdsk/d4 /global/ora ufs 2 yes global,logging
/dev/md/appds/dsk/d5 /dev/md/appds/rdsk/d5 /global/ora1 ufs 2 yes global,logging
/dev/md/appds/dsk/d6 /dev/md/appds/rdsk/d6 /global/ora2 ufs 2 yes global,logging
/dev/md/appds/dsk/d7 /dev/md/appds/rdsk/d7 /global/ora3 ufs 2 yes global,logging
/dev/md/appds/dsk/d8 /dev/md/appds/rdsk/d8 /global/ora4 ufs 2 yes global,logging
/dev/md/appds/dsk/d9 /dev/md/appds/rdsk/d9 /global/app ufs 2 yes global,logging

标注红色的,经蜘蛛大侠指点说是正常的,完全排除了我认为配置有点小问题的看法了。
现在就是不知道会是什么原因导致重启?看看message里,次数不少了啊
messages.rar (43.72 KB, 下载次数: 36)

论坛徽章:
0
2 [报告]
发表于 2007-12-03 22:54 |只看该作者

补充

message 里有n 多ntpdate 的垃圾info ,想关掉,但不知道系统是从哪里带起来的?我找过crontab ,rc.local, rc3.d 下的S99local 都没有,它是怎么起来的,有人给个提示吗?

论坛徽章:
0
3 [报告]
发表于 2007-12-03 22:56 |只看该作者
最好有explorer收集的信息.
至少也的sc的状态法上来.
可以先尝试两台机器boot -x进入非cluster状态是否正常.
还有如果appds会不会是T3做的啊,有一个有问题,查看一下T3的状态.
如果每个T3各有一个资源的话,可能有问题的那台访问不了导致了一些问题.
你的信息还不够全,把全的给蜘蛛.

论坛徽章:
0
4 [报告]
发表于 2007-12-03 22:59 |只看该作者
ntp最好不要关掉,原始的配置文件在/etc/inetd/ntp.conf,cluster的也在同级目录.
启动好像是在/etc/rc2.d中,或者/etc/inetd/xntpd stop/start

论坛徽章:
0
5 [报告]
发表于 2007-12-03 23:14 |只看该作者
原帖由 easybegin 于 2007-12-3 22:59 发表
ntp最好不要关掉,原始的配置文件在/etc/inetd/ntp.conf,cluster的也在同级目录.
启动好像是在/etc/rc2.d中,或者/etc/inetd/xntpd stop/start


我的意思是关掉ntpdate 大量报无用的信息,那个ntpdate 209.81.9.7是不通的,没联外网。ntp 当然不能关。而且在进程里有:
root   210   209  0   Oct 30 ?        0:00 /usr/sbin/ntpdate -s -w 209.81.9.7
root   209     1  0   Oct 30 ?        0:00 /sbin/sh /etc/rc2.d/S74xntpd.cluster start
我是想知道ntpdate -s -w 209.81.9.7 这句是谁给带起来的?我是没找到
另: 我在explorer里就发现我上面提到的不正常,其他的好像都是正常的。所以就没发。不知道还需要哪些辅助信息?
他的2个T3是镜像的, d30 -m d31 d32,然后把d30 分成了vfstab 里的若干软分区。

论坛徽章:
0
6 [报告]
发表于 2007-12-03 23:35 |只看该作者
xntpd启动脚本已开始就用ntpdate同步client到UTC time.
你的是不是有人配置了ntpserver到209.81.9.7
你可以查看一下/etc/inet/ntp.conf 或者cluster自己的ntp.conf
另外虽然你做了T3的镜像,但是一个有问题时的I/O异常时可以导致cluster主机重起或者hang住的(我碰到的仅有的两次都是由共享盘阵中的一个上的硬盘有问题导致的,更换后就没事情了)----虽然我也不理解为什么做了镜像配了多路经会导致这样.
希望对你解决问题有所帮助.

论坛徽章:
0
7 [报告]
发表于 2007-12-04 00:09 |只看该作者
很有帮助,谢谢,经过提示突然发现ntpdate 的父进程就是S74xntpd.cluster .明白了,这个问题应该可以kill 了
至于重启,我也隐约感觉会是d31对应的T3的问题,但,是什么问题,就不知道了.因为现在又一切都是好的。所以我想看能不能从explorer里发现什么。还有从message 文件里,高手们能得出个什么结论?
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP