Chinaunix

标题: SUN双机重装 [打印本页]

作者: roger0409    时间: 2006-09-08 10:59
标题: SUN双机重装
我有一套双机机器是SUN480,存储用的是3510跑的oracle8i,双机软件用的是volume manager,solaris,V3.5;系统版本是5.9 Generic_112233-12;现在由于停电有一台系统已经崩溃需要重装这台系统、双机、oracle;机器在北京西站附近,由于是在线业务不允许停机,请问有没有高人可以帮我完成?(系统及双机软件需自备,我们提供license及oracle软件),有意者请报出服务费站内短信联系(需提供重装方案并留下相关重装文档)
作者: 阿毛~    时间: 2006-09-08 11:16
双机软件是是Sun Cluster吗?什么版本,卷管理是什么
作者: 东方蜘蛛    时间: 2006-09-08 11:24
cluster版本是多少,我可以找人帮你搞定,呵呵
作者: roger0409    时间: 2006-09-08 11:26
scinstall -pv
Sun Cluster 3.1u1 for Solaris 9 sparc
SUNWscr:       3.1.0,REV=2003.03.25.13.14, 113801-06 115364-05 113801-11
SUNWscu:       3.1.0,REV=2003.03.25.13.14, 113801-06 115364-05 115571-02 113801-11
SUNWscsck:     3.1.0,REV=2003.09.10.18.59
SUNWscnm:      3.1.0,REV=2003.09.10.18.59
SUNWscdev:     3.1.0,REV=2003.03.25.13.14, 113801-06 113801-11
SUNWscgds:     3.1.0,REV=2003.03.25.13.14
SUNWscman:     3.1.0,REV=2003.03.25.13.14, 113801-06 113801-11
SUNWscsal:     3.1.0,REV=2003.03.25.13.14, 113801-11
SUNWscsam:     3.1.0,REV=2003.03.25.13.14, 113801-06 113801-11
SUNWscvm:      3.1.0,REV=2003.03.25.13.14, 113801-06 113801-11
SUNWmdm:       3.1.0,REV=2003.03.25.13.14
SUNWscva:      3.1.0,REV=2003.03.25.13.14
SUNWscvr:      3.1.0,REV=2003.03.25.13.14, 113801-06 115364-05 113801-11
SUNWscvw:      3.1.0,REV=2003.03.25.13.14, 113801-06 115364-05 113801-11
SUNWscrsm:     3.1.0,REV=2003.09.10.18.59, 113801-11
SUNWcsc:       3.1.0,REV=2003.08.12.14.23
SUNWcscvw:     3.1.0,REV=2003.08.12.14.23
SUNWfsc:       3.1.0,REV=2003.08.12.14.15
SUNWfscvw:     3.1.0,REV=2003.08.12.14.15
SUNWhsc:       3.1.0,REV=2003.08.12.14.23
SUNWhscvw:     3.1.0,REV=2003.08.12.14.23
SUNWjsc:       3.1.0,REV=2003.08.12.14.24
SUNWjscman:    3.1.0,REV=2003.08.12.14.24
SUNWjscvw:     3.1.0,REV=2003.08.12.14.24
SUNWksc:       3.1.0,REV=2003.08.12.14.22
SUNWkscvw:     3.1.0,REV=2003.09.09.15.08
SUNWexplo:     4.0, FCS
SUNWscor:      3.1.0,REV=2003.04.02.16.04, 115076-01 116094-01
作者: 阿毛~    时间: 2006-09-08 11:28
Sun Cluster 3.1u1 for Solaris 9 sparc
卷管理就是sds了
作者: 东方蜘蛛    时间: 2006-09-08 11:29
原帖由 阿毛~ 于 2006-9-8 11:28 发表
Sun Cluster 3.1u1 for Solaris 9 sparc
卷管理就是sds了

人家都说了是vxvm3.5了
作者: roger0409    时间: 2006-09-08 11:31
老大们。谁有兴趣呀?
作者: 阿毛~    时间: 2006-09-08 11:32
噢,没看明白
作者: 东方蜘蛛    时间: 2006-09-08 11:33
如果只有oracle应用的话建议把oracle数据导出去,然后用其他机器在装一个oracle软件,然后导入数据.
双机的安装最好是两台一起安装,不然新安装的和原来的老的系统可能会存在差异,不如说补丁情况等
作者: 东方蜘蛛    时间: 2006-09-08 11:34
原帖由 阿毛~ 于 2006-9-8 11:32 发表
噢,没看明白



lz没有描述清除,卷管理软件写成双机软件
作者: 阿毛~    时间: 2006-09-08 11:36
什么问题啊,必须重装系统啊,没做镜像吗?系统盘
作者: roger0409    时间: 2006-09-08 11:41
现在只能进入维护模式,而且usr/bin下的命令基本找不到了(如ls、more)、dev/rdsk下没有东西,format找不到硬盘,但是在光盘的单用户及prom状态都可以认到硬盘,我也试过devfsadm和boot -avr都没有用,蜘蛛老大数据库不能重装这是一个很重要的联通全网业务是不允许停机的
作者: 东方蜘蛛    时间: 2006-09-08 11:44
有难度,这么重要的业务难道没有磁带备份?
作者: roger0409    时间: 2006-09-08 11:48
可以做数据库的全备份,但是业务要是停了我也就该被踢了,所以上CU求助
作者: 东方蜘蛛    时间: 2006-09-08 12:12
照你的情况得找sun原厂解决了,要是能申请下来停机就好点!
作者: roger0409    时间: 2006-09-08 12:53
停机就只能是半夜了,估计是2、3点,而且7点以前必须上线
作者: solarisboy    时间: 2006-09-08 13:01
原帖由 roger0409 于 2006-9-8 11:48 发表
可以做数据库的全备份,但是业务要是停了我也就该被踢了,所以上CU求助


打Sun 800
作者: superlyu    时间: 2006-09-08 14:12
如果不想停机的话,可以在线把可以使用的那台机子的系统盘用dd克隆一块,然后在另外的一台机子起来,如果能起的话,把上面的cluster,veritas volume manager,oracle等软件包统统卸载,再从新进行安装和配置,这中方法也只能是试试,不过起码不会影响到另外的那台系统
作者: solarisboy    时间: 2006-09-08 14:58
原帖由 superlyu 于 2006-9-8 14:12 发表
如果不想停机的话,可以在线把可以使用的那台机子的系统盘用dd克隆一块,然后在另外的一台机子起来,如果能起的话,把上面的cluster,veritas volume manager,oracle等软件包统统卸载,再从新进行安装和配置,这 ...


这种方法虽然可行,但是dd过来的系统,因为是cluster,里面有很多的参数要更改如hostname,ip都要通过修改ccr的方法来做,这样风险也大,没有十足的把握如果频繁重起该机,有可能对运行的那台系统产生影响,后果也是“走人”!
作者: Philmoon    时间: 2006-09-08 15:16
原帖由 superlyu 于 2006-9-8 14:12 发表
如果不想停机的话,可以在线把可以使用的那台机子的系统盘用dd克隆一块,然后在另外的一台机子起来,如果能起的话,把上面的cluster,veritas volume manager,oracle等软件包统统卸载,再从新进行安装和配置,这 ...


偶觉得这方法比较可行,不过如果修改hostname等之后能够起来,就不用卸载重装了。否则还不如直接停了此机重装一堆东东(重装的时候还是要仔细参考正常机器上的各种参数,务必一致)。做这些的时候应该暂时不联机,单独修改或单独安装,这样该机重新启动不影响业务。

数据库的数据应该在阵列上,停了故障机、保持正常机运行,应该对数据、业务没影响的。不过还是应该有备份,以防故障机维护后,联机时出现意外。
作者: ewebboy    时间: 2006-09-08 15:49
让公司出钱把,何必那自己“走人”来玩呢?把责任转到Sun
作者: roger0409    时间: 2006-09-08 17:47
公司觉得SUN出的价钱贵,让俺找便宜一点的,所以俺才上CU来问价的
作者: filtercai    时间: 2006-09-08 20:18
就和保险一样,买单次服务确实很贵。
不过个人建议还是通过公司找sun,这样责任就在sun(收了钱就得担责任啊)。不然自己私下找人,最后出了问题,虽然是领导叫的,但是肯定让你背啊。
作者: blazewater    时间: 2006-09-08 20:41
我的建议:
1、再找一台和你现在正常运行的机器一样的机器,这个从Sun借货应该可以做到,或者找CU的朋友们借一下;
2、把你正常运行的机器(称为A机)的根盘用dd备份到磁带上,没有磁带机的话就用ufsdump备份到磁盘上(这个方法我没尝试过,我用ufsdump导系统到磁带上过),然后再把磁带上的系统导到你借的这台机器上(简称C机),这样你的在线好的系统就备份出来了;
3、下面的描述中崩溃机器简称C机,把B机从A、B组成的双机系统中脱离出来(关电即可);
4、用C机作为好的机器,启动所有业务(当然不能上网),模拟正常在线的A机;
5、将B机的根盘和所有的应用数据本地盘备份;
5、下面两种方法可以测试能否恢复B机用(当然要保证C机和A机的硬件完全一致并且从A机导出系统到C机上后C机运行和A机行为完全一致):
一是将A机导出的系统用dd在C机上进行恢复测试;
二是从B机上重新安装操作系统和SunCluster、SDS、Oracle等应用,和C机进行Cluster的对接;
上面一和二有一种方法可以成功那你就OK了,直接把B机接回去应该就可以了。
否则。。。。。。
作者: blazewater    时间: 2006-09-08 20:44
理论上来讲是可以恢复的
原来SunCluster2.2的时候我做过和你这个类似的事情,那个是不停机升级应用,只能把备机从SC中断出来,在备机上进行新版本业务的测试和模拟,然后再断开A机的业务,让B机的业务接管,业务中断没有超过1分钟,哈。
不过SunCluster2.2是处于操作系统应用层的,所以做起来相对容易一些;
但是SunCluster3.0以上的版本都是嵌入内核的,一些配置也做到CCR中了,所以修改起来相对麻烦些。
但是楼主要注意:怎么做都无所谓,关键是运营商的业务千万不要断,只要断了,那哥们就惨了。
作者: 东方蜘蛛    时间: 2006-09-08 20:52
原帖由 blazewater 于 2006-9-8 20:44 发表
理论上来讲是可以恢复的
原来SunCluster2.2的时候我做过和你这个类似的事情,那个是不停机升级应用,只能把备机从SC中断出来,在备机上进行新版本业务的测试和模拟,然后再断开A机的业务,让B机的业务接管,业务 ...



2.2和3.x区别很大的:em11:
作者: shexiaoyu    时间: 2006-09-09 03:10
标题: 有些命令应该还是可以用的
因为.so的库文件指向错了,大部分命令不能用,但cp,mv等命令还有别的库,应该还能用,可能是passwd.shadow文件也出问题了.只要物理没出问题还是可以恢复的,只是比较麻烦
作者: 木刀客    时间: 2006-09-09 07:59
克隆A机的系统和应用到B机(有故障的机器)。然后修改网络参数等。 ufsdump可以用。不用磁带机。目的盘只要比源盘(A 机)大就行。大小一样最好。
作者: Barrfee    时间: 2006-09-09 11:24
难度比较大,不等于是不可能完成的任务,关键点是oracle binary是否有备份?这个oracle_home好像不太可以在线备份。费用需要几万,我想是这个样子的。
作者: solarisboy    时间: 2006-09-09 13:52
lz可以先说说能出多少钱? 重赏之下必有勇夫,古往今来都是这样!先写方案,然后根据方案的可行性在来做!
作者: hcc6    时间: 2006-09-09 16:19
标题: 回复 20楼 Philmoon 的帖子
强人!
作者: shaunix    时间: 2006-09-10 10:06
请收SOHU邮件
作者: lyh003473    时间: 2006-09-10 10:49
[quote]鍘熷笘鐢
作者: zhangfukai    时间: 2006-09-10 20:01
我可以做。但是oracle没做过。除此以外系统和SC3。1或者是SC3。0、VXVM建卷、建资源组、逻辑IP等等我来做。联系我MSN:zfk2054955@163.com
作者: m4a3gz    时间: 2006-09-10 20:35
^_^,LZ兄弟还是小心点。按你的说法是不停机做恢复,并不是2台重装!很多人都误解了,以为是2台重装重做。
   如果是重装,按我一贯做CLUSTER的速度,如果真的2台重做,从安装系统到打补丁,到装CLUSTER,封装VXVM然后补丁,做卷。通常需要8小时。就算在工厂用特殊安装处理也超过5小时,极限了也需要4小时吧。还不包括打包解压ORACLE的时间。
   按联通的核心业务,有这样长的时间折腾吗?随便找个人搞,估计你肯定下岗了。
   关于按照DD另一台机器硬盘的做法,我的经验是,如果你没事先申请停机时间,估计也是下岗了。因为PANIC的机会超过90%。那些没做过CLUSTER恢复实验的人不要想当然,误人子弟。
    你的问题最好的解决方法还是做恢复。或者用最笨的,借台机器暂时接管业务。
    一切3思而后行,请SUN的人虽然贵,但确实风险由他们承担,可靠一些,而且这样的CASE,他们不会随便找个人来应付的。如果真的确实嫌贵(也真的很贵,美元每小时定价,而且折头按照客户关系算),不如私下请些SUN内部的工程师,相信他们收费便宜而且质量保证啊。
     可惜可惜

[ 本帖最后由 m4a3gz 于 2006-9-10 21:37 编辑 ]
作者: susbin    时间: 2006-09-10 20:37
如果数据库不是很大,可以用RMAN 做backup 然后把数据导入另外一台机器C
上的 Oracle 里,再把应用改为指向C. 这样就可以在A, B机上做事了。
如果Oracle有RAC,当然还要做些相应的该动。
作者: Barrfee    时间: 2006-09-10 21:39
要恢复故障节点,就必须申请停业务时间,即使是十分钟。因为你需要测试新安装节点是否可以正常接管业务
作者: xuefm    时间: 2006-09-12 13:50
标题: 回复 35楼 m4a3gz 的帖子
说的有道理,最好找台机器,将oracle数据导出去,然后再将两台机器重新做一下,如果只做单台机器,很难,在做cluster的时候,如果第二台机器的名字和崩溃之前要求一样的话,在安装cluster软件时候,第一台还会误认为第二台机器在ccr库中,无法将第二台加入。

不知道各位是如何解决此问题?
兄弟刚好也学习一下!
作者: susbin    时间: 2006-09-12 22:50
“现在只能进入维护模式,而且usr/bin下的命令基本找不到了(如ls、more)、dev/rdsk下没有东西,format找不到硬盘,但是在光盘的单用户及prom状态都可以认到硬盘,我也试过devfsadm和boot -avr都没有用”

楼上几位的经验之谈很透彻,学习了。
其实,关键是楼主没说问题产生的原因。原因找到了,也许不需要重装或导出数据。偶就有幸目睹高手
把半死的系统不停机一点点弄回来,也是那回第一次见到用ed,因为vi 没了。
偶可不是要抢生意,没那金刚钻。




欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2