免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1790 | 回复: 8
打印 上一主题 下一主题

[系统管理] 到新公司第一次出去做维护的深刻经历 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2006-07-28 16:18 |只看该作者 |倒序浏览
到新公司第一次出去做维护的深刻经历
  
      昨天是我刚进入新公司的第一出去维护工作,虽说进入这个公司刚刚满一个月才出去第一次,但是这一次却是给我留下很深很深的印象。

      昨天在公司正常下班后准备做7点的车回家,那知道刚上车屁股还没有做下来领导就电话给我,说省×××公司的项目有一台SUN主机出现问题,一个硬盘出了问题一直报错不能通过自检,ORACLE数据库服务也停了,应为我现在搞系统架构设计和项目(主机、网络)实施这块,对UNIX也比较 熟悉,让我过去看看。考,我没有摸过SUN系统呀,但是不能这么说呀,要不然让领导有想法了就不好。呵呵,就笑说既然你让我去并能信任,我当然去了,就当一次学习机会吧。结果我在7点30就赶到客户那里,并且与同公司的几个同事一起到省×××公司在另一个地儿“花果山”上机房。一进去,哇考,一排一排的机柜,里面都是嗡嗡的转,我看了一下,这些主机设备80%由IBM和SUN占了,HP很少。在他们的带领下我们直接走到我们项目的机柜里,呵呵有一台主机一个硬盘报警灯不断的闪。呵呵,看来有的活干了。先说一下我们系统软、硬件情况吧:
   
环境情况:2台SUN V480主机(2CPU+4G RAM+2*36G硬盘+2网卡口)、1台3310磁盘柜(6个硬盘)
        安装的是SUN solaris+vcs(这我不懂,是不是集群软件,类似AIX的HACMP或HP的MS/CG)?
    以上所有的软件版本均不知道(以前从没有接触过SUN公司的硬件和solarix及存储柜之类)
该系统实现情况是:两台主机通过SCSI线连到磁盘柜,(可能做成主、备双机冗余系统),每台主机的2块硬盘做镜像。每台主机各只连接一个网卡
              A机:10。243。176。107 255.255.255.192
              B机:10。243。176。108    255.255.255.192
另外还有一个用于ORALCE9服务的IP 10.243.176.111,且故障前磁盘柜挂在A机上。

故障现象:A机一块硬盘(DISK1)故障闪黄色灯,DISK0正常系统还在运行,但是ORALCE 服务已经中断,客户端不能连磁盘柜也不能连mount上。

处理步骤:(这时是8点左右)一开始他们几个都先试敲一些命令,不行呀,我也来一下:首先用lsdev -C再用ioscan ,考,都不行,呵呵,这不是AIX和HP呀,不行,只好退下了。让他们来可就是不行,命令都不能多打几个,原来个个都是不搞这行的,哈哈,没有办法只能通过电话寻求一些其它的支持了,朋友、SUN的服务热线呀,可惜SUN热线没有什么CAS不支持哦,考,原来这项目实施的人都不知跑哪去,哪有什么CAS呀,只好找一些朋友了,我们一开始一直折腾,直到快11点半的时候才有一个佳×××科技的工程师过来,这样才能得到解决。到今天下午都还正常运行.

       1、关A机,取出故障硬盘,启动系统之后,ORALCE还是不能起来。
    ??NO.a 如果是双机集群,为什么关了A机后,ORALCE服务不能挂在B机上运行 ?
                  (遗憾的是我当时没有查磁盘柜时候挂在B机上)
            NO.b PING ORACLE服务IP 10。243。176。111 不通,多次用ifconfig 查时ce0口的广播地
               址不一样,有时10.255.255.255有时10。243。176。127 ,为什么?
            
    2、把磁盘柜从A机umount,登陆到B机,并mount上磁盘柜,启动ORALCE服务,居然能起来但是不到10分钟,服务自动退出,多次如此,并且利用登陆的几分钟里查表数据时居然没有记录。多次用ifconfig 查时ce0口的广播地址不一样,也出现有时10.255.255.255  有时10。243。176。127 .
    ???NO.a 为什么oracle服务能起来,但是运行不久就退出?
         NO.b 为什么表数据没有记录?(基于这点,我们觉得不再此机上做,回到A机上)
              NO.c 广播地址出现多次变化,为什么?
   
    3、在B机umount磁盘柜,回到A机上mount上磁盘柜,启动ORACLE服务,可以,但是过不到10分钟,服务又DOWN了,同时也报有一个关于“VCS”的错误(具体提示没有记录,无法贴出来)。
   4、在A机上,多次用ifconfig 查时ce0口的广播地址不一样,还出现有时10.255.255.255   有时10。243。176。127 .
      5、这时我们想法是重新配置A机的网卡信息与hosts文件。结果重新配置并重启,情况依旧。
    6、这时我们怀疑是不是网卡配了两个IP地址有问题?一个本机IP 10.243.176.107 另一个就是ORACLE服务IP 10.243.176.111(其实是把这ip映射到ce0口),我们决定不要111这个IP,把ORALCE服务IP直接用A机上的IP 10.243.176.107.结果我们改了之后,ORACLE服务还不能起来了。
    7、我们只能把IP改回去(因为改回去还能启动几分钟呀,不改连起不能起)。这时我们怀疑是不是ORACLE的环境变量文档配置有问题?查了正常。
   8、这个时间是凌晨2点了,没辙了,大家都觉得好象能用的都用了(说的最多的是个人没有把 UNIX技术学好、也有怪以前做这个项目的工程师什么文档记录都不留,也有怪公司对这些项目实施过程管理的不严格等等。)
   9、5个人只有一个佳×科技的工程师和我没有放弃,继续努力,可能我们两个正好互补吧,他做SUN主机的,但是对网络和双机还不是很熟悉,而我根本就没有摸过SUN,但是我对的 UNIX原理比较熟悉(呵呵,之前2年没有接触UNIX,这2个月恶补AIX和HP的UNIX,感觉进步不少,但是也是原理多,实践不多),还有网络知识都可以。
     10、这个时候我开始留意广播地址多次不一样的问题了,也是因为双机涉及到心跳线的问题。 一开始跟原来实施的工程师联系他说这两台机子是没有做双机热备的,所以当时检查没有心跳线也不奇怪。
     11、这时我就让佳×公司的工程师给我看有哪些与网络有关的配置文件,第一个查 了/etc/hosts文件,正常。第二个查/etc/netmasks文件时,有问题了。因为里面内容是:
                10.243.176.0  255.255.255.192
           我想我们现在配的IP是10.243.176.107 10.243.176.108   10.243.176.111,我们的子网 该是10.243.176.64,而不是10.243.176.0呀,我当时提出把这文件的子网10.243.176.0 改过来为10.243.176.64,而且2台机都改。
     12、改了之后同步,完了,屏幕没有反应了。。。。。。(当时我真的紧张,因为是我坚持要求改的,他们都觉得之前正常,现在不行应该与此无关)。
     13、很久不动了,强行关A机(危险动作,切勿模仿,后果自负)。
    14、启动A机,正常,接着进入用ifconfig,正常了,而且显示ce0口有两个IP (10.243.176.107和10.243.176.111)。接着ORACLE也启动了,这次等了15分钟,哈,正常了。然后启动应用服务器得中间件,连接一切正常。
     15、这时一看时间已经是凌晨3点了,赶紧出去找东西吃(个个晚饭都没有吃,感叹工程师不容易呀),走了15分钟找不到吃的,之后各自回家解决了,呵呵,回家快5点了才能睡。
               
总结
    对个人    1、不但要提高(精通)个人的某项专业技能,而且还要拓宽该领域中其它的技术。
              2、在工作中注意记录和总结,不断积累丰富工作经验。
              3、工作中不怕吃苦,不到最后决不放弃,不断磨练自己的意志。
              4、工程师要注意多与同行建立联系,拓宽自己的人际关系,说不定他可以介绍好工作呀。
    对管理    1、合理安排人员的工作,如不是万不得已情况下,尽量一份工作有两个或以上的人员来
                 完成,避免出现一个人掌握着一个项目的全部秘密,否则等于公司命运放在一条高空
                 线缆的滑轮上。
              2、一定加强对项目设计与实施中的各文档的管理,包括设计方案、实施过程记录、项目的
                各会议纪要,还有合作方的联系方式与提供的各种文档。
              3、公司应加大投入对员工技能的培训(这点很多公司做不到,也不愿意做,因为这样现在跳
                巢率高,员工对企业没有归属感,公司没有什么留恋的地方,都转个高工资的啦,哈哈)。


另外本人有以下疑问,希望能高手帮忙,在此先谢谢了。
1、VCS是一个什么类型的软件?实现的功能是什么?
2、/etc/netmasks文件的重要性有多大?它对系统的哪些服务或进程产生影响?
3、哪里可以找到SUN系统的比较全面的培训学习资料和sun小机和存储柜设备的 资料?
4、哪有远程实践的学习环境?能否提供帐号和PASSWORD?
5、以上我那故障是不是真是子网设置错误引起的,我怀疑是子网设置错误后一些服务消息通过广播时收不到应答而引起的?可为什么之前设计错也能用(这段时间有2年多了,期间也出现过连接故障,但不至于起不来)呢?郁闷中。。。。。

论坛徽章:
0
2 [报告]
发表于 2006-07-28 17:19 |只看该作者
还好你没留你们公司的名字,,不然你们公司名声就出去了!嘿嘿,开个玩笑!!!

论坛徽章:
0
3 [报告]
发表于 2006-07-28 17:57 |只看该作者
你们领导刚来参观过这个帖子

论坛徽章:
0
4 [报告]
发表于 2006-07-28 20:00 |只看该作者
辛苦辛苦啊!

论坛徽章:
0
5 [报告]
发表于 2006-07-28 22:04 |只看该作者
郁闷的事多着呢 谁叫系统软件 还是应用程序都是有bug的  咳的。。

论坛徽章:
0
6 [报告]
发表于 2006-07-29 03:22 |只看该作者
这种项目,埃,害人不少啊

论坛徽章:
11
金牛座
日期:2015-03-19 16:56:22数据库技术版块每日发帖之星
日期:2016-08-02 06:20:00数据库技术版块每日发帖之星
日期:2016-04-24 06:20:00数据库技术版块每日发帖之星
日期:2016-04-13 06:20:00IT运维版块每日发帖之星
日期:2016-04-13 06:20:00数据库技术版块每日发帖之星
日期:2016-02-03 06:20:00数据库技术版块每日发帖之星
日期:2015-08-06 06:20:00季节之章:春
日期:2015-03-27 15:54:57羊年新春福章
日期:2015-03-27 15:54:37戌狗
日期:2015-03-19 16:56:41数据库技术版块每日发帖之星
日期:2016-08-18 06:20:00
7 [报告]
发表于 2006-07-29 10:18 |只看该作者
怎么到处发啊??刚在HP版看到过。

论坛徽章:
0
8 [报告]
发表于 2006-07-29 11:48 |只看该作者
vcs是ha软件啊,感觉比hacmp和mcsg好用,solaris是比较傻什么都得改文件,改错了就玩完
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP