免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: race
打印 上一主题 下一主题

讨论,你对于碰到的SOLARIS问题是如何解决的? [复制链接]

论坛徽章:
0
11 [报告]
发表于 2003-07-17 14:10 |只看该作者

讨论,你对于碰到的SOLARIS问题是如何解决的?

自己先用各种能够想到的办法试试,不行就给SUN公司打服务热线,呵呵。我们的设备都是买了服务的。不过有时候很多问题都是SUN产品的BUG,他们自己的工程师很清楚这些BUG,问他们可以节约很多时间。

论坛徽章:
0
12 [报告]
发表于 2003-07-17 14:39 |只看该作者

讨论,你对于碰到的SOLARIS问题是如何解决的?

自己先查资料,看书,想方设法的弄,等到实在无法后,再去问人.

论坛徽章:
0
13 [报告]
发表于 2003-07-17 14:41 |只看该作者

讨论,你对于碰到的SOLARIS问题是如何解决的?

1,找资料
2,论坛找
3,google找
4,找人问
5,找sun公司
6,郁闷。。。

论坛徽章:
0
14 [报告]
发表于 2003-07-17 14:51 |只看该作者

讨论,你对于碰到的SOLARIS问题是如何解决的?

1. 看书
2. man
3. google
4. 相关公司的技术支持
5. 高手

论坛徽章:
0
15 [报告]
发表于 2003-07-17 15:00 |只看该作者

讨论,你对于碰到的SOLARIS问题是如何解决的?

自己搞不定的问题找sun公司.

论坛徽章:
0
16 [报告]
发表于 2003-07-17 15:22 |只看该作者

讨论,你对于碰到的SOLARIS问题是如何解决的?

原帖由 "lizhiqing" 发表:
1. 看书
2. man
3. google
4. 相关公司的技术支持
5. 高手
   

同意!
不过google要放在最前(还有chinauinx,不过现在论坛的搜索不好用)

论坛徽章:
0
17 [报告]
发表于 2003-07-17 15:29 |只看该作者

讨论,你对于碰到的SOLARIS问题是如何解决的?

系统突然报错:
1。寻找一切相关错误信息
    2。把错误关键字放google里查
    3。把错误信息发给sun,寻求技术支持

技术试验:
1。看相关资料
2。将技术关键字放chinaunix中查,看是否有现成的步骤或解决方法
3。找产品技术支持

论坛徽章:
0
18 [报告]
发表于 2003-07-17 16:40 |只看该作者

讨论,你对于碰到的SOLARIS问题是如何解决的?

发这个帖子有4个目的

1。恭喜laoxia,diag成为Solaris斑竹
2。挽留MMMMN,我在论坛里的2位老师之一
3。感谢RACE,段誉把我加入了FAQ的整理团队中
4。技术交流

我是一个售后工程师,下面是我的一些心得,以此来回应RACE置顶的帖子。

软件的维护我不懂,我只接触硬件和系统
我认为,对于一个高性能设备,主要是指UNIX平台的高性能计算机。所有的这些设备,我通常都是按如下方式进行维护的。
一。电气通路
不管什么样的设备,没有电就不能工作。一般计算机设备,都会有一个电源模块,不管是冗余,是热插拔还是普通的。他们的主要功能都是将220V交流市电通过滤波,变压转换成+5,-5,+12,-12,+48,-48等直流供电。一个设备不工作,不启动。如果没有特殊必须怀疑的,应该首先检查该设备的供电通路,到底是谁为其供电,到底是电流是如何流动的。按通路倒叙检查供电,只要通过一块简单的万用表就可以检查出来问题出在什么地方了。这里主要要说的是,检查电气应千万注意自身安全,因为38V为人身可承受极限电压,超过了就有可能出人命。通常较高端的计算机设备,都会在供电电源的前端增加一个漏电变压器。这可以确保维护者不会因为重力不平衡导致触摸某个关键电气部件而触电。但即使如此,也需要小心,因为这个变压器虽然承受的电流很大,却也会出现损坏的情况。

作为一个规范的设备维护工程师,应首要记住以下几点:
1。一切设备启动的源头是220V市电电源,应确保零火电压稳定。关键确保没有电涌产生。将插头插入不产生火花。
2。尽量确保零地电压不要高于1V。IBM规定为0V,但这很难做到。SUN没有规定,或者我没有看到,但如果高于10V,我认为就不能在接插设备了。
3。防静电手环是必须准备的,有些机房因为装修,设备位置,或者维护者的衣服材料不当,会产生较强静电,这个静电是烧毁设备的最大杀手,切记。

二。数据通路
我这里指的是数据的流向,数据流的载体包括数据存储设备,SCSI,IDE,FIBER,NET的线缆,还有数据处理设备等。但通常为可单元划分的那些模块。数据的道路不通,首要考虑就是设置,连接正确与否。沿着数据的流动,就可以查到是哪个设备没有接收到数据或者没有发起数据流。这与操作系统,软件有着直接的联系。

三。控制通路
例如磁带库,磁盘阵列等设备,除了数据,电气通路外,还单独存在一个脱机情况下控制设备的控制通路。他们专门在各个模块之间进行通讯。通讯依赖于一些热敏,光敏,磁,机械联动,弹簧锁等传感器,还有一些控制片,控制模块等。一旦某个设备在机械上没有安装成功,或者有松动,脱钩的迹象。传感器没有发现设备,这个外部设备就根据传感器认为设备没有加入,而不与该设备通讯,造成设备故障。或者传感器坏掉了,或某控制系统出了故障,就会造成外部设备不能正确的感觉这个设备。比如有时候磁带库的某个磁带机或者磁带已经从带库中移走了,但是带库仍然坚持该设备存在,只是通讯不正常,这通常是传感器或传感器的控制部分出了问题。

对于高性能设备的维护,出于尊重用户投资,出于保护本公司声誉,出于维护自己的利益,也应该尽量小心。多阅读文档,有些公司是没有实验机会的,但是如果设备的安装,使用,维护的文档看的很熟,那么拿过设备来也可以很快的进入角色。否则经常就会出现心慌意乱,无从下手的感觉。

下面说几个我觉得很难的问题,但是我最终解决了。提醒一下大家,我自己也再次警觉一下。

1。散热
过去散热分为风冷,水冷,油冷三种。水冷我见过一个,油冷没见过,其他都是风冷。风冷散热有2个设备,一个是风扇,一个是散热片。散热片的表面积越大,热量就散失越快,没什么好维护的。风扇就不同了。根据设备对温度的敏感性,很多高性能系统对在设备内都为风扇建立了导风的通路。因为一旦温度超过阀值,就会造成设备因过热保护而停止工作,使得整个系统宕掉。但是,风扇因为工作在现实环境中,很难会发生到达某一时间后,温度就一定能到达阀值的情况。此时设备就会不定期宕机,有可能坚持很久,有可能几秒钟都不肯坚持。或者根本就不启动。遇到这样的情况,首先就应该怀疑散热。我曾经维护过一个Sun的1140,也曾经为此在这里发帖子问过。最后解决的方法是更换了一个机箱里的风扇。该风扇从原先的3800RPM下降到了2200了。风力不足,导致主板温度缓慢升高,最后宕机。机遇这种情况,很多大型设备都给风扇安装了传感,用来监控风扇的转速,一旦过低就会报警。

2。老化
现在计算机内部的电阻,通常是封装在主板上的。由于计算机的长时间工作,电阻的封装空间的限制,导致电阻始终处于某个较高温度之下,是电阻的效率逐渐下降。电压不变,电阻下降,电流升高,热量产生更多,电阻继续下降,电流继续升高。这是一个恶性循环。当然他不是无限的。因为电阻衰弱到某一程度后,就会停止,但是如果电流增强到某一程度,因为我们是现实世界,一旦电压产生了突然变化,电流也就立刻增强而超过阀值,设备就会出问题。但是从新启动后,一切又恢复正常了。如是者,来回往复,整个系统的性能就会不停的下降。这就是老化的其中一个现象。老化还包括电容老化,三极管老化等等等等。老化是最头疼的问题之一,因为没人知道他什么时候会产生故障,就是所谓的故障不能重现。也就很难下手。有些水平很高超的人,通过示波,万用表来量,可能会找到问题的所在。但是这很难,不适用于大多数人。我们主要还是采取让用户先将就用,如果故障频繁了,就采用替换的方法才试。

论坛徽章:
0
19 [报告]
发表于 2003-07-18 08:28 |只看该作者

讨论,你对于碰到的SOLARIS问题是如何解决的?

我是在CHINAUNIX上找高手,再通过CHINAUNIX和GOOGLE去SO一次。再就是根据问题的错误信息。

论坛徽章:
0
20 [报告]
发表于 2003-07-18 08:40 |只看该作者

讨论,你对于碰到的SOLARIS问题是如何解决的?

man
随机手册
技术资料----
ChinaUnix
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP