免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: mazu
打印 上一主题 下一主题

【吐血推荐】网络医院的故事----连载(ZT)转载结束,共35篇 [复制链接]

论坛徽章:
0
21 [报告]
发表于 2004-03-22 10:41 |只看该作者

【吐血推荐】网络医院的故事----连载(ZT)转载结束,共35篇

论坛徽章:
0
22 [报告]
发表于 2004-03-22 10:53 |只看该作者

【吐血推荐】网络医院的故事----连载(ZT)转载结束,共35篇

很好的文章,请继续的发,谢谢你的奉献

论坛徽章:
1
荣誉版主
日期:2011-11-23 16:44:17
23 [报告]
发表于 2004-03-22 13:56 |只看该作者

【吐血推荐】网络医院的故事----连载(ZT)转载结束,共35篇

一共38集呢,我会陆续贴出来。。。。谢谢大家的捧场

论坛徽章:
0
24 [报告]
发表于 2004-03-22 15:26 |只看该作者

【吐血推荐】网络医院的故事----连载(ZT)转载结束,共35篇

真长了不少见识,好!

论坛徽章:
0
25 [报告]
发表于 2004-03-22 16:20 |只看该作者

【吐血推荐】网络医院的故事----连载(ZT)转载结束,共35篇

好东西大家

论坛徽章:
0
26 [报告]
发表于 2004-03-22 17:05 |只看该作者

【吐血推荐】网络医院的故事----连载(ZT)转载结束,共35篇

好!!!好好参考下,决不辜负你的努力!

论坛徽章:
0
27 [报告]
发表于 2004-03-22 23:16 |只看该作者

【吐血推荐】网络医院的故事----连载(ZT)转载结束,共35篇

好贴,顶!

论坛徽章:
1
荣誉版主
日期:2011-11-23 16:44:17
28 [报告]
发表于 2004-03-23 08:57 |只看该作者

【吐血推荐】网络医院的故事----连载(ZT)转载结束,共35篇

[故事之八]插头故障
        [症状]某电信移动计费中心,用户反映,近三个月移动用户总数增加了近30%,但移动计费的营业收入却只增加了5%,怀疑计费系统是不是有问题。从计费服务器查看收费记录,没有发现什么问题。检查计费服务器软件,工作正常。从路由器另一侧的财务服务器检查,内部的财务服务器显示的计费数据与计费服务器的数据没有差错。查找电话局局端记录,发现记录次数超出移动计费的记录次数。最后作实地测试,用移动电话拨打50次,记录次数45次,记录时间与实际通话时间一致的次数为30次。历时一周,还不能确定故障位置。
       
[诊断过程]计费服务器连接到一台16端口交换机Bay28115的第一插槽5号端口。第6号端口下挂一个100Mbps的以太网,网管机HP Open View也设置在此。打开网管系统,准备观察5号端口的工作情况,这时才发现无法打开5号端口的工作表数据记录。询问网络管理人员,告知3个月前因交换机故障自行更换过备用的Bay28115交换机,更换后系统工作很正常。查看维护工作记录登记和日志,没有任何关于Bay18115的维护说明,也没有关于网络工作参数的记录(记录上显示的还是系统开通时的原始数据)。询问网管人员为何不设置并打开交换机工作表的Mib。答曰网管系统是一年前安装的,平时只用来看看系统设备是否连接以及是否有报警信号,更多的功能也不会用。前任网络管理员已调任工作岗位,实际上现在已没有人会使用和设置网管系统。由于系统开通是有系统承包商负责的,自行更换交换机后没有发现什么问题,也没再 仔细检查。用网络测试仪的协议对话分析功能从网管机所在网段观察计费服务器的工作情况,发现服务器对约有1/3的数据包没有回应。为了不影响系统工作,于凌晨3:00在移动用户使用率底的时候用F683网络测试仪模拟服务器测试5号端口,显示链路工作于10Mbps速率(原始记录显示此端口的速度应该是100Mbps)。由于交换机没有启动SNMP支持功能,故临时在5号端口安装了一只10Mbps的集线器与服务器连接,用网络测试仪从这个集线器的任意端口对计费服务器发送数据并观察服务器数据流工作情况。发现大量碰撞和错误的FCS帧,当流量为30%时,碰撞及错误流量占21%。用电缆测试仪检查服务器电缆,发现靠交换器一端的插头处近端串扰NEXT严重超差。重新更换插头并正确打线,碰撞率下降为0.5%,错误率为0%。去掉临时集线器,重新启动交换器的SNMP功能,从交换器某空闲端口向服务器发送流量,用网管系统观察5号计费服务器端口,当流量为40Mbps时,碰撞率、错误率、广播率等参数均表现优良。服务器自适应恢复为100Mbps链路速度。
        重新进行两组各50次实际拨打测试,计费数据完全正确。可以基本肯定计费功能已全部恢复正常。
       
[诊断评点]本次故障的原因非常简单(一个插头问题),但表现出来的现象则稍微复杂一些。该服务器使用的是一个10/100Mbps的自适应以太网卡,设计链路速度为100Mbps。网管人员在更换交换器时曾不小心将插头拉坏,随即更换了接头,但确留下隐患,不过,维护人员并未及时发现速度方面异常。服务器链路此时的实际工作速度已经下降为10Mbps。新交换器没有启动SNMP支持功能,网管系统也就不能观察计费服务器的端口工作状态。在平时的维护工作中,该计费中心的维护人员基本上不用网管系统定期观测并记录网络的工作参数,当故障出现时就不能觉察到服务器工作速度的变化。有趣的是,如果电缆没有问题,即使将链路速度设置为10Mbps,计费服务器应该还是能正常工作的(计费信息的网络流量一般不高)。在本故障中,计费服务器繁忙时由于碰撞率和错误率太高,服务器无法处理一部分数据包,其中已经被“挂号”的部分数据包将被丢弃,造成计费数据不准确。
       
[诊断建议]布线系统平时要定期轮测(一至两年轮测意义遍)。更换链路元件后一定要对链路进行测试(尤其是100Mbps链路,必须用电缆测试仪测试)。网管系统要指定专人进行维护使用,一般来讲,网管系统可以覆盖约35%左右的网络故障,因此强烈建议重要的网络要安装支持SNMP或RMON协议(多数网络设备都支持SNMP协议,部分支持RMON),启动已有SNMP、RMON等功能的网络设备,否则网管系统将形同虚设。维护工作要求有及时完整的记录,这对提高处理故障的速度是非常必要的。

论坛徽章:
1
荣誉版主
日期:2011-11-23 16:44:17
29 [报告]
发表于 2004-03-23 09:05 |只看该作者

【吐血推荐】网络医院的故事----连载(ZT)转载结束,共35篇

[故事之九]交换机软故障:电路板接触不良

[症状]今天的“病人”是某大型证券公司,在全市有近11个营业网络。以下是该公司信息中心工程师对故障现象的描述:
一段时间以来,整个网络交易时常中断,有时一天内会出现2~3次。起初每次持续的时间很短,没有引起我们的足够重视;我们做过简单的测试,约几秒钟至十几秒钟不等,规律性不太明显,一般开市时都正常。随后一段时间“病情”不断加重,发病频率不断增加。好几个“资深”用户曾向老总抱怨,近来碰到几次原本估计十拿九稳的网上交易不能及时成交:“当我按下交易确认键时,计算机对此却没有任何响应,也不知道成交了没有,只好再等上一会儿。我给伙伴们介绍的绝招是,过半分钟再试,计算机就会显示成交。不是每次都这样灵光,但以前极少遇到这种事,而最近一周已经遇到好几次了,好象一天比一天厉害,搞得我们的神经紧张兮兮的。”
昨天15:26,临近下午闭市时,故障现象再次出现:行情数据的显示和更新都正常,就是普遍不响应交易命令(但不是绝对不响应,其中仍有少数交易能成交),11个子交易网络均反映受阻。网管人员初步判断是中心网络的问题,立即在电脑科计算中心检查交易服务器,CPU利用率、协议交换及包交换等指示正常,试验重新登录服务器和Ping测试也正常。时间到,转为休市状态。休市后保持交易网络继续运行,启动模拟交易功能模块,进入故障诊断作业程序。在计算中心LAN内连续作了40笔模拟交易均成功。同时在3个子交易网处作对内和对外的模拟交易,对内100%,对外成功率约15%左右。基本上可以肯定故障在网络本身。保持模拟交易连续工作状态,启用计算中心的网管系统查看网络,服务器工作状况指示正常。检查与其它11个营业网络的联系的交换器端口,有流量指示,但时有停顿。对其作Ping测试,偶尔会有中断(约有3%Ping测试不响应)。用DSP-100电
缆分析仪检查与交换机连接的端口电缆链路(服务器、网管机均在此网段内),没有问题。这说明服务器所在网段是正常的,怀疑是交换机端口损坏。将与服务器网段的电缆改插在别的交换器端口并作相应设置,网络恢复正常工作,故障消失,确认为交换机端口损坏,心想总算可以松一口气了。不料,今日开市后不久故障依旧如期“光临”。

[诊断过程]晚上19:50我们赶到该证券公司所在地,立即启动系统,自检显示正常。然后启动模拟交易系统,观察与子交易网络的通信情况,表现正常。网络拓扑图上显示各子交易网络是用DDN专线通过路由器与计算中心本地网段的交换器联系起来。打开各Router的工作表Mib检查,无异常和错误记录。逐个检查交换机各端口工作表Mib,亦无异常和错误记录。交易服务器和网管机同在一个网段,通过一个智能型集线器连接到交换机端口。打开集线器工作表,记录数据正常。将F683网络测试仪接入集线器端口进行连续监测。同时启动测试仪流量发送功能,抽查3个子网的通道性能,并做体能测试,持续流量承受能力为98%,说明网络很正常且表现相当优秀。
本故障属于软故障。可以由网络设备、应用软件、供电设备、外来干扰等故障引起。由于故障时检查过本地网络,登录服务器和进行Ping测试也是正常的,所以可基本判定集线器下挂网段是正常的。为了定位网络故障,在某个选定的远端子交易网络处和网管中心同时用F683网络测试仪双向发送流量作通道性能测试和故障监测,并作ICMP Ping连续测试和ICMP监测。为便于观察和比较,流量发送的帧长都设定为100字节,流量总和约30%(各占15%约10K左右)。在21:30故障如期出现。ICMP Ping测试出现断层,立即打开交换机和路由器的工作表,记录的流量等数据出现停顿或断续,并显示出现FCS帧错误。从远端打开相应工作表的结果是:路由器接转流量为17%,交换机接转流量为2%,ICMP Ping断层损失90%。ICMP监测显示不可达97%左右。从中心打开路由器和交换机工作表Mibs,接转流量均为0.5%~0.9%。这表明远端数据可以顺利到达路由器但不能在交换机端口顺利进行交换。最后用F43电源谐波测试仪测试UPS电源参数,验证UPS电源合格。可以判定确实是交换机的问题。由于网管中心没有备用的交换机,已知原交换机供应商已经停产该型号产品,所以只能考虑更换新型交换机。为了应付明天开市,试着确定一个好的代用端口,这样可以将服务器网段临时连接入网,防止明日开市遇到不测事件发生。
查看交换机与路由器一侧的连接端口,发现工作表是正常的。因此只需要代换与服务器连接的端口即可,询问网管工程师上次故障时曾经更换过的是那个端口,答曰第4插槽上的空闲端口都试过。改用第5插槽上仅剩下的一个端口试验连接,网络恢复正常。由于故障时隐时现,故怀疑第4插槽存在软故障。重新将端口还原为第4插槽,故障已经消失。为重复故障现象,试着用改锥木柄敲击第4插槽,故障出现,再次连续敲击,则故障时隐时现。取下第4插槽的电路板观察,发现插针有较厚的氧化层(黑色氧化物)。用0000#细砂纸打磨插针并用酒精清洗,重新安装好电路板,故障彻底消除,并且不再随着敲击电路板而时隐时现。为保险起见,顺便检查其它7个插槽的电路板,插针均没有黑色氧化痕迹,证明只有4号插槽的插针在生产时使用了一组不合格的接插元件。交换机应属于不合格产品。暂时确定用第5号插槽的空余端口作代用端口,并要求网络不停机持续运行直到第二天休市为止,进行连续观察。

[诊断评点]网络故障分硬件故障和软件故障,有时是软硬件相结合的故障。某些情况下从网络表现出的故障现象不能立即确定是那一类故障。本故障是由硬件设备接触不良引起的故障,原因是计算中心用作分隔网段的交换机其第4插槽的插针接触不良,使得与交换机第4插槽有关的接口工作都不太正常,出现断续和停顿。设备在刚启动的一段时间内,机器的元器件温度较低,工作正常,随着元器件温度的升高,器件受热膨胀,出现接触不良的故障,所以每天开市后的一段时间网络一般都不出问题。多次重复这一过程故障现象就会由较低频率的时隐时现转为较高频率的时隐时现,故障每此持续时间也会延长,最终可能会演变为持续的硬故障现象(硬故障在故障诊断时反而容易些!)。当网络维护人员作停机检查并更换端口后由于元器件温度降低的关系,网络也会正常工作一段时间。这往往给人一种错觉,以为故障排除了,但第二天开市一段时间后故障又会重新出现。
由于本故障的故障点在交换机向中心网络的一侧,所以从计算中心不能准确地观察路由器和交换机的工作情况,这样要从网管系统一侧判断故障是很有困难的。若改由从路由器的另一侧对路由器和交换机的工作状况进行实时监测,就会发现流量不均衡的故障现象,加上ICMP Ping测试的损失率为90%以及ICMP监测结果,定位故障就很容易了。由此确定是交换机的问题。
时隐时现的故障我们称作软故障(注意,不是软件故障的含义),可以由软件故障引起,也可以是硬件故障引起,是难度比较高的一类故障。这除了需要网络维护和管理人员具备一定的软硬件故障诊断知识外,对诊断经验的积累也有一定的要求。目前,多数的网络维护和管理人员是由计算机专业的人员来担任,对硬件设备的诊断还比较地不熟悉。

[诊断建议]如何选择合适的检测工具对故障监测点进行测试是很有讲究的。许多故障需要进行多点测试才能定位,这时非常需要的是便携式的测试工具。网络故障的诊断发展方向是测试工具的网络化和故障诊断的网络化。一般的网络设备和网上设备只支持有限的网管功能,所以监测网络性能和快速定位网络故障需要一些必要的固定测试工具(如固定探头、网管系统等)和移动测试工具(如网络测试仪、流量分析仪等)。对重要的网络设备要准备适当的备用设备,至少要留足备用通道。网络关键设备不一定要选用最昂贵和功能最齐全的设备,但一定要选用应用比较成熟,可靠性高、用户数量大的设备,这样技术支持的难度就会降低。如果将关键网络设备的维护工作交给集成商或厂商来做,那用户就得准备将网络的命运完全交给集成商或厂商来控制,而这是非常危险的。因此对人员进行适当的培训并配备合适的、易懂易用的工具是做好网络维护工作的必要条件之一。尤其对占维护队伍总数90%以上的初级和中级网络维护技术人员和工程人员,这一点更具有实际意义,因为操作复杂、参数难懂难记、培训时间长、价格昂贵的工具对他们来说是豪无实际意义的。

论坛徽章:
0
30 [报告]
发表于 2004-03-23 09:20 |只看该作者

【吐血推荐】网络医院的故事----连载(ZT)转载结束,共35篇

JJ,  辛苦啦,

先喝口水吧,

      
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP