免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: ciolmy
打印 上一主题 下一主题

网络医院的故事----连载 [复制链接]

论坛徽章:
0
71 [报告]
发表于 2006-10-05 11:40 |只看该作者
[诊断评点]网络应用中的危险因素很多,为了净化网络环境,最起码的要求是不允许在专用网络上运行任何非法程序和盗版软件。本故障由于网管人员私自运行了携带黑客程序的软件,导致网络遭受高流量冲击,几乎近于瘫痪。本黑客程序的发作机理比较隐蔽,先逐个感染局域网内的服务器或工作站,然后逐渐在有数据应用时展开程序进行流量争用,使得网络流量逐渐增高。路由器采用的是DDN和部分ISDN链路,因瓶颈效应的存在更容易被堵塞。所以网络速度表现为局域网速度变慢而广域链路则更慢。由于网络流量分布比较均衡,所以当网管流量报警门限设置比较宽松时,网管系统将不会出现报警信号(该网管没有进行报警门限设置)。而此时网络的总体流量负荷却已经接近于极限值,路由通道更是拥挤不堪。\r\n        \r\n[诊断建议]基准测试是网络定期测试的项目之一,坚持基准测试可以帮助网络维护和管理人员掌握网络的变化趋势和故障出现的方向和规律。比如,基准测试数据显示网络平时的平均流量小于6%,网络工作协议共有15种,那么当流量出现超过6%时就能引起网管人员的注意并即时监测其变化,核对工作协议以确定是否有非法协议运行。以“此案”为例,网络合法的工作协议中并没有cc:mail协议,而此时出现了这种协议,网管人员就必须立即对其进行清理。比照网络基准测试的文档备案资料,本故障本可以立即得到纠正;另外,流量管理是网络管理进行到高级阶段时必须实施的监测和管理手段,对于监测网络应用、跟踪黑客、净化网络协议、查找网络疑难故障、介绍网络运行费用、优化网络结构等都有着非常大的帮助。最后,从预防网络故障的角度出发,加强内部管理,加强用户教育的工作要始终认真坚持并严格执行。

论坛徽章:
0
72 [报告]
发表于 2006-10-05 11:41 |只看该作者
[故事之二一]“水漫金山”,始发现用错光纤接头类型,网络不能联通\r\n        [症状]某新落成的甲级办公大厦,按智能大厦标准设计,其中的计算机综合布线系统包括用超5类线和多模光纤组成的水平及垂直布线系统。全部电缆系统都经过了严格地选用的超5类线现场认证标准进行的验收测试和检验,现正在一边招商一边调试网络及通信系统。智能控制系统的多数信道均采用IP协议,并将原设计的各自独立的17个分系统的控制平台重新设计和整合为同一个快速100Base-Tx以太网,这样大大压缩了网络系统的造价。今天该大厦工程的布线集成商向网络医院求诊,报告其66层的网络联络中断,无法调通,而以前一直工作正常。故障开始于前天上午,第66层的网络系统用户无法与其它楼层的用户联系,也无法通过大厦的帧中继专线与互联网联接。第66层通过一对200米的多模光纤链路与2楼的网络监控中心联接,经过检查发现设在40层的光缆转接箱内的接头被上层楼面的溢水事故所污染,工程人员临时改变光缆走向,将光缆用一段跳线从另一弱电井中绕道联入,采取这样的措施后只增加了约30米的光缆长度和一个光接头。根据估算应该可以联通。原先被污染的光缆接头也已经更换,但网络仍然无法实现联接。

论坛徽章:
0
73 [报告]
发表于 2006-10-05 11:41 |只看该作者
[诊断过程]从故障统计的规律看,一般在网络维护的过程中,维护人员动过或更改过的地方故障出现的概率比较高,此即所谓“动哪儿查哪儿”的故障诊断顺序第一原则。根据报告的故障情况初步判断光缆出问题的可能性比较大,当然也不排除网络设备的问题,比如光卡、交换机等同时出现故障的可能性(今天的检查过程中维护人员也插拔并检查过光卡)。20分钟后,我们抵达目的地,我们将网络测试仪接入2楼网络中心,检查网络工作状态,正常,只是无法发现66楼的用户。电话询问66楼用户,回答说平时虽然能联通,但也不是十分通畅。有时速度会很慢,偶尔还会出现连接中断的现象。我们将电缆测试仪换上多模光纤测试模块,主机移动到66楼,远端机留在2楼对这对光缆链路进行测试。A光缆测试衰减值为3.7dB,B光缆衰减为7.8分贝,虽然B光缆的衰减相当大,但因为还在一般光卡允许的接收灵敏度范围之内,应该不会影响光卡的信号接收,除非光卡正好也有灵敏度方面的问题。为了简化诊断程序,我们用邻近的光卡做替换试验,将2楼和66楼的光卡同时更换,然后从66楼用网络故障一点通(One Touch)接入网络进行测试,结果是可以发现本楼层\r\n的用户,但还是无法找到其它楼层的任何用户。这说明故障仍然在光缆链路,或者是交换机的光卡接口有问题。为了确认故障的准确地点,我们从另一弱电井倒换出一对光缆代替这对光缆,并用跳线将原来的光卡连接起来,当光卡插入交换机后网络立即恢复正常。这说明交换机及其光卡和光卡接口是正常的。重点还是要检查这对光缆链路。重新测试的结果与上此测试的结果基本一致,我们将测试方向颠倒一下再度进行测试,结果发现B光缆的衰减量为27dB,A光缆仍然为3.7dB。继续对B光缆进行分段测试,44楼以下的一段光缆测试结果为2.3dB,基本可用。跳线衰减量测试1.28dB,基本可用。44楼和66楼之间的光缆测试衰减为20dB,严重超差。说明这条链路有比较严重的问题。\r\n        拧下44楼的光卡接头,用放大镜仔细观察,光缆芯线直径圆润,与其它接头并无二至。随后检查66楼光缆接头,发现其芯线直径比其它接头的芯线直径要小许多。可以判定,此接头很可能为单模光缆接头。将这对光纤的接收和发射位置对调使用,插入光卡后网络恢复正常工作。

论坛徽章:
0
74 [报告]
发表于 2006-10-05 11:42 |只看该作者
[诊断评点]光缆链路在标准化的认证测试过程中按要求进行双向测试,本大厦的光缆布线系统全都只做了单向测试。当遇有光纤直径不匹配、光纤气泡或接头质量差等情况时,光纤在两个方向上的衰减量会有差异。一般来讲,差异不会超过10%。此次故障的光纤双向测试衰减量差值达20dB,故怀疑光纤直径存在严重的不匹配,且出现在接头处的可能性最大,所以我们对44楼和66楼之间的光卡接头进行检查。结果发现了误用的单模光纤接头。单模光纤的芯线直径为9微米左右,对1310微米和1550微米的单模激光衰减量较小。多模光纤芯线直径为62.5微米左右,在计算机网络中多用于850微米的多模光信号传输。单模光纤链路和多模光纤链路由于传输的光模式、优势波长和衰减机理完全不同,不可以混用。本故障的接头当从正向测试B链路的衰减量时,由于单模光纤一端与多模光纤熔接,不少多模光能量仍可以进入单模光纤,并从接头处的小直径处(单模9微米)全部射入大直径(多模62.5微米)的多模光卡的光接头内,表现为衰减量比正常链路大(实测为7.8dB),但信号基本可用。当从逆向进行测试时,大直径的多模光能量在接头处被小接头的单模光纤大部分阻断,表现为逆向衰减量很大,实测值为27dB。由于光卡的接收灵敏度较高,衰减余量大,故“水漫金山”事件之前,光卡接收到的信号能量处在光卡灵敏度的边缘,逆向信号勉强可以使用,此时的网络表现不稳定,有时速度很慢,有时偶尔中断(受气温和空气压力的波动影响)。“水漫金山”事件后,由于在重新处理链路时增加了一段30米长的跳线和一个光接头,致使光卡的接收能量超出边缘值,网络连接因此中断。\r\n多模光卡都是成对单向使用光纤,即光卡发射用一根光纤,接收用另一根光纤,所以当对调接收和发射的光纤时,光卡接收和发射的信号都利用了单向衰减量小的方向,接收到的光信号能量较强,网络可以恢复正常运行。\r\n本故障如果利用光时域反射计(OTDR)可以直接从仪器的屏幕上观察到回波曲线的不连续状态,有经验的测试者一般可以立即判定是链路混用的问题。

论坛徽章:
0
75 [报告]
发表于 2006-10-05 11:42 |只看该作者
[诊断建议]首先,尽快更换误用的单模接头。第二,根据标准化施工施工和验收要求对所有光纤链路都要进行双向测试。第三,我们发现该大厦的设计图纸上无光纤链路的衰减量计算值标注,只标注了光纤的设计长度。由于实测的光纤衰减量无论是表现正常的链路或是不正常的链路其结果都比设计值偏高,估计存在使用劣质光纤和劣质接头的情况,且不排除用多段零碎光纤拼接链路的可能性。所以建议业主要求集成商检查所有实际的接头和熔接头数量。

论坛徽章:
0
76 [报告]
发表于 2006-10-05 11:42 |只看该作者
[故事之二十二]网卡故障,用户变“狂人”,网络运行速度变慢\r\n        \r\n[症状]今天的病人是某大型寻呼公司,刚更新了高速寻呼设备,增加了信息服务的业务内容,并对计算机网络进行了比较大的扩容和调整。调试工程一直比较顺利,但好景不长,刚正式开通工作一天就出现严重问题。技术中心严经理报告的故障现象如下:最初是在工作台上偶尔观察到在键入寻呼的用户数据时键盘更新出现等待现象,后来愈来愈严重,从刚开始的一秒钟左右到现在的10秒钟以上。网络服务速度很快就变得非常缓慢,寻呼业务员在操作台上键入数据时,屏幕显示有时甚至要等待1分钟以上才会更新。基本上在10秒钟和1分钟之间波动。在业务高峰时处理寻呼的速度赶不上要求,用户排队现象严重。设备管理人员查看过集线器、交换机,发现他们的指示灯一直闪烁不停,好象比以前印象中的快了不少,怀疑网络流量可能很高。用软件查看主服务器的CPU资源利用率,达到93%。查看了5个工作台上的计算机CPU,显示资源利用率85%以上。时逢4月26日,怀疑是不是有病毒在做崇。用了三种杀毒软件先后进行扫毒,之后发现故障现象依旧。由于寻呼中心机房没有配备网络维护的硬件工具,工程承包商对此现象更是手足无措,故向网络医院挂急诊求治。

论坛徽章:
0
77 [报告]
发表于 2006-10-05 11:42 |只看该作者
[诊断过程]30分钟后我们来到现场。正如严经理所言,从持续闪烁的指示灯上就可以观察到网络流量肯定很高。该网络采用NT作平台,工作协议为IP,用网络测试仪F683接入网络的任意一个接口进行测试,结果如下:网络流量平均为57%~83%,偏高较多。碰撞率4.9%~5.3%,广播42%~74%,错误2%~3%。网络的正常流量波动为8.1%~0.7%。很明显,网络的非法数据帧占据了大量的网络带宽。主要的非法帧为高流量的广播帧,其次是错误帧。为了查明广播帧和错误帧的来源,我们先启动网络测试仪的错误查找统计测试功能,2秒钟后显示错误类型为超长帧、帧不全、FCS错误帧以及少量短帧。按下网络测试仪的错误统计“Error Statistic”软键,查看上述各项错误的来源,均显示错误来自为一台取名为“Cindy”的主服务器;为查找超量广播的来源,按下网络测试仪的“Top Sender”测试软键,显示广播帧超量发送者同样也是“Cindy”这台服务器。\r\n另外,“Cindy”还发送约0.8%左右的正常IP帧。将“Cindy”从网上卸下,各单机故障立即消失。为了确认是网卡本身的问题还是网卡驱动程序的问题,将“Cindy”的网卡驱动程序重新安装了一遍,之后启动机器运行,故障现象出现。说明网卡本身故障的可能性最大。更换网卡后网络恢复正常。

论坛徽章:
0
78 [报告]
发表于 2006-10-05 11:42 |只看该作者
[诊断评点]网络平均流量是决定网络运行速度的一个重要条件。在以太网中,瞬间流量可以超过90%,很适合突发流量的传输。当网络的平均流量在40%以下时,网络运行速度一般不会主管感觉变慢。本故障中,服务器“Cindy”由于网卡故障,除了发送一些正常IP包外(约0.8%),还发送约2%~3%的错误帧和主要影响网络带宽的超量广播帧(42%~74%,造成用户键盘更新在10秒~1分钟之间波动),这里对网络影响最大的是超量广播帧。广播帧是网络设备定期不定期进行网络联络的一种手段,但过量的广播会占用不必要的带宽。一般来讲,网卡损坏以后,有多种表现类型,常见的一种表现是“安静型”,此时网卡不向网络发送任何数据,机器无法上网。另一种常见的类型是“狂躁型”,其表现颇象一个喝醉酒闹事的醉汉,嘴里喋喋不休。该网卡除了发送正常数据以外,还发送大量非法帧、错误帧。本故障发送的是大量的广播帧。广播帧可以穿过网段中的桥和交换机,所以整个网段上的设备通道都会被广播帧占用带宽,即便是不向网络发送或接收数据的站点也会因为接收大量的广播帧而导致站点的网卡向宿主机的CPU频繁地申请中断,CPU资源利用率达到了85%。这样,网络上的站点处理本机应用程序的速度会受较大影响。有趣的是,很多用户也是在把机器从网络上退出时才发现站点的故障与网络有关。而之前却一直以为是工作站的问题,且最容易被误判为病毒发作。许多网管和网络维护人员通常的做法和遭遇都会象下面所描述的“故事”:首先,启用多种杀毒软件进行查杀毒操作,无效。然后,把所有工作站格式化,重新安装其操作系统和应用软件。但由于问题出在服务器,所以仍然不见效。最后,不得不将所有机器(当然也包括服务器)格式化以后重新安装系统平台及应用软件。如果是服务器网卡驱动程序安装错误(比如安装的驱动程序版本不符合,虽然能工作但不顺畅),则故事可能因重新安装了正确的驱动程序而到此结束。如果是网卡“狂躁型”故障,则故事还会延续很长时间。因为“狂躁型”病人不理会网络的游戏规则而向网络发送大量非法帧流量,占用带宽,影响所有网络成员。\r\n        不幸的是,狂躁型病人在网络故障统计中所占的比例不是很低!

论坛徽章:
0
79 [报告]
发表于 2006-10-05 11:42 |只看该作者
[诊断建议] “网络健康测试”和“网络基准测试”都是为了实时和长时间监测网络流量的变化规律,帮助维护人员掌握网络应用和流量变化的规律,即时发现和处理网络故障。“网络维护方案”中建议健康测试是每日必须测试的内容,要求实时监测网络的流量/利用率、碰撞、广播、错误等基本健康参数,也可以简化监测程序,选择在每天网络最繁忙的一段时间进行测试。这样网络的异常可以被立即发现(因为许多网络故障在网络流量低、比较清闲时并不表现或明显地表现出来)。当然,比较稳妥的方法是对网络进行认证测试。除了布线系统外还对工作的网络进行认证测试。以便在网络投入正常运行前就发现并根除网络存在的故障和潜在的性能问题,最大程度地优化网络的性能。

论坛徽章:
0
80 [报告]
发表于 2006-10-05 11:43 |只看该作者
[故事之二十三]PC机网卡故障,攻击服务器,速度下降\r\n        \r\n[症状]今天是五一节假期的最后一天,某大型铁路枢纽站来电,报告其售票系统出现很大问题,最先是枢纽所在局本地的售票系统报告售票速度比平时慢几倍,车站售票厅前已经排起了长队,乘客意见很大。其它市内预售处也受到影响,出票速度也很慢。随后,是各联网局均有报告网络的票务查询速度慢,邻近局报告更频繁一些。维护人员认为是中心票务服务器有问题,随即决定系统暂停业务并将备份服务器很快启动投入系统运行,非但未能见效,反而速度更加缓慢。急招该系统的工程集成商立刻处理系统问题,观察中心票务服务器CPU资源利用率达到了97%,基本上是满负荷运行,其它服务器和工作站等网上设备均为发现问题。短时间断开预售点和其它路局的连接路由,故障现象依旧。系统集成商随即将票务中心机房内的其它网络设备如交换机、集线器、网关等全部更换,启动系统故障依旧。故障累计已经近7小时,路局承受的压力越来越大,已经开始准备紧急启动本地人工售票预案。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP