免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: mazu
打印 上一主题 下一主题

【吐血推荐】网络医院的故事----连载(ZT)转载结束,共35篇 [复制链接]

论坛徽章:
0
51 [报告]
发表于 2004-03-25 14:20 |只看该作者

【吐血推荐】网络医院的故事----连载(ZT)转载结束,共35篇

长了不少见识.望继续

论坛徽章:
1
荣誉版主
日期:2011-11-23 16:44:17
52 [报告]
发表于 2004-03-25 18:56 |只看该作者

【吐血推荐】网络医院的故事----连载(ZT)转载结束,共35篇

[故事之十二]路由器工作不稳定,自生垃圾太多,通道受阻

        [症状]今天的“病人”很特殊,是某电力信息部门的主管。称其特殊是是因为该部门主管曾多次打电话要求网络医院为期诊断广域连接的问题,但每次都会在15分钟内来电通知“故障已排除”。询问其排除方法,回答基本上都是“Reset”整个系统。由于该用户只安装了一套价格不菲的“网管系统”来管理整个网络,没有配备其它用于网络维护的工具,网络医院为此曾建议专门为其做一次全面的体检,对该信息网络的各个布线系统、网络设备、工作协议、负荷均衡性、负荷能力、错误帧耐受能力等做详细检测,但一直因各种原因未实施。今天的症状还是老毛病:某电厂的信息网络与电力信息中心的网络联系不畅,数据传输速度不稳定,连接时断时续,有所不同的是系统Reset后仍然不起作用。
       
[诊断过程]该网络下辖9个电厂子网络,一个子网络用X.25连接,8子网络个从去年起陆续更换为DDN链路。其中一条专线DDN线路(7#线路)偶尔会出现连接中断的现象,恢复系统时必须将路由器Reset才能重新连接。今天按老经验,故障现象出现时重复以往的操作程序却发现此办法不管用了,系统仍然不能连接。直到我们赶到现场时系统还未能恢复正常。将网络测试仪接入信息中心网络,可以看到与各电厂子网连接的路由器,查看7#路由器工作表,有少许传输延迟错误记录,通道流量30秒记录为7帧,其它线路的30秒记录则从170帧~2700帧不等,明显高于7#线路;对7#子网络做通道测试,最高为2kbps,远低于64kbps的线路最高速率,说明DDN链路传输正常数据的能力很弱。由于该路由器支持的错误识别和统计功能有限,用网管系统不能查看更详细的统计信息,故改用F69x流量分析仪串入WAN通道进行测试,发现少量未定义帧类型,其记录标识不稳定。也就是说,通道上有一些是网络不需要的且不稳定的比特流。这些比特流不便于分类,流量不稳定,时高时低,表明网络可能存在“垃圾”,且比较象窜入系统的干扰信号。这些垃圾严重影响正常数据的交换和传输。
为了验证其影响程度,我们用F683网络测试仪向远端子网络作ICMP Ping测试,损失率为10%,不算高,作ICMP Monitor测试,目标不可达50%,重定向20%,拥塞85%,这说明路由通道存在很严重的问题。从中心网络的主网段检测没有发现网络上有干扰比特流,测试为7#路由器供电的UPS输入输出电源谐波含量,显示正常,由此基本上可以排除垃圾比特来自于网外窜入干扰比特的可能性。将其它路由器与7#路由器掉换,重新设置后启动系统,故障依旧。由于垃圾比特数量少,不可能引发网络通道传输速率性能大幅度降低,因此推断“垃圾比特”极有可能是来自于专线DDN链路或远端子网络的路由器。本地信息中心没有配备测试DDN链路的工具,在没有足够证据怀疑就是DDN链路的问题(DDN链路系租用的电信线路)的时候,我们只能先从远端子网络查起。远端子网络没有任何网络维护工具,从中心网络的网管系统又看不到远端路由器存在异常数据,我们只能立即启程赶往7#电厂所在地。4小时后,我们抵达目的地并开始测试。先检测7#子网的工作状态,LAN内部数据交换正常,没有垃圾比特流存在。打开路由器工作表,其中的错误数据记录有少量帧延迟数据包,WAN连接数据交换故障现象依旧,网络测试仪测试的通道测试数据基本与中心网络相同。用F69x流量测试仪测试通道流量,发现大量“垃圾比特”,数量为55kbps,其中35%指示数据来自远端路由器。由此可以断定故障是由远端路由器或靠近路由器一段的DDN链路(可能性很小)造成。更换从信息中心带来的备用路由器后,故障消失。
       
[诊断评点]WAN通道故障可由多种原因造成。一般来讲,通道测试不合格就表明含路由器在内的WAN链路有问题。由于WAN链路可以由多种传输介质及传输协议组成,比如ATM、DDN、ISDN、Frame Relay、SDH等等,所以针对不同链路类型严格地讲要用专门的测试工具进行测试。
但因为一般用户都不配备WAN测试工具(部分集成商有相应配置),所以用户或系统集成商只能先用排除法首先确定是否是路由器(含路由器)以内的网络问题,然后,才能向WAN链路运营商提出检查服务通道的要求。本故障是由远端路由器故障造成,路由器除了传送正常数据外还向WAN链路方向发送大量垃圾比特,从而占用通道流量,严重影响正常数据传输。早期路由器工作虽然不稳定,但每次故障时间不长,所以在“15分钟”内故障能自愈(此类故障我们称其为软故障)。本次故障由软故障转变为不能自愈的“硬故障”,反而为排除故障提供了有利条件。由于多数数据被DDN专线链路给“过滤”掉了,且远端路由器对错误数据的统计识别功能有限,所以从信息中心观测到的垃圾比特比较少,观察远端路由器也不能发现详细的错误统计。但ICMP Ping测试、ICMP Monitor等测试错误数据较大,与远端测试数据基本相等,同时从远端测试到的垃圾比特流很大(“F69x流量分析仪+F68x网络测试仪组合”具有极强的检测功能,支持完整的错误识别和统计功能,这也是为什么我们认为DDN链路出故障的可能性小的原因),所以断定故障出在远端路由器。其实,如果远端子网络配备有合适的测试工具的话,本故障在很短的时间内就可以排除。
       
[诊断建议]工欲善其事,必先利其器。大型网络配置一些备用网络设备是必要的,还需要按网络规模和使用级别、维护人员的技术等级配备相应的维护工具,并建立一整套测试维护的方案和规定,这样才能保证网络的可靠性,并保证能及时处理各种网络故障。
因为一般的网络设备都具备部分网管功能,能统计并识别30%~40%左右的网络错误和故障信息,所以,有时这给人一种错觉:认为只要具备网管功能,就能发现网络的一切故障。其实,进一步的性能测试需要专用工具,要求这类工具不光能能识别各种正常的工作协议,还要能识别形形色色的“网上垃圾”。一般来讲,除了配备相应的LAN测试工具外,由于WAN链路的测试维护由WAN链路运营商(比如电信公司)负责,但网络用户和系统集成商也需要配备一定数量的WAN测试工具以备性能评测、故障救急以及定期测试的需要。

论坛徽章:
1
荣誉版主
日期:2011-11-23 16:44:17
53 [报告]
发表于 2004-03-25 19:01 |只看该作者

【吐血推荐】网络医院的故事----连载(ZT)转载结束,共35篇

[故事之十三]PC机开关电源故障,导致网卡工作不正常,干扰系统运行

        [症状]今天的病人很有趣,是某电信局网管中心,十万火急地要求网络医院帮助立即解决燃眉之急。放下电话我们立即启程奔往“目标”所在地。为提高效率,途中继续与该中心主任进行通讯联络了解“病情”。网管中心所在地为一地区中心,下辖两个县级市和7个县,安装在地区网管中心的网管系统在两个月前发出了报警信号,提示某县级市的网络有异常情况。一个月前省局工作组在检查工作时发现该县级市不在网管中心的网络拓扑显示图上,询问原因,当时答曰:今天正好赶上该县级市进行工程施工,所以将网络管理功能暂时关闭,故在网管机显示器上的拓扑图中无该县级市的网络图标。现在所谓“十万火急”的问题即是:明天工作组将要进行第二次验收检查,而网管系统是此次的重点检查项目之一,不可能再用网络工程在施工为由回避检查该子网的状况。因为网络拓扑图上的报警信息仍在,该县级市的问题也一直没有彻底解决(县级市子网却一直报告网络正常,速度很快!对定位故障一直不太主动),明日检查恐怕无法“过关”,所以才想到引入“紧急外援”。另外需说明的一点是,该故障在初期时隐时现,最近才由飘忽不定演变为高频发作甚至是持续存在的故障现象。
针对这一情况,我们决定先不去地区中心,而是直接转道前往该县级市网管中心,因为从网管指示的范围看问题很可能出在此处。另外,该中心距我们现在的位置比地区中心也更近一些。
       
[诊断过程]半小时后即抵达目的地,立即投入“体检”工作。根据地区网管中心提供的线索,该子网的路由器报告错误数据流量较高,因此直接对该子网进行测试。该子网为用交换机连接的多网段结构,含8个10BaseT和18个100BaseT以太网。用网络测试仪接入网络作自动监测,测试路由器平均错误流量记录为3%,有效流量为7%(广域连接用的是E1链路)。观察交换机自身提示的错误流量系指向第一插槽的3#端口所连接的子网段,其它子网段测试正常。3#子网段为拥有97个工作站的100BaseT以太网网段,DNS服务器、IP服务器和其它主要的业务服务器也挂在该子网段内。测试3#端口的错误计数统计值为25%,随即将F683“网络万用表”(即网络测试仪)移动到3#网段进行监测。结果指示:错误类型为帧校验错误和其它未分类错误(这可以是为无帧头结构的、且非碰撞类型的自由帧、离散帧等),比例分别为27%和11%,其中正常数据包流量为3%。27%的错误统计值与交换机提示的错误统计值基本一致,但还有11%的错误交换机和路由器等不能识别,需要进行定位。断开路由器,错误指标略有降低。这表明故障确实是在该子网,与WAN链路基本无关。由于子网段全部由集线器堆叠而成(8×16Port),故进一步观察网络测试仪F683指示的全部错误定位数据。仪器提示97个工作站和5个服务器均发出类型为FCS帧校验错误的数据包,数量不等。
由于全部工作站均发出FCS帧校验错误帧,所以不认为是所有的工作站网卡都有问题(这种可能性微乎其微),而故障原因很可能是电缆故障(全部电缆打线有误或采用了假冒伪劣电缆)和干扰窜入,如信号干扰、接地干扰、电源干扰、辐射干扰等等(包含在未分类错误类型中)。网管人员认为,由于电缆系统在竣工验收时全部都采用ISO11801标准进行过认证测试,测试工作是网管中心自己承担的,所以应该没有问题。
为快速定位故障,采用通常的“二分法”隔离网段:先将一半的集线器断电,故障依旧,再次将其中一半集线器(即总量的四分之一)断电,故障消失。恢复供电,逐个拔掉该四分之一集线器(两个集线器)上的工作站电缆插头,当拔下6号集线器的7#端口连接的工作站电缆插头时,网络万用表上的错误指示全部消失!
网管人员断定,故障为该工作站之网卡的可能性不大,因为所有的网卡昨天为了迎接检查验收都进行过相邻三组网卡的两两互换试验和三台相邻整机的两两换位试验(该中心没有配备其它的网络测试工具,只好采用这种常用的但经常是有效的所谓“笨办法”)。用网络测试仪对此故障工作站的网卡进行测试,结果其端口的物理参数和工作协议都正常。由此可以大体断定故障出在工作站的其它部位,且基本是干扰类型的错误(属于未分类帧错误类型),不排除线缆引入过量噪声的可能。拔下网卡一侧的电缆插头,故障消失,说明故障不是由电缆噪声引起。靠近该工作站可以闻到一股虽不是十分明显,但却比其它工作站都强烈的电器“烧焦”味(不过,还远未到令机器冒烟的地步)。贴近机器可以听到开关电源中发出的明显的“咝咝”响声。测试工作站与服务器的联络情况,可以看到大量的重发帧和无效帧。更换备用的开关电源,故障排除。
       
[诊断评点]故障原因比较简单,是由单台工作站开关电源故障产生的放电干扰信号窜到网卡输出端口后进入网络所造成。该干扰信号进入网络后占用大量的网络带宽,破坏其它工作站的数据包(即表现为“患者”众多的FCS帧校验错误类型的数据包,其比例随各个工作站实际的正常流量而定);同时该干扰信号还干扰服务器、路由器的工作(重发帧、无效帧等),使得地区中心的网管机屏幕上经常有报警状态提示。由于网络总流量为41%左右(低于40%的平均流量时用户基本不会感到网络变慢),有效流量只有3%,所以县级市子网上的用户虽然自己发出的数据包有很多被破坏而需要重发,同时接收到的数据包有很多已被破坏而需要重收,但是基本上不会感到网络速度有明显的变慢!!
       
[诊断建议]网管系统通常只能发现约30%~40%的网络故障(这取决与被管理设备支持网管的能力和分析、记录网络异常流量的能力)。当有故障报警后,多数情况下需要进一步迅速确定具体的故障位置和故障属性。本次故障不能精确定位并立即排除的原因是多方面的,其一,县级网由于没有网络维护工具,仅靠网络维护人员的经验和从互联网上下载的某些软件来监测自己的网络,这是直接导致了此次故障长时间无法解决的原因。现阶段,按不同的网络维护规模和级别为相应技术水平的网管人员及运行维护人员配置合适的工具到目前为止一直是让网络规划人员、计划单位和网络维护人员自己都搞不清的事情。其二,本次故障本来原因比较简单,但因维护体制方面存在的问题从而导致在故障查找过程中不能密切配合和协作,使得问题长期未能解决。其实,如何比较全面、有效、快速和低成本地实施网络的管理和维护已经有许多成熟的方案和做法。建议网管人员和运行维护人员在忙于快速建网、不断跟踪网络新技术和接触新设备的同时也要抽出部分精力来研究有关网络维护的理论、方法和成熟的方案,力争达到事半功倍的效果。比如,进行完整的网络文档备案工作、定期测试、网络基准测试、性能监测、体能测试、通道测试、协议监测、流量分析等工作就一直是一些大型网络成功地防止严重事故发生的有效而简便的手段。
你知道吗,与你见到的和想象的都不一样,消防队平时更重要的工作并不是救火,而是防火!!网络维护工作亦莫不如是!可以完全相比拟。

论坛徽章:
1
荣誉版主
日期:2011-11-23 16:44:17
54 [报告]
发表于 2004-03-25 19:04 |只看该作者

【吐血推荐】网络医院的故事----连载(ZT)转载结束,共35篇

[故事之十四]线缆连接错误,误用3类插头,致使网络升级到100BaseTX网络后无法上网
       
[症状]某船运公司,为满足日益增长的业务需求,三周前开始网络升级改造工程,按设计规划将10BaseT网络全部升级为100BaseTX以太网,电缆系统不作任何改动。昨天设备安装调试工程全部结束,今天凌晨开始网络割接作业。所有工作站更换100BaseTX以网太网卡,然后分批接入网络。此时工程人员发现一些奇怪现象,比如:有些工作站不能联入网络;有些工作站第一次可以联入网络,过一段时间再次连接则无法进入;有的工作站开始时能联入网络并且工作很正常,但过一段时间后则出现连接断续或数据出错的现象。集成商起先以为是网络平台安装不当,遂将系统平台重新清理并安装了一次,出问题的工作站系统软件和应用软件也进行了重新安装,结果毫无改善。“折腾”了将近一整天,也无法为用户提供服务,业务基本中断。
       
[诊断过程]接到报告后立即赶到“出事地点”,启动包括故障工作站在内的全部系统成员进入网络运行。用F683网络“万用表”对故障网络首先作常规健康测试,一分钟后测试结果如下:网络利用率1.3%(此时员工已经全部下班),碰撞率8%,错误率11%,广播9%。显然网络碰撞率和错误率比较高,打开错误诊断定位功能,显示FCS帧错误、本地碰撞、碎帧等错误计数。这说明网络可能存在网卡工作失常、电缆系统故障、干扰或接地回路等方面的问题。查看具体的FCS错误帧测试结果,发现有许多工作站发出错误的FCS数据帧。一般来将,同时存在多个网卡失效的故障是不大可能的,此时的FCS帧错误多数由电缆问题尤其是有超长链路的电缆问题所引起而不是由网卡所引起。但为慎重起见,我们先随机抽查其中两张网卡进行测试,结果正常,再测试对应的集线器端口,其物理参数结果正常,工作协议匹配无异。由此则可以有把握地确定故障的原因是由电缆系统的问题引起的。
        用户告知,本系统采用的是五类线,共有270台工作站,划分为6个网段,有一个专网路由器和一个公网路由器,升级前一直工作在10BaseT以太网状态,整个系统除了业务一部经常反映网络速度偏慢和偶尔的连接断续外,其它部门使用状况一直很正常(业务一部工作量最大)。今天开始升级工作后部分工作站出现上面提到的各种故障现象,涉及范围大约有近三分之一的工作站。询问用户以前是否对布线系统进行过测试,答曰:“只测试过通断,因为在10BaseT以太网一直能上网,所以布线系统应该不会有问题。”
        为快速定位故障,随机抽取了其中10条有问题的链路进行测试,结果为:一分二插座故障8个,3类线连接模块3个,综合近端串扰PS NEXT参数不合格4个。检测结论:该系统布线工程存在严重问题。
       
[诊断评点]网络布线工程的低劣质量一直是综合布线工程中的一个让人担心的严重问题。目前虽然有成熟的测试标准和方法,但多数用户并不知悉或不要求按标准进行现场认证测试。本系统的电缆故障存在多种原因,均是由于工程设计、施工和验收不规范造成。现分述如下:
        a)一分二插座故障:系由接线错误所至。用户在设计时没有考虑到扩容的需要,所以在新增用户时采用了这种不规范的一分二插座,一个插座可以连接2个PC机。从原理上讲这种用法是基本上可行的,这种接法要求将1-2/3-6两线对联接一台PC机,而将4-5/7-8两线对联接到另一台PC机上。但实际的测试结果却发现线对接法是1-2/3-6和4-5/3-6,用户把3-6线对当成了直接的“共享媒体检测总线”!!在10BaseT网络中这种错误接法可以勉强工作。虽然这会造成全部网络流量中的数据帧会存在不少错误,但由于多数现存网络的利用率(流量)不高,用户是难于察觉布线中程中的此种异常情况的。
100BaseTX网络对阻抗不匹配和近端串扰比较敏感,升级后这种错误接法会导致上网困难;(注:同轴电缆可以用三通匹配连接器将工作站接入网络,此时阻抗仍保持连续,但双绞线不可以直接并联,否则阻抗异常。)
        b)该系统在用户数增加,网线数量不敷使用时网管人员进行了自行扩容,不幸的是他们选用的是假冒的5类插头(实际上是3类插头)。在10BaseT网络3类插头不会影响网络正常运行,但升级后近端串扰NEXT等参数将严重影响工作站与网络连接并经常导致数据出错。不经测试,此3类插头将会长期潜伏而不被发现。
        c)由于采用一分二插座,测试电缆的近端串扰指标时必须考虑其它线对的综合影响(非一分二接头的链路多数只使用两对线的网卡),因此,在数据流量大时,综合近端串扰PS NEXT等参数不合格的链路有可能出错或导致工作站连接困难。
       
[诊断建议]网络投入运行前,布线系统(电缆、光缆)要首先进行认证测试,用户可以选择的标准很多,目前多建议选用TSB-67或ISO11801等国际流行标准进行测试。只测试物理通断后就认
为链路肯定可用,这一认识是非常片面的也是非常有害的。采用一分二插座的链路一定要测试综合近端串扰、综合远端串扰等高端参数,最好选择Cat5n标准进行认证测试。为此,我们建议船运公司将全部布线链路连夜进行测试和清理,并对清理后PS NEXT等高端参数仍不合格的链路进行最后
标记,以便日后进行更换。

论坛徽章:
0
55 [报告]
发表于 2004-03-26 02:30 |只看该作者

【吐血推荐】网络医院的故事----连载(ZT)转载结束,共35篇

绝对是好东西啊!对我们这些初哥有很大的帮助啊!

长见识啦,绝对支持!谢谢!

论坛徽章:
0
56 [报告]
发表于 2004-03-26 09:21 |只看该作者

【吐血推荐】网络医院的故事----连载(ZT)转载结束,共35篇

我已经全收下了.谢了.
瓜尔佳 该用户已被删除
57 [报告]
发表于 2004-03-26 09:59 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
0
58 [报告]
发表于 2004-03-26 11:44 |只看该作者

【吐血推荐】网络医院的故事----连载(ZT)转载结束,共35篇

老大们多发点这样的好东西,谢了!!!

论坛徽章:
0
59 [报告]
发表于 2004-03-27 18:31 |只看该作者

【吐血推荐】网络医院的故事----连载(ZT)转载结束,共35篇

继续,非常好,谢谢。

论坛徽章:
0
60 [报告]
发表于 2004-03-28 22:00 |只看该作者

【吐血推荐】网络医院的故事----连载(ZT)转载结束,共35篇

好东西,收藏!
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP