[网络管理] 网络医院的故事《转贴》 [复制链接]

论坛徽章:: 0

21楼 [报告]

发表于 2003-10-20 14:09 |只看该作者

网络医院的故事《转贴》

[故事之四]路由器工作不稳定，自生垃圾太多，通道受阻　

[症状]今天的“病人”很特殊，是某电力信息部门的主管。称其特殊是是因为该部门主管曾多次打电话要求网络医院为期诊断广域连接的问题，但每次都会在15分钟内来电通知“故障已排除”。询问其排除方法，回答基本上都是“Reset”整个系统。由于该用户只安装了一套价格不菲的“网管系统”来管理整个网络，没有配备其它用于网络维护的工具，网络医院为此曾建议专门为其做一次全面的体检，对该信息网络的各个布线系统、网络设备、工作协议、负荷均衡性、负荷能力、错误帧耐受能力等做详细检测，但一直因各种原因未实施。今天的症状还是老毛病：某电厂的信息网络与电力信息中心的网络联系不畅，数据传输速度不稳定，连接时断时续，有所不同的是系统Reset后仍然不起作用。

[诊断过程]该网络下辖9个电厂子网络，一个子网络用X.25连接，8子网络个从去年起陆续更换为DDN链路。其中一条专线DDN线路(7#线路)偶尔会出现连接中断的现象，恢复系统时必须将路由器Reset才能重新连接。今天按老经验，故障现象出现时重复以往的操作程序却发现此办法不管用了，系统仍然不能连接。直到我们赶到现场时系统还未能恢复正常。将网络测试仪接入信息中心网络，可以看到与各电厂子网连接的路由器，查看7#路由器工作表，有少许传输延迟错误记录，通道流量30秒记录为7帧，其它线路的30秒记录则从170帧～2700帧不等，明显高于7#线路；对7#子网络做通道测试，最高为2kbps，远低于64kbps的线路最高速率，说明DDN链路传输正常数据的能力很弱。由于该路由器支持的错误识别和统计功能有限，用网管系统不能查看更详细的统计信息，故改用F69x流量分析仪串入WAN通道进行测试，发现少量未定义帧类型，其记录标识不稳定。也就是说，通道上有一些是网络不需要的且不稳定的比特流。这些比特流不便于分类，流量不稳定，时高时低，表明网络可能存在“垃圾”，且比较象窜入系统的干扰信号。这些垃圾严重影响正常数据的交换和传输。

为了验证其影响程度，我们用F683网络测试仪向远端子网络作ICMP Ping测试，损失率为10％，不算高，作ICMP Monitor测试，目标不可达50％，重定向20％，拥塞85％，这说明路由通道存在很严重的问题。从中心网络的主网段检测没有发现网络上有干扰比特流，测试为7#路由器供电的UPS输入输出电源谐波含量，显示正常，由此基本上可以排除垃圾比特来自于网外窜入干扰比特的可能性。将其它路由器与7#路由器掉换，重新设置后启动系统，故障依旧。由于垃圾比特数量少，不可能引发网络通道传输速率性能大幅度降低，因此推断“垃圾比特”极有可能是来自于专线DDN链路或远端子网络的路由器。本地信息中心没有配备测试DDN链路的工具，在没有足够证据怀疑就是DDN链路的问题(DDN链路系租用的电信线路)的时候，我们只能先从远端子网络查起。远端子网络没有任何网络维护工具，从中心网络的网管系统又看不到远端路由器存在异常数据，我们只能立即启程赶往7#电厂所在地。4小时后，我们抵达目的地并开始测试。先检测7#子网的工作状态，LAN内部数据交换正常，没有垃圾比特流存在。打开路由器工作表，其中的错误数据记录有少量帧延迟数据包，WAN连接数据交换故障现象依旧，网络测试仪测试的通道测试数据基本与中心网络相同。用F69x流量测试仪测试通道流量，发现大量“垃圾比特”，数量为55kbps，其中35％指示数据来自远端路由器。由此可以断定故障是由远端路由器或靠近路由器一段的DDN链路(可能性很小)造成。更换从信息中心带来的备用路由器后，故障消失。

[诊断评点]WAN通道故障可由多种原因造成。一般来讲，通道测试不合格就表明含路由器在内的WAN链路有问题。由于WAN链路可以由多种传输介质及传输协议组成，比如ATM、DDN、ISDN、Frame Relay、SDH等等，所以针对不同链路类型严格地讲要用专门的测试工具进行测试。

但因为一般用户都不配备WAN测试工具(部分集成商有相应配置)，所以用户或系统集成商只能先用排除法首先确定是否是路由器(含路由器)以内的网络问题，然后，才能向WAN链路运营商提出检查服务通道的要求。本故障是由远端路由器故障造成，路由器除了传送正常数据外还向WAN链路方向发送大量垃圾比特，从而占用通道流量，严重影响正常数据传输。早期路由器工作虽然不稳定，但每次故障时间不长，所以在“15分钟”内故障能自愈(此类故障我们称其为软故障)。本次故障由软故障转变为不能自愈的“硬故障”，反而为排除故障提供了有利条件。由于多数数据被DDN专线链路给“过滤”掉了，且远端路由器对错误数据的统计识别功能有限，所以从信息中心观测到的垃圾比特比较少，观察远端路由器也不能发现详细的错误统计。但ICMP Ping测试、ICMP Monitor等测试错误数据较大，与远端测试数据基本相等，同时从远端测试到的垃圾比特流很大(“F69x流量分析仪＋F68x网络测试仪组合”具有极强的检测功能，支持完整的错误识别和统计功能，这也是为什么我们认为DDN链路出故障的可能性小的原因)，所以断定故障出在远端路由器。

其实，如果远端子网络配备有合适的测试工具的话，本故障在很短的时间内就可以排除。

[诊断建议]工欲善其事，必先利其器。大型网络配置一些备用网络设备是必要的，还需要按网络规模和使用级别、维护人员的技术等级配备相应的维护工具，并建立一整套测试维护的方案和规定，这样才能保证网络的可靠性，并保证能及时处理各种网络故障。

因为一般的网络设备都具备部分网管功能，能统计并识别30％～40％左右的网络错误和故障信息，所以，有时这给人一种错觉：认为只要具备网管功能，就能发现网络的一切故障。其实，进一步的性能测试需要专用工具，要求这类工具不光能能识别各种正常的工作协议，还要能识别形形色色的“网上垃圾”。一般来讲，除了配备相应的LAN测试工具外，由于WAN链路的测试维护由WAN链路运营商(比如电信公司)负责，但网络用户和系统集成商也需要配备一定数量的WAN测试工具以备性能评测、故障救急以及定期测试的需要。

[后记]两天后“病人”来电告知，经过对电路板的测试，发现路由器供电直流电压不稳，进一步测试发现稳压电源IC工作电压不稳定，温度很高，更换IC后路由器恢复正常。　

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

wangla

白手起家

论坛徽章:: 0

22楼 [报告]

发表于 2003-10-20 14:10 |只看该作者

网络医院的故事《转贴》

[故事之五]PC机开关电源故障，导致网卡工作不正常，干扰系统运行　

[症状]今天的病人很有趣，是某电信局网管中心，十万火急地要求网络医院帮助立即解决燃眉之急。放下电话我们立即启程奔往“目标”所在地。为提高效率，途中继续与该中心主任进行通讯联络了解“病情”。网管中心所在地为一地区中心，下辖两个县级市和7个县，安装在地区网管中心的网管系统在两个月前发出了报警信号，提示某县级市的网络有异常情况。一个月前省局工作组在检查工作时发现该县级市不在网管中心的网络拓扑显示图上，询问原因，当时答曰：今天正好赶上该县级市进行工程施工，所以将网络管理功能暂时关闭，故在网管机显示器上的拓扑图中无该县级市的网络图标。现在所谓“十万火急”的问题即是：明天工作组将要进行第二次验收检查，而网管系统是此次的重点检查项目之一，不可能再用网络工程在施工为由回避检查该子网的状况。因为网络拓扑图上的报警信息仍在，该县级市的问题也一直没有彻底解决(县级市子网却一直报告网络正常，速度很快！对定位故障一直不太主动)，明日检查恐怕无法“过关”，所以才想到引入“紧急外援”。另外需说明的一点是，该故障在初期时隐时现，最近才由飘忽不定演变为高频发作甚至是持续存在的故障现象。

针对这一情况，我们决定先不去地区中心，而是直接转道前往该县级市网管中心，因为从网管指示的范围看问题很可能出在此处。另外，该中心距我们现在的位置比地区中心也更近一些。

[诊断过程]半小时后即抵达目的地，立即投入“体检”工作。根据地区网管中心提供的线索，该子网的路由器报告错误数据流量较高，因此直接对该子网进行测试。该子网为用交换机连接的多网段结构，含8个10BaseT和18个100BaseT以太网。用网络测试仪接入网络作自动监测，测试路由器平均错误流量记录为3％，有效流量为7％(广域连接用的是E1链路)。观察交换机自身提示的错误流量系指向第一插槽的3＃端口所连接的子网段，其它子网段测试正常。3＃子网段为拥有97个工作站的100BaseT以太网网段，DNS服务器、IP服务器和其它主要的业务服务器也挂在该子网段内。测试3＃端口的错误计数统计值为25％，随即将F683“网络万用表”(即网络测试仪)移动到3＃网段进行监测。结果指示：错误类型为帧校验错误和其它未分类错误(这可以是为无帧头结构的、且非碰撞类型的自由帧、离散帧等)，比例分别为27％和11％，其中正常数据包流量为3％。27％的错误统计值与交换机提示的错误统计值基本一致，但还有11％的错误交换机和路由器等不能识别，需要进行定位。断开路由器，错误指标略有降低。这表明故障确实是在该子网，与WAN链路基本无关。由于子网段全部由集线器堆叠而成(8×16Port)，故进一步观察网络测试仪F683指示的全部错误定位数据。仪器提示97个工作站和5个服务器均发出类型为FCS帧校验错误的数据包，数量不等。

由于全部工作站均发出FCS帧校验错误帧，所以不认为是所有的工作站网卡都有问题(这种可能性微乎其微)，而故障原因很可能是电缆故障(全部电缆打线有误或采用了假冒伪劣电缆)和干扰窜入，如信号干扰、接地干扰、电源干扰、辐射干扰等等(包含在未分类错误类型中)。网管人员认为，由于电缆系统在竣工验收时全部都采用ISO11801标准进行过认证测试，测试工作是网管中心自己承担的，所以应该没有问题。

为快速定位故障，采用通常的“二分法”隔离网段：先将一半的集线器断电，故障依旧，再次将其中一半集线器(即总量的四分之一)断电，故障消失。恢复供电，逐个拔掉该四分之一集线器(两个集线器)上的工作站电缆插头，当拔下6号集线器的7＃端口连接的工作站电缆插头时，网络万用表上的错误指示全部消失！

网管人员断定，故障为该工作站之网卡的可能性不大，因为所有的网卡昨天为了迎接检查验收都进行过相邻三组网卡的两两互换试验和三台相邻整机的两两换位试验(该中心没有配备其它的网络测试工具，只好采用这种常用的但经常是有效的所谓“笨办法”)。用网络测试仪对此故障工作站的网卡进行测试，结果其端口的物理参数和工作协议都正常。由此可以大体断定故障出在工作站的其它部位，且基本是干扰类型的错误(属于未分类帧错误类型)，不排除线缆引入过量噪声的可能。拔下网卡一侧的电缆插头，故障消失，说明故障不是由电缆噪声引起。靠近该工作站可以闻到一股虽不是十分明显，但却比其它工作站都强烈的电器“烧焦”味(不过，还远未到令机器冒烟的地步)。贴近机器可以听到开关电源中发出的明显的“咝咝”响声。测试工作站与服务器的联络情况，可以看到大量的重发帧和无效帧。更换备用的开关电源，故障排除。

[诊断评点]故障原因比较简单，是由单台工作站开关电源故障产生的放电干扰信号窜到网卡输出端口后进入网络所造成。该干扰信号进入网络后占用大量的网络带宽，破坏其它工作站的数据包(即表现为“患者”众多的FCS帧校验错误类型的数据包，其比例随各个工作站实际的正常流量而定)；同时该干扰信号还干扰服务器、路由器的工作(重发帧、无效帧等)，使得地区中心的网管机屏幕上经常有报警状态提示。由于网络总流量为41％左右(低于40％的平均流量时用户基本不会感到网络变慢)，有效流量只有3％，所以县级市子网上的用户虽然自己发出的数据包有很多被破坏而需要重发，同时接收到的数据包有很多已被破坏而需要重收，但是基本上不会感到网络速度有明显的变慢！！　

[诊断建议]网管系统通常只能发现约30％～40％的网络故障(这取决与被管理设备支持网管的能力和分析、记录网络异常流量的能力)。当有故障报警后，多数情况下需要进一步迅速确定具体的故障位置和故障属性。本次故障不能精确定位并立即排除的原因是多方面的，其一，县级网由于没有网络维护工具，仅靠网络维护人员的经验和从互联网上下载的某些软件来监测自己的网络，这是直接导致了此次故障长时间无法解决的原因。现阶段，按不同的网络维护规模和级别为相应技术水平的网管人员及运行维护人员配置合适的工具到目前为止一直是让网络规划人员、计划单位和网络维护人员自己都搞不清的事情。其二，本次故障本来原因比较简单，但因维护体制方面存在的问题从而导致在故障查找过程中不能密切配合和协作，使得问题长期未能解决。其实，如何比较全面、有效、快速和低成本地实施网络的管理和维护已经有许多成熟的方案和做法。建议网管人员和运行维护人员在忙于快速建网、不断跟踪网络新技术和接触新设备的同时也要抽出部分精力来研究有关网络维护的理论、方法和成熟的方案，力争达到事半功倍的效果。比如，进行完整的网络文档备案工作、定期测试、网络基准测试、性能监测、体能测试、通道测试、协议监测、流量分析等工作就一直是一些大型网络成功地防止严重事故发生的有效而简便的手段。

你知道吗，与你见到的和想象的都不一样，消防队平时更重要的工作并不是救火，而是防火！！网络维护工作亦莫不如是！可以完全相比拟。

[后记]该地区网对下辖子网后来作了一遍比较全面的认证测试，发现了许多平时无法察觉的故障隐患，现在的网络健康水平应该是最高的。我们最近将应邀对其所属的网络进行一次总体评分，希望能有所突破(10分制，目前最高得分记录为5分)。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

wangla

白手起家

论坛徽章:: 0

23楼 [报告]

发表于 2003-10-20 14:10 |只看该作者

网络医院的故事《转贴》

[故事之六]私自运行Proxy发生冲突，服务器响应速度“变慢”，网虫太“勤快”

[症状]某市工商局信息中心今日向网络医院“报案”，报告其关键的企业数据服务器经常出现“阻塞”，起因是分布在各地的各个业务受理局、所等的工作人员时常向信息中心抱怨在进行企业数据调用、核查和进行新企业登记操作时经常遇到“梗阻”，速度变慢或业务出现暂时性的停顿的现象。由于故障现象不是持续存在，虽然检查过多次，也杀过多次“毒”，更换速度更快的服务器后情况好转，但未从根本上能解决问题，始终没有找到真正的“病根”所在。要求帮助查找“元凶”

走进该工商信息中心崭新明亮的机房，可以看到正面的墙上有一幅巨大的网络结构拓扑示意图，上面非常清楚的标明了各种网上设备和网络设备的型号、名称、位置、速度、链路类型和连接关系等等。初步感觉这样的网络器管理水平应该是不错的。

但，经过了解获知，目前实际的网络的结构比较特殊，与拓扑图上的结构有较大区别：用于业务网的大部分机器还设在旧的信息中心机房中，只有企业数据服务器等关键设备安装在新工商大厦的信息中心机房中，且同办公网连通。新大厦和旧信息中心相距约2000米，中间通过光缆和路由器连接起来，并在办公网侧设置了防火墙。办公网的多数用户都可以通过WAN链路访问internet国际互联网。信息中心主任对此的解释是：按工程规划的要求，需要把原信息中心机房的全部设备和人员搬迁到新大厦的信息中心机房，但因发现新大厦存在建筑质量问题，两个月前只搬迁了少部分设备和绝大部分的人员。为了不影响业务，在对设备采取临时性的重新布局后即投入了运行。工作状况一直正常。多数业务设备还留在了旧机房中，由2名留守人员负责管理。大约一个月前开始出现故障征兆。

该信息中心负责下辖8个工商分局，76个工商所的网络连接和业务保障工作。局和分局之间用帧中继链路连接，工商所和分局之间用DDN、ISDN连接，少数用拨号方式连接。业务网与办公网之间用防火墙隔离。业务网中的用户除分局的少数用户外按设计要求均不能上互联网。

[诊断过程]从安装在办公网中的网管系统上观察，企业数据服务器流量为28％，属正常。就近从办公网用网络测试仪F683对服务器进行连通性测试，损失率为0％。这说明至少在此时此刻服务器是工作状态是不错的。用网络助理(网络一点通)对服务器发送10％的流量，观察服务器的使用情况。从数据包交换对话矩阵中发现，服务器对办公网中的用户均有响应，而对原业务网中的用户则有少数几个“不响应”的记录。由此可以推断故障原因绝大多数可能还在原业务网中。

将网络测试仪移动到信息中心旧楼中进行测试，结果如下：网络流量为45％(略高)，碰撞率为3％，错误率0％，广播7％(略高)。总体基本正常。进而观察网络协议的分布状态，基本正常。查看数据包对话矩阵，则发现凡是对企业数据服务器的访问数据包均有部分“不响应”记录。该记录涉及面很广，几乎40％的工作站均有牵连。

为了验证是否是数据链路的问题，进行了ICMP Ping和ICMP Monitor测试，前者报告有两个MAC地址响应，后者则报告记录到大量的目标不可达、重定向、拥塞告警等数据帧。这说明网络的数据链路中有重复的IP地址，而且网络对数据帧的路由运算也存在问题。启动网络测试仪的网段自动搜寻功能，自动查询网络连接结构，结果发现有多余路由解析操作(Proxy)，但没有发现重复的IP地址(这说明重复的IP地址不在该网段，而存在于数据访问通道中)。

因网管人员没有MAC地址备份文档，故建议将旧楼中的所有本地工作站关机，此时网络立即恢复正常。为确定与服务器重名的工作站，再分批打开所有工作站，结果发现留守人员的2台机器中有1台IP地址与企业数据服务器重名。进一步检查该工作站，还发现其私自安装并运行了Proxy代理，与网段搜索的结构一致。

[诊断评点]故障原因有三。一是IP地址重复，二是运行非法路由代理。当业务网用户要求进一步的地址解析分析时，留守机与数据服务器发生冲突，多数的数据流向发生混乱(注意，此时的数据帧结构仍正常)，使用户的访问发生“梗阻”。应用软件则经常要求重新联络和重传数据，导致流量偏高、业务流程速度变慢。由于冲突基本限制在原信息中心网络中，所以企业数据服务器的流量显示正常！网管系统也无错误数据包报告！

原因之三：对留守人员的管理出现真空。留守人员因“无聊”(员工自述)而渴望“越权”连接互联网，并由此开始迅速成为一名“白日网虫”，进而干扰正常业务流程。由于其操作并不一定持续存在，从而导致问题出现一个多月不能解决。

其实，办公网中的互联网用户也会或多或少地受到影响，只不过因白天用户的使用频率低未曾察觉而已。

[诊断建议]网络管理的漏洞大多数来自于内部管理人员，建立严格的内部管理机制是非常必要的。同时，建议将MAC地址的备份列入必备文档。另外，每日对网络进行状态自动搜寻会有助于很快发现并清除非法用户。

健康的网络维护方案中其实早就有关于定期测试(包括每日测试和每日循环测试)的项目，只要坚持每日必要的测试和检查，就可以保证99.9％的网络不会有超过2天而解决不了的严重网络问题存在。

[后记]一个月后用户来电告知全部设备已经迁入新居，现在每日坚持定期项目的测试和记录，网络工作状态良好。提心吊胆的日子终于结束，可以松口气了。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

wangla

白手起家

论坛徽章:: 0

24楼 [报告]

发表于 2003-10-20 14:11 |只看该作者

网络医院的故事《转贴》

[故事之七]供电质量差，路由器工作不稳定，造成路由漂移和备份路由器拥塞

[症状]今天的“病人”是位居某中心城市的一家大区银行，报告的故障现象是：故障时断时续，呈周期性“发作”，每隔10分钟左右在其辖区内就有部分支行或分行打来电话报告业务流程出现问题。具体表现都很一致：先出现业务中断，1分钟后连接恢复，但速度非常慢。此故障已经持续了2天，网管人员怀疑是路由器故障，曾试着分别更换了备用的同城结算路由器和主路由器，无效。

[诊断过程]我们驱车来到“病人”的计算中心，首先向网络管理人员了解故障情况。基本上与网络医院“接诊”记录报告的内容相同。从表现的故障现象来看，根据以往的经验，基本上可以初步推断是路由链路的问题。网管人员确认，业务中断时，普通Ping测试不通，此现象以前也出现过几次，很快就恢复了。因此也没有引起注意。

从记录的故障报告(电话登记)看，无论是本城辖区还是大区内的远程网络都报告过路由中断现象。由于故障每隔10分钟左右就会周期性地出现，虽然比较频繁，却为故障诊断提供了很大方便。可以考虑选择任意路由进行连续的Ping测试，监测其连接状况与故障发生时刻的关系。为此我们将F683网络测试仪接入计算中心网络进行监测。选择曾报告过故障的其下辖的某郊县路由器作连续的ICMP Ping测试，响应时间为9ms，质量尚可。3分钟后，有用户报告故障出现，不过网络测试仪显示正常，说明我们监测的路由链路可能是正常的。立即改变监测方向，向报告遇到故障的用户的路由器做ICMP Monitor，结果大量的目标不可达记录出现，并出现源限制、回应请求和回应响应帧。20秒钟后，出现大量重定向帧记录，目标不可达帧记录速度减缓，源限制、回应请求和回应响应则开始大量出现。

以上记录表明，路由器的动态路由表在故障出现时发生了很大变化。网络原来的路由中断后，继之被重定向路由取代。打开静态路由表，为了与动态路由作比较，我们启动F683分段路由追踪功能，追踪从测试仪到先前报告故障的远程路由器。可以看到，路由在本城出口的下一站，即大区链接的第一个路由就发生了中断。动态路由已经由备份路由取代。状态：拥塞。

原路由为主路由，通道速率为E1，为ATM链路，备份路由为DDN基本速率链接，速度仅为64Kbps。打开主路由器的Mib库，观测到主路由器的流量为0.02%，错误为2％；表明它处于轻负荷状态，并有少量错误流量。观察备份路由器的Mib库，流量为100％，说明它处于超负荷运行状态。

由于故障为周期故障，为了观测它的发生规律，我们在征得“病人”同意的前提下，决定不急于寻找主路由器中断和拥塞的原因，而是先观测在一个周期里故障变化的全过程并记录之。我们用第二台网络测试仪和网络故障一点通接入网络，分别观察主路由器、备份路由器、主服务器的工作流量和错误，并对主路由器作连续的ICMP 监测。约8分钟后，主路由器流量开始迅速上升，备份路由器出现重定向指示，约15秒后报告备份路由器推出优化路由，动态路由表恢复到与静态路由相同的设置。网络完全恢复正常。

分析故障关系，可以断定故障的最大关联设备是主路由器。由于用户在机架上已经安装了冷备份的主路由器，我们先将冷备份路由器替换到主路由器的位置。5分钟后路由器更换完毕，开机接入网络，3分钟后网络恢复正常。但只持续了2分钟，故障现象又重新出现。看来，必须对主路由器做详细监测才能发现真正的故障所在。

网络建构拓扑是，主路由器与三个外区远程路由器和一个本地路由器相连，我们可以同时监测这几个路由器的工作状况。监测结果如下：故障出现时，外区主路由器和本城路由器的路由表随着故障的出现也发生变化，而此时同城结算业务不受影响。受影响的业务方向是外地与本城、本城与外地、外地经本地跨区等。用Fluke的ATM测试仪测试远程ATM路由通道，将远端ATM交换机Loopback(环回)以后监测三个方向的通道情况，显示完全正常。再对与主路由器相关的连接电缆进行测试，全部合格。这表明主路由器的工作环境是基本正常的。此时我们需要了解主路由器链路中的“垃圾流量”的分布。但由于网络医院的流量分析仪出借给了别的“病人”，所以我们暂时不能观察主路由器的详细流量状况。实际上，我们这是也只需要检查主路由器的接地质量和供电环境即可(因为已经试验更换过主路由器)，这两个因素当中的任何一个不负荷要求，都有可能引发主路由器中断的故障。

首先观测为主路由器供电的UPS电源。当故障发生时UPS显示过载，而输出回路却显示轻负荷。用F43电力质量分析仪观察也显示故障时输入谐波超差6倍。输出回路超差400倍，故障恢复后，过载指示也随之消失，但输出回路仍超差80倍。证明UPS电源低效。

将主路由器的供电电源接到另一台UPS电源上，故障彻底消失。故障原因为供电质量不合格。我们注意到，该计算中心所在的大楼正在装修，网管人员说等大楼装修完毕后还要将网络设备扩容。初步干扰源很可能就来自与装修有关的部分。由于故障的周期性，经过仔细观察发现，故障出现的周期与楼旁塔吊的上下周期一致！为准确判定谐波干扰的源地点，我们将F43电力质量分析仪接入供电网络进行核实，结果发现，每当塔吊上升时，故障现象就出现(下降时谐波为上升时的三分之一，网络有少许变慢)。

[诊断评点]为主路由器供电的UPS电源由于失效，对外界电力干扰谐波的过滤能力下降，当为重负载的用电设备供电时，此谐波会引发许多设备出错。如果此时恰逢UPS电源滤波失效，则相关设备会受到干扰。本故障中，主路由器由于大量干扰进入，使得链路阻塞，路由器连接中断，路由变更指令使得各业务流量流向备份路由器，备份路由器的路由通道能力又不能满足，致使网络出现拥塞。这就是本次故障先中断后恢复然后阻赛的原因。同城结算数据由于多数不经过主路由器，所以未受到影响。

塔吊下降时，虽然引入的干扰也不少，不过因为其干扰的绝对值未超过主路由器的承受范围，所以主路由器还能应付。大楼装修以前也出现过类似的故障，因干扰源很快消失并不再持续存在，因此不可能引起维护人员的注意。

[诊断建议]与电缆和光缆系统一样，电力谐波和UPS电源也是列入定期检查的内容，一般建议作半年定期检查，关键的网络建议作为周定期检查的项目。谐波干扰是经常存在的环境因素，如果此时UPS电源不出问题，一般不会影响网络的正常运行，但谐波干扰是严重影响网络性能的原因之一，一旦窜入网络则引起的故障多数都是“致瘫性”或致命性的。还由于多数用户对干扰类型的故障“相当地”不熟悉，故提请大家引起较多关注。

[后记]更换UPS后，该网络“从此”表现优异。让我们感到欣慰的是，“定期维护”的概念已为“病人”所接受。在网络医院的帮助下，他们制定了详细的网络健康维护方案，确定了定期维护、视情维护的详细规章。其实，这才是网络医院的工作最有价值的一部分。那就是：未雨绸缪，防患于未然。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

wangla

白手起家

论坛徽章:: 0

25楼 [报告]

发表于 2003-10-20 14:12 |只看该作者

网络医院的故事《转贴》

[故事之八]中心DNS服务器主板“失常”，占用带宽资源并攻击其它子网的服务器

[症状]有“病人”来电报告网络的一个子网突然变慢，中心主网络则基本正常。以下是“病人”的主述“症状”：“病人”是某市电信多媒体网络服务公司(163、169)，该市为地级市，为本市及市辖县的普通用户提供本地热线网站服务和Internet接入服务。昨天，其服务的用户反映网络速度很慢，Email经常需要等待超过60秒以上的时间才能联通，随即其市营业厅(即子网所在地)报告速度突然变慢，影响业务。“病人”在主机房安装有网管系统，从网管上观察发现除了营业厅子网路由器流量很高以外(测试为97％)，中心网络的路由器与其它子网的交互流量均为40％以下。没有其它特别现象，应该说网络速度不会受影响。由于维护人员没有配备其它网络测试工具，又不能在白天断开网络停止用户服务来进行检查。经人介绍遂请网络医院派员帮助检查。

[诊断过程]这个故障表现比较简单，检查的时候只要查出子网的路由流量来源就可以很快确定故障方向，进一步则立即可以查出流量源。由于用户没有配备分析网络流量的工具，我们估计故障在子网的可能性比较大，所以我们直接驱车驶向子网所在地，即电信营业厅。从网络拓扑图上看，营业厅子网与中心网络的链路为E1，平时作为业务营业厅网络的业务通道。由于营业厅网络一般只用于传输一些业务数据，其子网的网站数量为45台，网管报告97％的流量肯定是过高的。有一种情况可以比较多地占用E1通道的有效流量，那就是营业厅子网有网站与中心网络的网站或服务器之间有多媒体动态图象传输，比如VOD等。这种情况在不少地方发生过，但它要求必须有动态图象源才可以实施“点播”，中心网络目前不可能提供这种服务(但不排除私自安装的可能性)。

营业厅网络由于规模小，中心网络的网管系统只支持到路由器一级的管理。交换机和服务器等采用的是廉价的桌面交换机，所以无法支持网络管理。我们将网络测试仪F683接入交换机进行测试，启动便携网管功能，可以看到路由器的流量和网管系统观测的到的流量是相同的，均为97％左右。查看中心网络处与此相连的路由器流量，也是97％左右。这说明路由器通道链路性能基本正常，不过这样高的通道流量必然导致路由器拥塞和丢包，所以从流量的角度看又是不正常的。现在需要了解的是，如此高的路由流量是从哪里来的？数据包到达路由器以后的去向等。这样就可以很快定位导致如此之高的通道流量的数据源和拥塞源。将Fluke的F695网络流量分析仪接入网络的路由器通道进行监测和分析，结果显示95％流量流向了业务数据服务器，且多数为HTTP和Email方面应用(流量分析仪专门分析包括应用层在内的网络上层的协议的应用流量)。其中，Internet访问流量占88％，本地流量占7％。查看流量分析仪指示的流量来源分布图，没有发现集中的流量应用，IP地址分布比较均衡，最高的流量只占0.5％。这些数据表明，用户的应用比例均衡，故障原因应该在应用过程中而不是某个集中的用户“轰击”，比如黑客等。也就是说，应用的过程和通道出了问题。这是因为，这些流量按通道设计不应该到达营业厅网络的业务服务器。而是应该直接从中心网络的Internet主路由器进入互联网。

那么，这些流量是如何被引导到营业厅服务器方向上来的呢？我们知道，IP数据包在传输过程中会在路由器中作地址解析(ARP)，或是在本地DNS中进行域名分析。如果这些分析路径出问题，则IP数据包的传输和交换就会出问题。根据流量分析仪的指示，我们任意选择了10个IP地址做路由追踪测试，用Fluke的F683网络测试仪追踪的结果是，他们都要经过一个DNS服务器。而模仿营业厅网络成员分别对已知的本地和外地用户做ICMP监测和路由追踪测试，结果发现，ICMP监测中重定向数据包占82％，目标不可达数据包数量占13％。这表明，只有约2％的用户能一次性出入正常路由到达目标站点，其余95％的IP数据包都要经过路由竞争或重新发送才能有部分机会到达目的地。由此，可以重点检查主路由器的路由表和DNS的转换表。由于多数Internet访问流量被引导到了营业厅业务服务器，所以可以重点检查DNS服务器。用F683网络测试仪对DNS服务器做查询，观察查询结果，发现DNS转换表有相当大的比例指向了营业厅子网中的业务服务器。怀疑是DNS服务器出了问题。我们随机通知中心网络的网管人员将DNS服务器重新启动并快速设置一次，稍后网络管理人员报告网络业务恢复正常。用F683网络测试仪的Internet工具包查询DNS服务器，可以看到指向营业厅业务服务器的数据已经全部消失。这表明网络已经完全恢复了正常工作。但好景不长，约3分钟后，故障重新出现，仍有97％的通道流量被指向了子网。由于DNS服务器只设置了一台，没有备份或备用服务器。我们不得不立即来到中心网络机房，对DNS服务器及其周围设备进行检查。测试服务器网卡和与路由器的电缆，正常。为了不中断服务，我们请网管人员在另一台备用服务器上临时安装设置了DNS服务器。经过短暂的业务中断后，更换上的新DNS服务器开始投入适用。只见子网路由器的流量立刻降低到了1.5％。经过30分钟的稳定工作后，所有用户均恢复到正常工作状态。

[诊断评点]DNS服务器用于将用户域名转换为IP地址，一般来说不会出现什么问题。但由于某些原因，转换地址通通指向了营业厅子网的业务服务器。业务服务器不具备路由处理功能，对发送来的IP数据包要么拒收并置之不理，要么返回目标不可达或需要重定向的报告数据包。这就是我们在ICMP监测时经常观察到的现象。该地区城市中心网络的用户数量不多，与省中心网络的链路带宽为155M的ATM链路，大有富余。所以上Internet的用户其上网速度主要受子网带宽的影响。因为许多的用户要经过拥挤的无效E1链路，造成路由重定向和严重的时延。大量的IP数据包拥向只有2M带宽的子网路由器，流量达到了97％，造成子网工作速度突然变慢，路由器出现严重拥塞等现象。为了确定地址指向的错误原因，我们建议用户抽时间按下列步骤定位故障：首先，将原来的故障DNS服务器的工作平台和应用软件以及网卡驱动程序全部重新安装一遍，然后选择深夜用户数量最少的时候接入网络使用，查看转换表是否正常；其次，如果仍然不正常，则更换网卡，主板等硬件，逐步缩小故障范围。

[诊断建议]基为了防止DNS服务不稳定造成业务中断或出错，不少网管人员在设置DNS服务器时都安装了备用DNS服务器，亦即安装不只一台DNS服务器。但这样做也会带来一个潜在的危险：即主DNS服务器出问题，备用自动服务器投入运行，这样会牺牲一定的网络带宽，使得系统总体性能有所下降。危险在于，性能的下降常常是在不知不觉中来到的。所以，为了保证网络经常处于良好的工作状态，网络管理人员需要定期检查DNS服务器的转换表。这也是“周维护”(即美洲定期维护项目)中建议的内容之一(当然，要保持网络的优良性能不只是检查路由优化性能，还有其它许许多多工作需要做。比如：性能评测、基准测试、通道测试、应用监测、拓扑结果管理、定期维护等等，有关这方面内容读者如感兴趣可参阅《网络测试技术简介》)。本故障中的DNS指向错误导致用户的IP数据包对准了子网服务器，但如果对准的不是服务器而是中心网络本地网段中的某台机器，则故障强度会减弱，用户不会感到非常明显的速度变慢。这样“病人”可能不会感到明显的“身体不适”从而使得网络长期带病运行。就象人一样，定期的体检对及时发现疾病及其隐患是非常必要的。而如何及时发现路由优化方面的问题，也是网络定期项目测试中的内容之一，对大型网络则更有必要，必须坚持定期维护和测试。

许多网络设备如路由器、交换机、只能集线器等都支持SNMP网管功能，但为了全面监测网络通道功能，还需要网络设备支持全面的RMON和RMON2。用这样的设备组建起来的网络其管理和故障诊断功能是很不错的。但现实的问题是，这样的网络设备价格是普通网络设备的6～10倍左右，用户难以接受。因此，为了随时监测网络的服务应用流量及其比例、来源，工作记录以及必要时进行解包分析，建议用户在重要的服务器通道或路由通道上安装监测接口。以便必要时可以随时将流量分析仪、网络测试仪接入通道进行监测和分析。这样，本故障的查找时间可以缩短到20分钟左右。当然，如果资金允许，也可以将流量分析仪长期接入通道对多个重要的网络设备进行全速率透明流量监测，这样可以把故障定位时间缩短到1分钟以内。

[后记]第三天，电话回访“病人”，网络表现一切正常。用户自己已经查明故障设备是原来的DNS服务器的主板。该主板工作不稳定，我们推断该服务器在应用层的数据交换和计算时或与网卡交换数据时出现程序错误。更换另一台DNS服务器的主板后功能恢复正常。“病人”已将修复的DNS服务器设置为在线工作的备用DNS服务器，以提高网络可靠性。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

wangla

白手起家

论坛徽章:: 0

26楼 [报告]

发表于 2003-10-20 14:12 |只看该作者

网络医院的故事《转贴》

[故事之九]网卡故障，用户变“狂人”，网络运行速度变慢　

[症状]今天的病人是某大型寻呼公司，刚更新了高速寻呼设备，增加了信息服务的业务内容，并对计算机网络进行了比较大的扩容和调整。调试工程一直比较顺利，但好景不长，刚正式开通工作一天就出现严重问题。技术中心严经理报告的故障现象如下：最初是在工作台上偶尔观察到在键入寻呼的用户数据时键盘更新出现等待现象，后来愈来愈严重，从刚开始的一秒钟左右到现在的10秒钟以上。网络服务速度很快就变得非常缓慢，寻呼业务员在操作台上键入数据时，屏幕显示有时甚至要等待1分钟以上才会更新。基本上在10秒钟和1分钟之间波动。在业务高峰时处理寻呼的速度赶不上要求，用户排队现象严重。设备管理人员查看过集线器、交换机，发现他们的指示灯一直闪烁不停，好象比以前印象中的快了不少，怀疑网络流量可能很高。用软件查看主服务器的CPU资源利用率，达到93％。查看了5个工作台上的计算机CPU，显示资源利用率85％以上。时逢4月26日，怀疑是不是有病毒在做崇。用了三种杀毒软件先后进行扫毒，之后发现故障现象依旧。由于寻呼中心机房没有配备网络维护的硬件工具，工程承包商对此现象更是手足无措，故向网络医院挂急诊求治。

[诊断过程]30分钟后我们来到现场。正如严经理所言，从持续闪烁的指示灯上就可以观察到网络流量肯定很高。该网络采用NT作平台，工作协议为IP，用网络测试仪F683接入网络的任意一个接口进行测试，结果如下：网络流量平均为57％～83％，偏高较多。碰撞率4.9％～5.3%，广播42％～74％，错误2％～3％。网络的正常流量波动为8.1％～0.7％。很明显，网络的非法数据帧占据了大量的网络带宽。主要的非法帧为高流量的广播帧，其次是错误帧。为了查明广播帧和错误帧的来源，我们先启动网络测试仪的错误查找统计测试功能，2秒钟后显示错误类型为超长帧、帧不全、FCS错误帧以及少量短帧。按下网络测试仪的错误统计“Error Statistic”软键，查看上述各

项错误的来源，均显示错误来自为一台取名为“Cindy”的主服务器；为查找超量广播的来源，按下网络测试仪的“Top Sender”测试软键，显示广播帧超量发送者同样也是“Cindy”这台服务器。

另外，“Cindy”还发送约0.8％左右的正常IP帧。将“Cindy”从网上卸下，各单机故障立即消失。为了确认是网卡本身的问题还是网卡驱动程序的问题，将“Cindy”的网卡驱动程序重新安装了一遍，之后启动机器运行，故障现象出现。说明网卡本身故障的可能性最大。更换网卡后网络恢复正常。

[诊断评点]网络平均流量是决定网络运行速度的一个重要条件。在以太网中，瞬间流量可以超过90％，很适合突发流量的传输。当网络的平均流量在40％以下时，网络运行速度一般不会主管感觉变慢。本故障中，服务器“Cindy”由于网卡故障，除了发送一些正常IP包外(约0.8％)，还发送约2％～3％的错误帧和主要影响网络带宽的超量广播帧(42％～74％，造成用户键盘更新在10秒～1分钟之间波动)，这里对网络影响最大的是超量广播帧。广播帧是网络设备定期不定期进行网络联络的一种手段，但过量的广播会占用不必要的带宽。一般来讲，网卡损坏以后，有多种表现类型，常见的一种表现是“安静型”，此时网卡不向网络发送任何数据，机器无法上网。另一种常见的类型是“狂躁型”，其表现颇象一个喝醉酒闹事的醉汉，嘴里喋喋不休。该网卡除了发送正常数据以外，还发送大量非法帧、错误帧。本故障发送的是大量的广播帧。广播帧可以穿过网段中的桥和交换机，所以整个网段上的设备通道都会被广播帧占用带宽，即便是不向网络发送或接收数据的站点也会因为接收大量的广播帧而导致站点的网卡向宿主机的CPU频繁地申请中断，CPU资源利用率达到了85％。这样，网络上的站点处理本机应用程序的速度会受较大影响。有趣的是，很多用户也是在把机器从网络上退出时才发现站点的故障与网络有关。而之前却一直以为是工作站的问题，且最容易被误判为病毒发作。许多网管和网络维护人员通常的做法和遭遇都会象下面所描述的“故事”：首先，启用多种杀毒软件进行查杀毒操作，无效。然后，把所有工作站格式化，重新安装其操作系统和应用软件。但由于问题出在服务器，所以仍然不见效。最后，不得不将所有机器(当然也包括服务器)格式化以后重新安装系统平台及应用软件。如果是服务器网卡驱动程序安装错误(比如安装的驱动程序版本不符合，虽然能工作但不顺畅)，则故事可能因重新安装了正确的驱动程序而到此结束。如果是网卡“狂躁型”故障，则故事还会延续很长时间。因为“狂躁型”病人不理会网络的游戏规则而向网络发送大量非法帧流量，占用带宽，影响所有网络成员。

不幸的是，狂躁型病人在网络故障统计中所占的比例不是很低！

[诊断建议]“网络健康测试”和“网络基准测试”都是为了实时和长时间监测网络流量的变化规律，帮助维护人员掌握网络应用和流量变化的规律，即时发现和处理网络故障。“网络维护方案”中建议健康测试是每日必须测试的内容，要求实时监测网络的流量/利用率、碰撞、广播、错误等基本健康参数，也可以简化监测程序，选择在每天网络最繁忙的一段时间进行测试。这样网络的异常可以被立即发现(因为许多网络故障在网络流量低、比较清闲时并不表现或明显地表现出来)。当然，比较稳妥的方法是对网络进行认证测试。除了布线系统外还对工作的网络进行认证测试。以便在网络投入正常运行前就发现并根除网络存在的故障和潜在的性能问题，最大程度地优化网络的性能。

[后记]第二天，我们应邀对该寻呼网作了一次简化程序的网络认证测试，其中流量冲击测试服务器耐受度为100％，如果不是上述故障，该网络性能总评应当是比较优秀的。　

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

wangla

白手起家

论坛徽章:: 0

27楼 [报告]

发表于 2003-10-20 14:13 |只看该作者

网络医院的故事《转贴》

[故事之十]PC机网卡故障，攻击服务器，速度下降

[症状]今天是五一节假期的最后一天，某大型铁路枢纽站来电，报告其售票系统出现很大问题，最先是枢纽所在局本地的售票系统报告售票速度比平时慢几倍，车站售票厅前已经排起了长队，乘客意见很大。其它市内预售处也受到影响，出票速度也很慢。随后，是各联网局均有报告网络的票务查询速度慢，邻近局报告更频繁一些。维护人员认为是中心票务服务器有问题，随即决定系统暂停业务并将备份服务器很快启动投入系统运行，非但未能见效，反而速度更加缓慢。急招该系统的工程集成商立刻处理系统问题，观察中心票务服务器CPU资源利用率达到了97％，基本上是满负荷运行，其它服务器和工作站等网上设备均为发现问题。短时间断开预售点和其它路局的连接路由，故障现象依旧。系统集成商随即将票务中心机房内的其它网络设备如交换机、集线器、网关等全部更换，启动系统故障依旧。故障累计已经近7小时，路局承受的压力越来越大，已经开始准备紧急启动本地人工售票预案。

[诊断过程]网络医院接报后立即赶往票务中心计算机网络的机房，网管人员告知在节日期间已经出现过类似的现象，只是持续的时间不很长(有时会持续2小时左右)，速度虽有变慢，但基本上不影响出票速度。经过与网关人员和系统集成商的工程技术人员简单交流后，分析故障原因可能有五，一是票务结算软件问题；二是病毒或内部人员尤其是网络管理人员误操作或更改设置，比如删除不应该删除的文件，私自在系统上运行了冲突软件或破坏性软件；三是系统平台故障，比如NT平台受到干扰后出现硬损伤(指不能恢复的改变，必须重新安装系统才能正常运行)；四是网络设备问题，五是其它网络问题。由于已经更换过票务服务器和交换机等网络设备，所以先暂不考虑第一、四种可能性；为了节省故障诊断时间，暂不考虑第二、三种可能性(如对系统进行一次详细检查和协议测试或重新安装一次NT平台并做好相应的设置、数据恢复等需要较长时间)，而首先就第五种可能性对网络进行测试。查看其它服务器CPU资源利用率，都在25％以下。

查看网络拓扑结构图，将网络测试仪F683随即接入网络中的一台工作组交换机，观察整个网络的工作情况。先查看网络设备的工作情况，显示交换机、路由器等本身均正常。核心交换机与票务服务器的连接端口为第二插曹第7端口，设置为100Mbps，流量实测为84％，偏高。查看整个网段的MAC对话矩阵，也显示票务服务器的访问流量很高，进一步查看IP对话矩阵，与MAC矩阵基本一致，比其它对话矩阵中的成员高出500倍以上。追查访问的数据来源，发现一台内部账务处理PC机与票务服务器之间的对话流量很高。从MAC矩阵上观察其流量很高，从IP矩阵上观察流量稍低于MAC流量。为了提高处理速度，票务服务器按设计是直接与核心交换机相连的，而账务处理用的PC机通过桌面交换机—工作组交换机—核心交换机后与票务服务器相连。询问票务处理PC机的操作人员，答曰节前该机工作就不正常，速度慢。曾向网络维护人员报告过故障，但因邻近节日，维护工作量大，维护人员计划待节日以后再处理账务PC机的问题。

将账务PC关机，系统故障立即消失，整个系统恢复正常，一片欢呼。为了确认该PC机具体的故障位置，将其移动到局办公网上接入网络，重新设置后工作正常！！！

为了慎重起见，网管人员还是决定启用一台新机器代替账务PC接入网络，同时观察网络的工作状态。发现网络完全恢复正常，故障排除。

用网络测试仪测试办公网，流量为2％，很低，无错误数据包。将集线器串入账务PC与交换机的连接通道，用网络测试仪和协议分析仪接入观察。从F683网络测试仪上观察，显示网络流量为79％！！错误37％(其中90％为长帧，其余为短帧)，网络测试仪指示流量来源于账务PC，数据包中有约36％左右指向了一个未知的IP地址，其它数据包虽然指向该地址但来源地址比较混乱且无规律可循，协议分析仪上解析的地址经网管人员确认后证实36％的指向地址是票务服务器的IP地址，其它来源地址也是原票务网中地址范围内的地址。如果该PC机携带能模仿IP地址的病毒程序，则原系统有可能还会发生类似故障，所以我们先将账务工作站PC的网卡更换，更换后该机表现正常(说明病毒在捣乱的可能性很小)，不再发送非法帧。将故障网卡重新安装驱动程序，故障现象依旧，集线器上测试的错误仍是长帧和短帧，再次表明网卡本身故障的可能性最大，病毒感染的可能性很小。

[诊断评点]现在可以让我们来事后模拟叙述一下整个网络故障的进程。以便读者了解故障的进程和原因。

票务网络中的一台不起眼的工作站的网卡发生了故障。最初的故障发生于节日前，故障现象是发送错误帧。由于工作站与桌面交换机相连，而该桌面交换机是存储转发型性交换机，所以发送的错误帧被交换机过滤掉了。所以这些错误帧只能对本工作站造成影响，对网络不构成威胁。随着网卡的进一步物理性损坏，网卡变得不能清除发送过的IP地址，并将目标地址“定格”在访问联系最多的票务服务器，开始发送不受限制的数据包。这些数据包不断请求票务服务器处理重复查询计算同一张票的出票业务。由于其不受发送速度的限制(即该网卡不管网络流量是否超高，都会不加理会地向网络发送流量)，网络中的交换机随即将大量的垃圾包送往票务服务器，占用大量网络带宽资源，同时迫使票务服务器消耗大量资源处理这些垃圾包，使得其它正常的网络访问受阻。还由于这些数据包的可操作性很差，服务器会进一步耗用额外的资源来处理这些数据。

在上一篇故事中我们曾提到过，网卡故障后有两类基本的表现，一类是安静型，即不再进行正常的网络通信并且不再向网络发送任何数据，这是比较友好的“醉汉”。对网络基本上没有破坏性。另一类是“狂躁型”，发生故障后向网络发送不受限制的数据包。这些数据包可能是正常格式的，也可能是非正常格式的(即错误数据包)。两种格式的数据包都可能对网络性能造成严重影响甚至破坏。错误格式的数据包一般不能通过存储转发型的交换机，所以本故障的网络监测看不到错误数据包，只能看到正常格式的故障数据包。当接入集线器后才可以观察到错误数据包。

[诊断建议]该网络由于系统成员数量少，在建网规划时没有配备网管系统和测试工具。所以故障早期没有任何超流量报警信号提示，这对于网络故障的迅速定位和排除是不利的。现存的许多网络在维护工作中都基本上采取事后维护的方法，即出了问题才去查找和处理，这对于可靠性要求高的网络是非常危险的。因为我们不能侥幸地“期盼”不管是网络设备，还是网上设备，他们出了问题以后都表现为“安静型”。只有坚持定期地对网络进行监测才是避免重大网络事故的有力措施。其实在本例中，如果每日坚持用3分钟时间监测一下网络，就完全可以在故障的早期排除之，避免后期重大事故的发生。

[后记]我们担心的“病毒”至今没有出现。　

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

wangla

白手起家

论坛徽章:: 0

28楼 [报告]

发表于 2003-10-20 14:13 |只看该作者

网络医院的故事《转贴》

[故事之十一]多协议使用，设置不良，服务器超流量工作

[症状]今天的故事发生在某机电进出口公司，网络部主任林先生来电告知他们的网络昨天刚刚进行了升级，从10M以太网桌面应用全部升级为100M以太网交换到桌面，结果出现局域网内网络访问速度反而比升级前慢的现象。有的访问很长时间没有结果，有的则出错。他手里有几款侦测网络流量的软件，启动运行后也没有发现任何问题。对服务器的Ping测试平均小于1ms，应该不会慢，但不知何故会如此表现。

[诊断过程]这个故障看起来比较简单，实际诊断却颇费周折。该网络由4个路由器经帧中继线路与国内总部和国际分部链接，占据4层楼面，由2台千兆核心交换机和二级5台工作组交换机(每层一台)以及20台桌面交换机(每层4台)组成，100M交换到桌面，结构比较典型。从故障现象看，网络联通性尚可，但速度受影响。一般来说，速度慢的原因有很多，比如网上设备速度跟不上要求，网络设备出现阻塞或瓶颈效应，电缆光缆系统问题使得网络数据出错或产生高额碰撞，网络协议设置错误造成无效的重复访问，应用软件或协议设置错误访问受阻等等。由于刚更新了网络，原来的电缆系统又没有经过认证测试，根据以往的经验，电缆系统存在问题的可能性最大，所以我们决定先检查电缆系统。鉴于所有网络成员都有速度问题，我们先抽取部分电缆尤其是主要服务器的网络电缆进行现场认证测试。

系统电缆采用的是超五类线，用电缆认证测试仪测试20条电缆链路，结果出伏出乎意料地全部合格！改用网络测试仪对抽测的电缆人工模拟发送流量，结果当发送至75％流量时，碰撞率仍不超过5％，表明网络布线系统虽然在工程完工后没有进行认证测试，但电缆品质和施工品质还是不错的，实属少见。转而进行网络健康指标评测，除了服务器流量严重超标以外，其它如错误、碰撞、广播等都合格。检测流量分布，基本上都集中在服务器链路上，平均流量达91％。令任意两台工作站之间进行拷贝文件操作，速度很快。说明问题很可能就出在服务器与工作站的协议流程障碍上。启动F683网络测试的ICMP Ping、Scan Host、ICMP Monitor等功能测试，检查其IP协议的工作质量，结果显示正常。这说明，网络连接通道性能是可以的，问题出在协议的5层以上。

启动网络测试仪的协议分布侦测功能Protocol Mix，结构发现其Apple Talk和BanyanVines协议流量分别为47％和39％，合计流量为86％。进一步显示运行该协议的是两台主服务器。

询问林先生网络设计运行的是什么协议，答曰全部是基于视窗环境的单一的IP协议。为何会出现Apple Talk和Banyan Vines？答曰根本未知。

由于这两种协议有没有参与该公司的业务流程尚且不明，故暂时不能贸然将其删除。必须尽快核实现在的业务软件是否依赖这两种协议。林先生告知他是一年前接手网络部主任一职的，对业务流程软件并不熟悉，但知道现在运行各软件的供应商。我们请他立即与该软件开发商联系，15分钟后对方发来传真明确说明该公司的软件只在Windows平台上运行，不支持Apple Talk和Banyan Vines等应用平台。为慎重起见，我们请各业务部门的代表集中辨认并统计现在各自所用的操作平台和软件，结果都不包括Apple Talk和Banyan Vines。至此，我们决定对该协议平台进行卸载。一边操作一边请林先生查阅以前网络档案，结果发现了这两种平台的安装软盘和应用软件安装软盘。

完成协议清理作业后，重新启动网络，网络访问立即恢复正常。

[诊断评点]非工作协议是指在网规划和络设计中未被选用的协议和应用，但他们存在于各种网络平台之中。作为网络上的“游魂”之一，他们会耗用少量网络带宽。常用的被捆绑于视窗平台的协议如IPX、IP、NetBEUI基本上没有冲突。所以许多用户虽然没有同时使用这几种协议但也会时常同时捆绑这些协议。NetBIOS设置有多种平台协议的输入输出接口，有助于众多协议的交互工作和各种协议平台及其应用的并存。但从网络性能优化的角度看，各种协议平台和应用版本是由不同厂商开发的，兼容性始终是一个动态适应的过程。没有一种始终能紧密跟踪各种协议平台和应用协议变化、相容和协调的有效方法。从这个意义上讲，多协议工作的冲突是不可避免的。

翻阅六年前网络档案我们发现，该网络多年以前一直使用的是Apple Talk和Banyan Vines平台协议，当时是请ALP国际公司提供的应用软件并负责安装工程。直到三年前才全部安装启用视窗平台和基于IP协议的新的应用软件，但APL公司的人员没有将老平台卸载，而是简单地停止启动运行。后继的网管人员在交接时因不熟悉这些协议及其用途，没有进行清理。最近的这次的网络升级工程安装调试时根据原先的网管记录和服务器平台的提示重新安装并启动运行了这些软件。询问负责软件安装的网管人员是否了解这些软件的用途，答曰因为在老平台的窗口中一直看见这些软件，其间也曾询问过一直任职的财务经理，证实有用，所以才重新安装之。实则该平台的设置与新的应用软件之间有严重冲突，并同时干扰现行应用软件的有效工作。两台服务器之间一直在互相询问并重新发送无法处理的无效数据包，除了干扰其它协议外，直接的结果就是占用大量的网络带宽，破坏数据的传输和处理，致使网络速度变慢并时常出错。

另外，林先生手里的诊断软件都是基于视窗环境的应用软件，无法观察其它应用的流量。

[诊断建议]协议的无缝互联和互操作是软件开发工程中的难点。实际的应用软件品质并不如开发商所标榜的那样乐观。为了使网络的工作效率达到最佳，网管人员需要经常监测网络协议数量及其工作状态。对于无用的协议要即时清理之。重要网络在协议监测对新出现的协议还要监测其操作过程，查找其来源。因为许多网络在遭到黑客攻击时常会伴随某些新协议的活动。

[后记]经过一周的观察，删除无用协议后网络一直工作正常。林先生还将其它一些无用协议进行了清理，现在的网络速度可以说是非常地“爽”。　

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

wangla

白手起家

论坛徽章:: 0

29楼 [报告]

发表于 2003-10-20 14:14 |只看该作者

网络医院的故事《转贴》

[故事之十二]交换机设置不良，加之雏菊链效应和接头问题，100M升级失败

[症状]某化工交易中心华东公司，今日报告网络从10M升级到100M后，约有一半的工作站无法提速，他们都在同一个楼层。另一楼层的5台工作站则无法入网。另外，两个楼层中都有少数工作站工作速度比升级前更慢，而且并不是对所有的服务器或其它工作站访问都慢，对少数服务器的访问速度还“凑合”。该公司没有配备任何用于网络维护的工具，所以，除了可以观察服务器的CPU利用率以外，只能用软件间接观察网络的流量和碰撞率。观察到的碰撞率偏高的微网段可以达到20％，但不知道该如何处理。

据负责网络管理的Lucy小姐介绍，网络升级前所有工作站都是可以接入网络中运行的，只是部分站点速度有些问题，但可以用。公司的网络规模不大，共占有两层半楼面，拥有280台工作站，计算机室配置了三台工作组交换机，分别为三层楼面提供连接。三台交换机通过一台100M集线器共享。路由器一台，也通过工作组交换机连接帧中继网络。交换机下面通过级联100M集线器构成星型结构将链路接口连接到用户桌面。

升级工程很简单，将10M交换机更换为100M交换机，10M集线器更换为100M集线器即算大公告成，机架上的设备布局基本按原样安装。用户端则全部更换为100M网卡，施工时间是利用周六、周日两天非业务时间，将全部用户都“搞定”，全部作业都有公司自己的员工负责。完工后抽查了部分工作站，工作状况良好，由此认定升级工程验收合格。可是周一上班，麻烦随之而来。

[诊断过程]该网络的结构比较简单随意，集中反映出的“病症”有三种：一是部分站点不能上网，二是部分站点速度变慢，三是有一半站点不能提速到期望的100M速度。这些其实都是网络升级时经常遇到的问题，也是比较典型的“网络升级症”。

我们将F683网络测试仪首先接入不能上网的站点所在的微网段，观察网络的工作情况。网络搜索的结果显示无法发现这几台工作站，但“Ping”测试却偶尔能有反映。一般来讲，出现此类“病症”的原因基本上是工作站和网络之间的匹配有问题，比如协议不匹配(一致)，驱动程序不匹配，网卡速度不匹配，Link脉冲极性不匹配，链路的接口物理参数不匹配，电缆、光缆规格不匹配(如使用了三类线等)，测试的方法比较简单，可以直接用网络测试仪、网络故障一点通、网络万用表自身具备的接口测试功能直接对网卡、集线器、电缆等进行测试。对5台工作站的网卡逐个进行测试，结果如下：网卡为自适应卡，工作速度10M，交换机端口为100M固定速度半双工设置，双方选用的协议完全匹配，物理电参数测试合格。因而进一步对从配线间到用户之间的电缆链路进行测试，结果发现5台工作站使用的电缆接头均为三类线接头。更换水晶头后用五类线标准测试均合格，5台工作站全部上网成功且速度很快。

用网络测试仪对不能提速的工作站进行测试，当网络测试仪模拟工作站发送5M流量时，用网络故障一点通接收之，显示收到的流量为5Mbps；而当网络测试仪从集线器近旁模拟50M流量发送数据帧时，收到的流量指示仅为10Mbps。这说明，网络只能以10M的实际工作速度运行，不能提速到升级工程实施前所预期的100Mbps的速度。重复上述类似的对网络和工作站的匹配性测试，结果如下：交换机设置为10/100M自适应状态；协议测试显示完全匹配；物理电参数测试全部合格。因此怀疑仍然是链路接头的问题。抽查了10条链路，用DSP4000电缆分析仪进行现场认证测试，结果显示全部链路都不合格。按下电缆分析仪的故障诊断信息健，指示链路的两个接头均不合格。我们注意到这些故障链路都在同一楼层。改用三类线标准测试链路，合格。这说明，该楼层的链路所使用的水晶头问题普遍比较严重。

继续对升级后速度比升级前的部分工作站进行监测，发现他们的流量为1.0％，而碰撞率为87％左右，另有12％左右的FCS帧错误。网络测试仪接入模拟工作站后仪器上的蓝色指示灯亮，说明工作状态是100Mbps。查看Lucy小姐提供网络结构拓扑图，发现速度变慢的用户共有4组17个工作站，他们的100M集线器级联数均达到了4个，出现所谓的雏菊链效应，影响网络的正常工作。碰撞数据尤其是延迟碰撞和FCS错误帧将大量出现。

[诊断评点]该网络出现的问题比较典型，许多网络在升级都会碰到类似的问题。首先，不少交换机产品是10/100M自适应的，交换机可以自动监测网络能够提供的工作速度，然后确定实际的工作速度和工作模式。比如，某些只能交换机现监测接口的链路脉冲，确定链路的连接速度，然后检测接口处的错误率，如果错误率低，则交换机工作在快速的“切发行”交换模式；如果错误率超过门限值，则交换机工作在速度稍慢的“存储转发型”工作模式。另外，一些交换机还允许用户手动设置端口的速度，以固定的速度模式访问网络。

前5台工作站不能上网原因是，工作站链路因使用了假冒伪劣的五类接头(实际指标是三类接头)，工作站只能自适应为10M链路速度，但因该楼层的工作组交换机被手动设置为100M接口状态，所以接口速度无法适应，工作站不能上网连接。

其它不能提速的工作站都在另一台工作组交换机连接的另一楼层，由于交换机没有设置为手动状态，其自适应的结果就是因假冒伪劣插头的限制链路速度被“适应”在了10Mbps的工作速度。

部分升级后速度更慢的用户原因在于雏菊链效应的影响。我们知道，10M以太网允许最多4个集线器级联，而100Mbps以太网之允许2个集线器级联。集线器一般不具备自适应能力，所以升级后很容易出现雏菊链效应。此时网络中会时限大量的延迟碰撞以及由此而生成的FCS帧校验序列错误出现，工作站在发送数据帧时常因无法发送完整无错的帧而被迫多次重复发送。除了占用带宽就是增大了有效数据帧的等效延迟时间，表现为用户的速度很可能比升级前更慢。另一些用户则表现为虽然速度有所提高但仍达不道预期的速度。

[诊断建议]建议用户将布线系统进行全面测试，对交换机进行设置，清理有可能出现的雏菊链效应结构，对实在有困难的集线器组则可以考虑增加交换机数量，以便分割和缩短雏菊链。

[后记]两周后随访用户，他们已经全部将不合格的水晶头更换。测试结果显示电缆系统都合格，知道庆幸。由于当初在工程施工时为了抢进度，各楼层的布线工程是由三家不同的工程商同时进行的施工。其中一层全部采用的是假冒伪劣的水晶头，另两层除了5台链路误用不合格水晶头外(具体原因已经无从查起)，全部使用的是合格产品。

对雏菊链拓扑的检查共发现7组集线器有“嫌疑”，按照我们的建议，增加了4台工作组交换机，用于分割雏菊链。网络现在工作良好。　

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

wangla

白手起家

论坛徽章:: 0

30楼 [报告]

发表于 2003-10-20 14:14 |只看该作者

网络医院的故事《转贴》

[故事之十三]交换机端口低效，不能全部识别数据包，访问速度慢

[症状]某大型化工股份有限公司信息中心主任洪先生向网络医院报告网络故障，新近进行网络的更新升级和扩容，由10M网全部提升为100M以太网，核心交换机为千兆以太网。完工后系统试机时发现，大部分的网络成员感觉速度慢，有时数据出错，但子网段内拷贝数据速度基本不受影响。Ping测试检查所有工作站和服务器均正常。遵照网络医院上周的建议他们对网络布线系统进行严格认证测试，布线施工质量优良，全部电缆光缆链路按超五类标准测试参数均合格，没有发现任何问题。由于信息中心除了电缆和光缆的认证测试仪外，没有其它测试维护工具，无法对网络进行评测。虽然仔细进行了网络系统及平台的重新安装，仍无济于事。由于总公司希望全面提高ERP系统的覆盖范围，新增的网络设备比较多，网上成员也增加了二倍多，工作站从原来的220台猛增至680台，办公区和生产区之间、生产区和生产区之间均用光缆和路由器连接起来，因此洪主任抱怨现在网络的管理成了问题，查找故障不象从前那样容易了，一来网络规模比以前大多了，故障数量和种类增多，二来网络结构变得比以前复杂多了，故障的定位分析和隔离变得比较困难。

该网络各子网段基本上采用核心交换机和工作组交换机作网络骨架，用桌面交换机和集线器混用的方式构成基层用户接入平台，核心交换机之间为千兆以太网连接，用户全部为100M到桌面。为了便于维护和管理，同时也从安全角度考虑，设计方案中将大多数数据服务器均安装在了网管中心。

[诊断过程]网络为新扩容的网络，从拓扑图上看不出网络结构设计有何不合理之处。由于在各子网段内拷贝数据时速度基本不受影响，所以分析数据多在跨网段时受阻。将网络测试仪接入办公区网络的网管中心，打开网段内的全部4个路由器的端口观察，网段间的流量为27％～42％之间，由于网络没有多媒体应用启用，因此如此高的流量记录是不正常的。我们需要观察这些流量的走向，于是在办公区将网络测试仪串入路由器与交换机之间(100M端口)监测，启动IP矩阵监测和以太网MAC矩阵监测功能，观察数据流向。结果如下，大部分的数据流向均指向办公区的WINS服务器，而WINS响应流量极少。查看拓扑图，该WINS服务器直接与一台工作组交换机相连，打开工作组交换机的端口记录检查，流量记录为13％，伴随少许碰撞指示记录。为了不影响用户的使用，下班后我们从测试仪所在端口向WINS服务器所在交换机端口P32的邻近端口P31发送高额流量，选值为90Mbps流量冲击，并在此邻近端口P31观察接收到的流量记录，记录显示为89.7Mbps，这说明端口P31的通道测试是合格的。然后对准WINS服务器所在端口P32发送90Mpbs的高额流量，观察P32端口流量冲击记录，结果显示为13.5％，并出现大量延迟帧，表明该端口通道测试不合格。将流量发送方向指向与该端口连接的上游端口P17，观察P17流量显示为90Mbps。问题很清楚，被丢弃和延迟的流量就在P32口。对WINS本身作WINS查询，10次测试响应只有2次，响应地址正确，响应率20％。重新测试WINS链路电缆，合格。测试WINS服务器网卡，合格；测试交换机的端口P32，低效。在此临时将WINS服务器端口P32改接到端口P33，重新启动系统，5分钟后进行上述测试，全部合格。为了验证P32口低效，用网络测试仪接入该端口并向P17发送90M流量，收到流量为12%。由于这台工作组交换机为新品，尚在保用期之内，因此建议立即更换之。

[诊断评点]网络中的大多数数据服务器由于设置在办公区的网管中心，所以公司整个系统的工作依赖集中式系统中的这些专用数据服务器，链路连接和数据交换时需要WINS服务器提供服务。与WINS服务器连接的链路中，交换机一侧的端口P32发射能力低效，使得发送的信号幅度不符合要求，由于链路长度不长，所以并不是对所有的数据包WINS服务器都无响应。有些数据被作为部分错误和碰撞数据由端口记录之，大部分从交换机各端口送往P32端口的的数据因链路接口问题被延迟和丢弃，造成记录数据中有用流量正常，而网络用户速度普遍偏慢的假象。交换机、网卡、集线器和路由器等网络设备的端口一般从工作2～3年开始出现低效现象，5年比例为3％～18％(这取决于不同的厂商产品质量，也取决于同一厂商的不同系列产品的产品质量)。由于系统中有大量的端口，所以在网络维护周期建议中要求每半年对端口性能进行定期测试。每一～二年对布线系统进行一次轮测，尤其对重要的网络设备如服务器、交换机、路由器等应该坚持定期测试，这样做对提高网络的可靠性有莫大的帮助。

[诊断建议]建议“病人”所有网络设备进行一次普查，将全部端口都进行备案测试，并列入定期维护的内容之一。

[后记]第二洪先生告之，上班后所有网络用户都惊喜地发现，网络速度比之以前有了惊人的表现，速度真正大幅提高，皆大欢喜。