免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
1234
最近访问板块 发新帖
楼主: wangla
打印 上一主题 下一主题

[网络管理] 网络医院的故事《转贴》 [复制链接]

论坛徽章:
0
31 [报告]
发表于 2003-10-20 14:15 |只看该作者

网络医院的故事《转贴》

[故事之十四]服务器、交换机、工作站工作状态不匹配,访问速度慢

[症状]网络建好了,对于系统集成商来说,设备的安装调试一旦完成,一般都要安排一个小小的庆贺仪式。而对于一家承担过十几项大型工程的系统集成商来说,面对一个400个用户的中型网络,设备调试的工作应该不是难事。但是,直接从庆贺仪式的准备现场赶来网络医院“报警”的病人今天还是第一此遇到。

某著名系统集成商专门负责政府网建设的项目经理罗先生今天十万火急地到网络医院电话急诊,请求紧急支援。原因是下午的“竣工验收”仪式和晚宴已经定好,本工程又是他们公司首次采用六类线电缆系统的样板工程,邀请的十几个重要客人今天下午均会相继“出场”。按原工程计划的进度安排,网络的调试工作用三天时间进行,于前天上午完工。而直到今天上午10:00为止,调试工作因遇到拦路虎,还没有成功通过系统调试。如果今天下午15:00以前不能调试成功,那么请来参观和观摩的客人自不必说,单就企业的声誉来讲,恐怕无可避免地将受到严重影响,且进一步的业务深入也将会受到严重影响。

罗先生反应的网络故障表现很简单:基本上所有的网络成员访问网络资源的速度都非常缓慢,Ping测试联通性表现良好,均在2ms以内,从服务器上拷贝一个20Mbytes的文件竟需要5分钟。

调试人员曾试着从相邻的工作站上拷贝一个20Mbytes,对比结果显示同样也需要5分多种的时间。怀疑是操作系统和系统软件平台安装上的问题,特别是服务器安装上的问题。调试人员已经将所有用户重新安装过两遍,凭借以往安装系统的丰富经验,他们十分有把握地保证操作系统和软件平台安装设置没有问题。为了了解数据包在网络中传输的对话情况,又从朋友哪里借了一台协议分析仪对收发包进行测试,结果显示包的收发反应时间基本正常,只是包的转发时间间隔很长,无法进一步确定是哪个环节的问题所至。网络的公共部分是一台10/100核心交换机和三台服务器,服务器直接与核心交换机相连,其它工作站则通过下属的工作组交换机和集线器等与之相连。起初怀疑是交换机的问题,试着更换了一台同型号的交换机,故障依旧。从主代理哪里借来一台服务器作替换试验也无效。

[诊断过程]我们立即随罗先生赶往“事故现场”,10分钟后抵达现场。首先从一台工作站上Ping服务器和任意选定的位子网内其它5台的工作站,响应时间均小于1ms,说明联通性尚可。调试人员怀疑是交换机问题的可能性是存在的,但我们认为证据不足。这是因为从邻近的工作站直接拷贝文件也很慢,这时数据包不经过核心交换机,有的虽通过工作组或桌面交换机,但有的则直接通过集线器。所以故障的公共部位比较可能的是新的布线系统、操作系统和系统软件平台、关键网络设备本身的故障或错误、网卡驱动程序错误等等。

用网络测试仪实施流量贯通测试,选择从任意一台工作站到服务器为一条通道,再任意选择该工作站到其它5台工作站直接的通道,共6条测试通道作试验样本。从测试仪上分别发送正常的IP包流量到上述6个对象,流量选定为健康指标的上限值,即40%。用网络一点通在被测试的站点模拟网络设备配合接收流量,结果发现收到的流量都不足1%,且广播包占20%以上。

缩短流量贯通路径,直接向邻近的工作站发送流量,结果收到的流量有两种明显的结果。一是流量大量增加,达28%左右,其路径是通过集线器连接的通道,属于正常表现。另一种结果同前面观察到的现象一致,收到约1%左右流量帧。观察收到28%的流量结构,其中92%~98%为碰撞帧,少量FCS帧。由于邻近的工作站是用集线器连接的,发生如此高的碰撞最大的可能性是电缆系统的问题。我们随即测试该六类链路,并任意抽查了其它5条六类线链路,测试全部合格。说明链路的物理联通性是合格的。但因为集线器、交换机等的物理接口是超五类的元件,六类线链路从理论上和厂家的承诺上讲应该与其能兼容。观察用于发送40%流量的网络测试仪自身的流量记录,碰撞率与上面的结果一致,提示该六类线链路可能与10/100M的网络设备阻抗不匹配。如果真是这样的话,那么问题牵涉的范围就比较广泛而且严重了。这是因为这涉及到六类链路与超五类器件的通用性和向下兼容性的问题,而这是六类线电缆厂家承诺和保证的优越性之一:采用五类和超五类设备的网络可以与六类链路任意对接,如果今后需要使用更快速的网络设备,则只要更换支持六类链路的网络设备就可以达到超高速的应用。

从网络的表现来看,因为这是首次安装的六类样板链路,并且是在六类链路上挂接超五类端口的网络设备,而网络的表现范围广、现象比较一致:出现大面积内的速度慢故障。协议分析仪解包显示包交换正常,不能证明是网络操作系统和软件平台的问题。所以,安装了影响全局的部分只有六类线布线系统,这也是调试人员重点怀疑的网络部位。我们当然不能由此认定是网络设备端口的问题或是六类线链路与端口不匹配。为了慎重起见,我们用两条超五类线缆连接两台相邻的工作站,再次试验拷贝文件,结果故障依旧。这说明六类线系统不是真正的故障原因。剩下的问题就是需要确认工作站工作协议、配置、驱动程序、物理参数是否与网络匹配了。方法很简单,将在线型网络万用表串入工作站和网络端口(我们分别选择了一个集线器和一台交换机的端口)。结果显示如下:一台工作站的工作速度为100M,端口设置为全双工,而对应的集线器设置为100M半双工;另一台工作站工作速度为100M,端口设置为半双工,对应的交换机设置为半双工。罗先生告知,网络中的网卡使用了三家公司的产品,都是非常知名的厂商。A公司的产品占90%,其余则为B公司的产品,另外,服务器使用的是服务器厂商C公司自己的网卡。

我们抽测了A公司的10张网卡,用网络万用表测试,显示设置全部是全双工;而抽测的5张B公司的网卡则全部是半双工设置。我们选择相邻的两台安装了B公司网卡的工作站拷贝文件,结果发现拷贝速度非常快,约3秒钟。

接下来我们把两台安装有A公司网卡的相邻工作站改为半双工状态,20Mbytes文件拷贝时间也是3秒钟。

选择被试工作站到服务器的通道,它们通过一台集线器,两台交换机后到达服务器。依次测试链路中的速度和工作状态,结果发现服务器网卡也是全双工设置状态。更改后试验从服务器上拷贝一个100Mbytes的文件,耗时约13秒。说明性能比较优良。

[诊断评点]故障的原因已经很清楚,该系统集成商选用了三家公司的网卡,而其中的A公司网卡被全部设置为全双工状态,服务器也被偶然地设置为全双工状态。但系统中的交换机、集线器等都工作在半双工状态,所以,凡事安装有A公司网卡的工作站工作速度都很长慢。其它安装了B公司网卡的工作站,虽然自身设置是正确的,但由于数量少,只站不足10%,加之服务器也被设置为全双工状态,所以调试时很可能与A公司或C公司的网卡进行数据对接,这样速度就无法正常。如果偶然地与同类B公司网卡进行数据交换,则调试人员有机会发现虽然所有的工作站与服务器连接速度慢,但并不是所有的工作站之间直接联络时的速度都慢。不过,因为A工商产品数量居多,服务器设置又不正常,所以这样的机会不多。

网卡的协议设置和工作设置会直接影响工作站的速度。一般来讲,工作站的协议设置多数时候不容易出错,但是否与网络的工作协议一致则有时会弄混。比如,工作站使用SMTP协议收发邮件,而网络的邮件服务器使用的是POP协议收发邮件,则工作站将无法进行邮件收发操作。比较容易出错的是10/100M设置状态、全双工半双工设置状态、链路数字脉冲极性选择等,这些方面的错误由于网络维护人员和安装调试人员的有意无意地疏忽,加上没有合适的检测方法和工具,往往会给系统集成商造成很大的麻烦,而故障原因却是如此地简单。很多时候调试人员使用默认设置,并不经常验证实际的状态如何。

本故障的诊断走了一些弯路。因为是新安装的六类线系统,使得故障诊断时有意地倾向于首先怀疑是否是此新系统与100M超五类系统(实际上,超五类系统是为1000M以太网准备的)不匹配方面的问题。如果首先在相邻工作站与交换机或集线器之间检查链路工作状态的检查,则可以在10分钟内找到问题。本故障实际耗时约100分钟,赶在13:00以前收工。

罗先生紧急动员所有调试人员立即检查并调整全部的A公司网卡,只用了不到一个小时就将全部设置改为了半双工状态。

[诊断建议]网络维护人员和部分安装调试人员往往错误地认为网络的维护和管理就是去管理服务器、工作站、打印机等网上设备。这是片面和有害的。其实网络维护人员真正需要下功夫维护和管理的地方是网络设备而不是网上设备。网络设备通常是指路由器、网关、桥、交换机、集线器、广域传输设备、电缆光缆等等。这些是被许多网络维护人员和部分安装调试人员忽视的地方。有的则是因所学专业的限制有意无意地忽视之,特别是对光电参数的验证和测试更是如此。

[后记]15:00正式的验收仪式顺利开始,验收工作非常顺利,在此不表。

论坛徽章:
0
32 [报告]
发表于 2003-10-20 14:15 |只看该作者

网络医院的故事《转贴》

[故事之一]网络黑客程序激活,内部服务器攻击路由器,封闭网络

[症状]某大型连锁超市集团计算机中心中心IT经理钟小姐,今天上午向网络医院报告网络出现严重故障。其中心网络的局域网速度很慢,与各地连锁店管理中心的资金结算和物流调配速度更慢。故障开始出现于两周前,先是感觉网络运行速度有明显下降,而后病情一天天加重,直至今天基本上处于近似瘫痪状态。内部数据调用需要3分钟(以前只需要3秒钟),与其它连锁管理中心之间每笔业务结算和物流配送出入栈登记都要花费差不多2分钟时间(以前只需要最多5秒钟)。造成大量货物配送无法履行相关手续,部分连锁店被迫采用手工记帐接受货物配送,大多数连锁店则大大减慢了货物配送的进程,超市货架已有不少断档供应,人手紧张。

钟小姐介绍,由于货物配送出入栈登记和结算中心设在中心网络,所以他们的网络维护人员最先对中心网络执行紧急抢修程序。Ping测试所有重要的服务器、路由器、外地路由器、外地服务器,结果都在15ms以内。说明联通性还基本良好。关闭中心网络系统,暂时停止业务,再重新启动运行。刚开始速度还比较快,但很快就在10分钟内迅速下降至病态水平。全部启动5台备用服务器,顶替原服务器当中的5台投入运行,网络速度有明显提高。不过好景不长,约2小时后,从网管系统观察,服务器流量比平常高,路由器流量基本满负荷。关闭一半的服务器和站点,网络速度有所提高,似乎网络流量与站点数量有关联,所以无法定位网络故障的准确地点。于是怀疑是否是有“病毒”在做崇,将所有站点和服务器用多种查杀毒软件杀毒,启动系统后故障依然如故。

[诊断过程]故障地点可能就在中心网络,但也不排除受其它远程网络影响的可能。所以从网络医院出来我们决定先前往该超市集团总部的计算机中心网络所在地。30分钟后我们抵达了目的地。我们将F68X网络测试仪接入中心网络交换机进行观察,逐个观察核心交换机和工作组交换机每个端口的Mib代理,发现除了端口流量偏高外,网络一切正常。不过,也发现一个奇怪的现象,那就是各端口的流量都基本相同,为50%~60%左右;询问钟小姐有无以前的基准测试记录和近期的网络健康测试记录,回答是没有。本网络自半年前建成以来一直工作优良,偶尔出点小毛病网管人员很快就能解决,所以除了机器档案和网络结构拓扑图外,再没有其它网络维护的文档。

可以肯定的是,如此高的网络流量必定意味着某种故障的存在。我们此时需要确认2点:一是网络平时主要的工作协议是哪些,二是这些流量是否是正常工作所需的流量。而这些数据都是该网络现在无法提供的。为此我们将F69X流量分析仪接入全部8个服务器和交换机之间,观察网络主干流量的应用流量分布。结果如下:各服务器均接受大约50%流量的cc:mail数据包,其它按服务器编号依次是Oracle应用占3%,HTTP应用占2%,MS-SQL server应用占1%,DNS应用占1%,Oracle

应用占0.5%,Informix应用占0.1%,FTP应用占0.7%。可见影响网络流量的主要是cc:mail应用。

观察cc:mail数据包的对话情况,基本上中心网络内的站点和服务器都有记录,并且有通过路由向外发送的数据包,这也就是说,中心网络的每个成员都在向该局域网内的所有成员发送邮件数据包cc:mail !问题是,这些邮件数据包是如何进入各服务器和工作站的。我们同网管人员一起了

一下回顾病情发作过程,今天是1月13日,故障是2周前出现的,也就是2000年元旦前几天开始发病的。我们请大家一起帮助回忆是否在网络上运行过非法软件,包括贺卡之类电子的邮件。钟小姐回忆当时曾发现网管人员互相传阅过一个很有趣的电子圣诞卡,钟小姐本人也很喜欢这张贺卡,但出于职责和管理制度的规定还是制止了。会不会是这张卡在“作怪”呢?

我们选择3台主服务器和10台站点作格式化硬盘并重新安装系统,将备份数据还原到服务器中,此时只允许远程连锁管理中心与计算机中心的3台服务器进行业务数据传递和计算。其它服务器和工作站则暂时关机。启动系统进行正常操作,同时监测交换机相应端口的流量,均小于4%。网络一直工作正常。这说明格式化以后的服务器不再运行cc:mail应用程序。坚持到晚上22:00所有连锁店打佯,启动未曾格式化的服务器和工作站,并请下辖11个远程连锁管理中心网管人员配合模拟进行网络业务操作,约10分钟后,端口流量开始迅速上升。从流量分析仪上观察到的现象是:非法的cc:mail应用流量首先从6号服务器,然后紧接着从17号、42号、31号工作站和其它服务器陆续出现。在出现cc:mail应用流量以前均有FTP协议应用流量出现。检查这几台机器均安装运行过贺卡程序“My World Is In Favor”。

现在,我们可以得出初步的诊断结论了:首先,非法的网络应用可能从贺卡开始,然后在数据交换的时候“Favor”程序自行展开成为黑客程序,对准所有有过数据交换的站点发送cc:mail应用数据。由于该程序具有传染性,很快局域网内的所有站点都会感染上此黑客程序并依次发作。由于应用流量设计不是很高,所以发作过程相对较长,每个交换机端口通过的流量也基本对等,表现为50%左右。将捕获的数据包进行解码分析,邮件为单向传输,无回应。内容循环显示为:

“My world is in favor ,I love you”

停止网络运行,将所有网络设备断电(包括路由器),并将所有服务器和工作站格式化,将人员分组,重新安装系统和应用程序,恢复备份数据,经过近4小时的紧张工作,于次日7时重新启动网络运行。至中午12:00监测的数据流量端口小于5%,服务器小于4%。

[诊断评点]网络应用中的危险因素很多,为了净化网络环境,最起码的要求是不允许在专用网络上运行任何非法程序和盗版软件。本故障由于网管人员私自运行了携带黑客程序的软件,导致网络遭受高流量冲击,几乎近于瘫痪。本黑客程序的发作机理比较隐蔽,先逐个感染局域网内的服务器或工作站,然后逐渐在有数据应用时展开程序进行流量争用,使得网络流量逐渐增高。路由器采用的是DDN和部分ISDN链路,因瓶颈效应的存在更容易被堵塞。所以网络速度表现为局域网速度变慢而广域链路则更慢。由于网络流量分布比较均衡,所以当网管流量报警门限设置比较宽松时,网管系统将不会出现报警信号(该网管没有进行报警门限设置)。而此时网络的总体流量负荷却已经接近于极限值,路由通道更是拥挤不堪。

[诊断建议]基准测试是网络定期测试的项目之一,坚持基准测试可以帮助网络维护和管理人员掌握网络的变化趋势和故障出现的方向和规律。比如,基准测试数据显示网络平时的平均流量小于6%,网络工作协议共有15种,那么当流量出现超过6%时就能引起网管人员的注意并即时监测其变化,核对工作协议以确定是否有非法协议运行。以“此案”为例,网络合法的工作协议中并没有cc:mail协议,而此时出现了这种协议,网管人员就必须立即对其进行清理。比照网络基准测试的文档备案资料,本故障本可以立即得到纠正;另外,流量管理是网络管理进行到高级阶段时必须实施的监测和管理手段,对于监测网络应用、跟踪黑客、净化网络协议、查找网络疑难故障、介绍网络运行费用、优化网络结构等都有着非常大的帮助。最后,从预防网络故障的角度出发,加强内部管理,加强用户教育的工作要始终认真坚持并严格执行。

[后记]钟小姐第二天来电告知,网络一直工作正常,从流量测试仪上观察,非法协议应用一直没有出现,还将继续监测一段时间。他们现在正在对网络进行文档备案和基准测试,从今天起开始长期监测并分析网络的健康指标,实施“网络健康维护战略”。

论坛徽章:
0
33 [报告]
发表于 2003-10-20 14:16 |只看该作者

网络医院的故事《转贴》

[故事之二]局域网最常见十大错误及解决(转载)

网络故障是在所难免的,重要的是应快速隔离和排除故障。网络维护人员应该配备相应的工具和相应的知识,以便及时、有效的找到和解决问题。本文讨论了网络技术人员和工程师经常遇到的十个令人头疼的问题。先分析问题,然后讨论使用何种工具来帮助查找和进行故障隔离。旨在起一个抛砖引玉的作用。
问题1:逮捕物理层的滥用者
-用户抱怨-不能登陆或时断时续
-症状-只影响一个工作站,而该站原先没有问题
-查找问题:
  电缆终端链路太长。用户每天都移动,弯曲,连接和切断网络终端(尤其时膝上型笔记本电脑)。廉价的电缆测试仪就能检查这种问题。在你能确切地说是电缆的问题之前,通常首先考虑不是电缆的问题。这需要使用网络测试工具来证明本地网段的健康状况是否良好,集线器端口功能是否正常,网卡及其驱动程序工作是否良好。最后,检查网络互连设备是否有问题。只有此时,你才会知道为了孤立有问题的终端,断开的连接器或是接地回路等问题该从何处着手测试电缆。在铜轴线网络中,搜寻在同轴“T型头”和网卡之间的断头,在UTP网络中,连续运行仪器图测试功能,不断扭动终端以识别接触不良或短路。
-解决问题:
  更换工作站连接电缆,更换损坏的连接器,或者必要的话停止使用水平电缆。再次全面检查处理过的电缆。

问题2:快速以太网比升级前的以太网还慢
-用户抱怨-10Mbps的以太网速度慢,升级为100Mbps快速以太网后甚至不能连接上网。
-症状-影响新工作站或升级的工作站连接上网。
-查找问题:
  对于UTP5类非屏蔽双绞线,用电缆测试仪测试其是否符合对应100Mbps传输速率的EIA/TIA-TSB67标准。某些在10Mbps以太网工作正常的电缆链路因为近端串扰太大在100Mbps以太网就不能正常工作。信号耦合到邻近线对引起高频信号传输失败。将UTP的线对分开甚至会使网络在达到一定流量时瘫痪。
-解决问题:
  更换或停用不能连接的链路,故障清除后再全部测试处置过的链路。
问题3:无效的看门狗
-用户抱怨-不能连接Novell网络的Netware远程服务器
-症状-影响本网段内与服务器相连的所有工作站
-查找问题:
  检查网段的健康状况,注意观察其利用率,碰撞,错误帧和广播帧水平。此时可观察到大量的碰撞或错误帧,该碰撞或错误帧可引起客户机和服务器之间“Hello”帧出现延迟。再某仪指定的服务器所再的远端网段重复此测试。如果两个网段都出现空白,用网络测试仪向路由器中的SNMP代理查询,检查两个网段之间的路由表。确定该路径不存在拥挤问题。为了有效地使用资源,在看门狗允许地时间内如果客户机对“Hello”帧无反应,则Novell服务器会将该客户机注销。
-解决问题:
  简便地方法时改变看门狗时延地参数,将Novell服务器中的该参数改大。如果情况有所改善,则可确定为引起帧丢失的原因,纠正看门狗延时帧计时器的参数。

问题4:刍菊链效应
-用户抱怨-网络服务变慢
-症状-影响某个以太网段的所有用户。网络服务(访问服务器)变慢,但与所连接的某的服务器无关。
-查找问题:
  在高峰时段将网络测试仪连入集线器,运行网络健康状况测试。此时将会观察到大量错误帧。在10BASE-2网络中,错误帧的类型归类为“延迟碰撞”。在10BASE-T网络中帧错误的类型归类为典型的帧校念序列错误(FCS错误),随着网络用户的增长,新增加的集线器通常与原来的集线器形成效应。
-解决问题:
  统计一下任意两个网络设备之间经过的中继器的数量。在10Mbps以太网中不应超过4个,在100Nbps快速以太网中不应超过2个。如果数量超标,则按以太网的标准修正网络拓扑结构,然后再错误帧是否还出现。
问题5:IP网络管理者的报应
-用户抱怨-一个工作站间隙性出错,不能登陆或者不能访问远端服务器
-症状-只影响一个工作站,通常在增加、移动、变更工作站后出现此问题
-查找问题:
  先排除用户是否有帐户和安全设置方面的潜在问题。让用户登陆并且试图从另一个工作站重复这一操作。如果成功,则可以用网络测试仪从用户端到服务器之间的链路状况。然后测试网卡,检测硬件和驱动程序的功能和状况。如果没有问题则检查IP设置,确定用户的IP地址是否有效或者是否有重复的IP地址。确定本网段的子网掩码和路由器默认地址是否正确,DNS服务器(如果有)地址是否专用。如果一个新工作站的IP地址与打印服务器的 IP地址设置重复,将会把每个人的打印工作指向该新客户机。
-解决问题:
  改为合适的设置,然后重启工作站

问题6:光纤错觉
-用户抱怨-整个网络变慢
-症状-影响所有连接到网段上的工作站
-查找问题:
  在正常的网络使用时段,将网络测试仪连接到集线器,在光纤连接的两端产生流量,每边健康状况。在某一时刻断开或接上光纤,每当光纤连入网段时,就会观察到大量的错误帧。劣质的光纤链路连接会在其附属的网段中产生大量垃圾帧,迫使工作站重发帧,网络速度变慢。
-解决问题:
  清洁或重新安装好光纤连接器,复位所有的连接器,再次检查网络健康状况,此时应该只有少量的错误帧。
问题7:奇怪!难道电缆在夜间受到过撞击?
-用户抱怨-不能连接上网或不能登陆
-症状-网段上只有一个工作站能上网
-查找问题
  断开工作站的连接电缆,接上网络测试仪,注意从集线器上检测不到连接信号。运行电缆测试,查看从办公室到配线间之间的电缆是否开路。如果长度正常,将工具设置在音频发生器位置,从配线间用音频探测器查出与办公室对应的电缆,通常情况下,在配线间有变动时,电缆线索会受到推挤和碰撞,引起连接器脱落或松动。
-解决问题:
  重新插好工作站和工作站和集线器之间的电缆连接器,查看连接信号指示灯是否发亮,确定用户是否能上网。

-问题8:“病人”的心还在跳吗?
-用户抱怨-在网络繁忙的稿费期访问网络的速度很慢
-症状-个别网段的所有工作站对不论是本网段的服务器还是其它网段的服务器都无反应。
-查找问题:
  在高峰时段将网络测试仪连接到该网段。运行该网段的网络健康测试,注意网络的利用率、碰撞、错误帧、广播帧的状况,此时可能看到平均碰撞率不正常,观察到的流量中可能有高达50%是碰撞帧碎片。这是帧信号收发错误——SQL(Signal quality error)的表现。“心跳”信号被不经意地停留在“博”的位置。
-解决问题:
  定位网络中每一个信号收发者。检查SQE开关是否位于“关”的位置。此信号用在早期的10BASE-5以太网中,新的以太网设备已不再使用。
问题9:可以连接,但不能登陆
-用户抱怨-不能登陆到欲连接的服务器
-症状-问题通常再新安装或重新设置工作站后出现,但仅限于一个工作站
-查找问题:
  断开工作站连线,接上网络测试仪,执行IPXPing或者再取得服务器列表后来检查配置得哪一层得网络协议。注意帧得封装类型(例如802.2)。现在可以测试网卡,检查安装和运行程序是否正确。还要注意检查网卡绑定帧得类型(比如802.3)。两个帧类型要匹配,如果服务器和工作站运行得帧类型不同,则不能连接上网。
-解决问题:
  用Editor打开工作站得NET.CFG,修改其中一行:将FRAME-ETHERNET-802.3改为FRAME-ETHERNET-802.2之后将工作站连接上网,重启。检查服务器连接状况。

问题10:莫名其妙得间歇性连接中断
-拥护抱怨-服务速度太慢,连接间歇性中断
-症状-问题仅再一个网站上出现,与正在访问得代理服务器无关。
-查找问题:
  断开网站,接上一个具有流量发送(此为诊断过程得一部分)功能得测试工具,检查网络得利用率,碰撞和错误帧水平,确定网络是否健康。若仪器检测通过而只是网站时通时断,则表明时典型得物理层故障。进行电缆链路测试(包括用户连接电缆),此时长度测试可能显示电缆超长(UTP电缆为100米,铜轴电缆为185米)。超过IEEE规定的允许长度,着将会引起局域网内的传输信号严重衰减。
-解决问题:
  在链路中增加中继器,使电缆长度限制再允许的范围内。另一个办法就是用光纤代替电缆或铜轴线。
总结:从以上例子可以清楚的看到,为了查找通常的网络错误,配置合适的网络测试工具是非常必要的。

论坛徽章:
0
34 [报告]
发表于 2003-10-20 14:16 |只看该作者

网络医院的故事《转贴》

[故事之三]  浅谈局域网故障排除

大多数网络故障缘于硬件:比如电缆、中继器、Hub、Switch和网卡等。一般来说,可以用二分法隔离、划分故障在一个小的功能段上,排除最大的简单段,然后再从一个方便的、靠近问题的点入手确定、排除故障。首先,我们要查找故障的位置。
  在查找过程中,一定要沿网段多做几次测试。如果故障现象随测试点的不同还保持一样的话,就可以依照测试结果去排除故障。如果故障现象在一些或所有的测试点都不相同的话,就要把查找故障的方向定在物理故障。例如坏电缆、噪声、接地循环等。要提高测试质量,在测试的同时要把测试仪器设置成至少可同时发送较低的流量。由于增加了网络流量,微小的和间歇性的故障会被暴露出来。

  在测试网络前要排除单机故障的可能:
  重新冷启动PC机(热启动不能复位全部的适配卡),确认PC机没有本身的硬件故障,确认所有的网络电缆都连接正确,确认所有的网卡驱动软件都正常地装入,没有错误,确认服务器或服务没有改变,比如重新配置增加硬件或软件。

  我们经常会遇到下面的网络故障现象。

  不能访问服务器或某项服务
  要先测试一下这一故障是只影响该工作站,还是影响其它站点,可以通过其它工作站登录服务器或服务来证明这一点。这些工作站要在同一网段或Hub上。如果故障在同一网段或Hub上的其它的站点也存在,就试着从其它的Hub或网段上的站点进行测试。

  本地故障
  在进行硬件故障查找以前,要确认其它用户也不能登录从这台机器上,这就排除了用户帐号的错误。对一个单一的站点来说,典型的故障多发生在坏电缆、坏网卡、驱动软件或是工作站设置的不正确等问题上。

  全局问题
  通常来说,在同轴电缆构架的网中查找故障要用“二分法”来解决。间歇性的故障是比较难以隔离的。

  关于电缆
  检查电缆连接性。常用方法就是检查Hub、收发器以及近期出产的网卡上的状态灯。如果是10BASE5的电缆,要仔细检查所有的AUI电缆是否牢固地连接,划锁要同时锁牢,很多问题只要简单地把未接牢的部分重新紧一下就解决了。

  电缆和连接部件受损
  在检查问题时,要注意受损的电缆和连接部件:不正确的电缆类型、未打好的RJ45头、未按牢的BNC头等。对怀疑有问题的电缆可以用一般的电缆测试仪或替代法进行测试。

  连接接口的正确性
  连接接口的不正确,即电缆的接线错误可以引起故障。

  碰撞问题
  如果平均碰撞率大于10%或是观察到非常高的碰撞,就需要进一步的测试了。如果可能,试着通过减少网段规模(将网络分成小段)并随时监测碰撞的变化以隔离出发生问题的区域。为了跟踪碰撞情况,就必须知道网络的流量。可以使用背景流量发生器来加入适量的流量(100帧/秒、100字节长的流量),并同时观察网络的统计显示。某些和介质有关的故障是与流量的大小成正比的。可以用控制键改变流量同时观察碰撞与错误的改变。在同一网段相距几尺远的不同观察点所看到的情况就不同,要多找几个点来测试并留意所发生的变化。
  如果碰撞与流量成正比,或碰撞几乎是100%,或几乎没有正常的流量,则可能是布线系统出了问题。对于UTP的布线,可以在Hub上断开电缆然后进行电缆测试。对于同轴缆就要进行阻抗测量,可以使用数字表或其他仪表的直流通断功能进行测试。

  利用率过高
  如果利用率过高(平均值大于40%,瞬时峰值高于60%),那么网段负荷就过重了。应当考虑安装网桥或路由器以减少在网段中的流量或把网段分成若干小的网段。

  客户服务器的连接
  连通性
  使用专业仪表,你可以运行Server List或Novell Ping测试功能,用来验证从测试点是否可以访问服务器或服务功能。如果服务器没有回应,重新冷启动服务器并注意观察所有所需的驱动软件是否正确加载,有无错误提示。另外,也可对服务器进行几次Ping测试,要确认请求信号与返回的响应信号数目相等,结果不一致则表明有时好时坏的网卡或Hub的故障导致帧的丢失。临界状态的和已坏的桥或路由器也可以用此方法很快地定位。

  服务器或服务的可达性
  如果使用协议分析仪,就要捕获3至4分钟的数据包来分析。看一下是否有从服务器发出延时请求,并找出是哪个服务器,如果有延时请求,则表明服务器不能完全处理所加载的任务,每一个延时请求作废一个任务请求。
网络响应慢或性能差
  首先,要确定一下是否是与网络介质有关的故障,是一个工作站的问题还是一个服务器或是服务的问题。从其它工作站去访问同样的服务器或服务,并询问本段网络或其它网段上的用户,如果问题不是与介质有关的,要确定问题是否是软件有关,检查网络利用率和软件错误来查找性能差的网络问题。
  运行诸如网络统计这样的测试,看一下是否有高流量和不正常的高碰撞存在,在增加背景流量后再运行一下这些测试。如果发现碰撞和PCF错随着流量的增加而增多话,你就应运行电缆测试来检查工作站的连接性。
  碰撞问题
  如果碰撞较多,要算一下有多带宽被碰撞损失了。把本地和远端碰撞的损失都加起来,如果平均碰撞的值大于5—10%,就要进行进一步的故障查找。同样要检查一下碰撞是否是突发的,也就是说碰撞明显地增多不是因为流量明显增大引起的,如果是这样就意味着某处的物理层出现了比较严重的问题。在碰撞与流量之间应是有一定的关系的。这种关系应当在做网络参照基准测试时收集到。如果碰撞始终是比较多的(但仍是可以接受),可能是太多站点同时在参与发送,或者网络结构应做一些优化使近距离的站点分在一起。过多的碰撞最常见是与介质有关的故障导致的。比如:不正确的端接,特性阻抗不连续(坏接点、残留支缆、残破线缆)等和坏网卡。
  过载网段
  如果利用率很高(持续峰值超过60%)而碰撞又可以接受(平均碰撞小于10%),那么网络就饱和了。这时就应该增加网段或用路由器把网段分成较小的可以支持正常流量的网段。
  硬件故障
  如果出现帧错误,利用专业仪表可以找出错误帧的来源。此后的工作就是在Hub口、网卡和电缆中隔离出特定的故障,如果故障是间歇性的,就替换掉有怀疑的网卡。检查一下服务器/服务是否接在广域网路由器的远端。如果是这样,就用Ping测试来测一下响应时间并与基准测试比较一下。为了保证没丢失帧的情况就要连续运行多次的Ping测试,检查测试请求包与响应包是否相等。如果不相等,远端的介质或互连设备(网桥、路由器等)就有可能是容量问题或有故障。丢帧也是电缆故障之一。比如:UTP布线中的线对串绕和同轴缆由线的环地故障。如果怀疑有丢帧就进行电缆测试。测试接在反应慢的工作站的电缆,也要测一下服务器方向的电缆。
  软件故障
  运行网络统计测试,如果是高流量,低碰撞,而且有一点错误帧,就先确定发出错误帧的站点。也可以由繁忙站点测试来找出有问题的站点。到该站点现场来查看该用户在做什么。要问明在非高峰时间用户在干什么或把这个用户移到其它网段上,以改善本网段上的其它用户工作情况。如果利用率、碰撞、错误帧都低,要询问抱怨网络性能不好的用户是使用哪个服务器和哪个应用软件。检查该服务器是否处在高负载状况下,它和网络的利用率是不同的概念。要找到使用这个服务器资源最多的用户,这可以用服务器上的用户监测功能或协议分析仪来完成。
  无论是网络流量高或低时发生的问题,如果是碰撞很少而且是没有帧错误,这类问题多出自应用软件或与文件服务器有关。服务器可能是Cache设置的太小,保留的缓冲不足,服务器内存不够,服务器硬盘所余空间有限,8-bit网卡等等,这也可能是另一类软件问题,他们可能造成不正常的“网络磁盘请求”,这时有必要将某一应用移到另一个服务器上,要么升级现有的服务器,要么再加入一个新的服务器。
  网络故障可能是很复杂的,很多问题会导致同样的故障表现不同。查找故障的基本方法是二分法。为了有效地解决故障,我们需要有网络的文档。了解在网络正常工作时的参数,要装备合理的工具以帮助我们找出网络的故障。从上述的两大类故障中可以看出,网络管理人员不仅需要网络的帧监测工具,也要有主动测试硬件和功能的能力,方便地找出网络中最常见故障的地址。

论坛徽章:
0
35 [报告]
发表于 2003-10-20 15:15 |只看该作者

网络医院的故事《转贴》

good!

论坛徽章:
0
36 [报告]
发表于 2003-10-20 17:23 |只看该作者

网络医院的故事《转贴》

网络医院的故事一直是我比较喜欢的文章,可以学到很多东西。顶一下以示支持。

论坛徽章:
0
37 [报告]
发表于 2003-10-20 19:11 |只看该作者

网络医院的故事《转贴》

欺负小猫上网的人!!
呵呵。
好东东。。

论坛徽章:
0
38 [报告]
发表于 2003-10-22 08:53 |只看该作者

网络医院的故事《转贴》

好文章,收藏,要好好地学习研究。
不知这些好文章是从哪里收集到的。

论坛徽章:
2
2015年迎新春徽章
日期:2015-03-12 10:39:39IT运维版块每日发帖之星
日期:2015-10-10 06:20:00
39 [报告]
发表于 2003-10-22 10:49 |只看该作者

网络医院的故事《转贴》

thx

论坛徽章:
0
40 [报告]
发表于 2007-10-17 11:31 |只看该作者
绝对的好东西
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP