number321 发表于 2013-09-12 00:43

ping三层交换机掉包,并且内网PC机经常断网

本帖最后由 number321 于 2013-09-12 00:46 编辑




公司内网结构如图。
外网的线路接到H3C的ER5100路由器,然后再接到华为quidway S3328的三层交换机上,再接到各个楼层的二层交换机。
quidwayS3328上划分三个vlan,vlanif配置IP作为各网段的网关,每个楼层一个网段。

-----------------------

之前这样的配置一直能正常运行。最近两三天才出现的问题,能够观察到的现象如下:

1.大家都上班在用电脑时,此现象明显,下班以后随着使用电脑减少,网络逐渐恢复正常。

2.随便找一台PC机,ping三层交换机时,例如192.168.2.1、192.168.3.1,发现丢包严重,丢包情况大致如下。并且一台电脑同时开两个命令行ping三层交换机的同一个IP,丢包情况不一致。例如其中一个命令行中的ping提示超时,另外一个命令行此时是能ping通的。ping其他网络设备,例如路由器IP,各个楼层的二层交换机的IP,完全没有丢包。

请求超时。
请求超时。
来自 192.168.1.1 的回复: 字节=32 时间<1ms TTL=64
来自 192.168.1.1 的回复: 字节=32 时间<1ms TTL=64
来自 192.168.1.1 的回复: 字节=32 时间<1ms TTL=64
请求超时。
请求超时。
请求超时。
请求超时。
请求超时。
来自 192.168.1.1 的回复: 字节=32 时间<1ms TTL=64
来自 192.168.1.1 的回复: 字节=32 时间<1ms TTL=64
来自 192.168.1.1 的回复: 字节=32 时间<1ms TTL=64
来自 192.168.1.1 的回复: 字节=32 时间<1ms TTL=64
来自 192.168.1.1 的回复: 字节=32 时间<1ms TTL=64
来自 192.168.1.1 的回复: 字节=32 时间<1ms TTL=64
请求超时。
请求超时。
请求超时。
请求超时。
请求超时。

3.部分员工的电脑有时候会无法上网,过一会电脑自己又恢复。
当某台电脑在无法上网时,三层交换机上看不到有该电脑对应的ARP记录,自己恢复上网时,再查三层交换机有对应的ARP记录。
在电脑上用arp -a查看记录时,也是能够上网时可以看到有网关的ARP记录,不能上网时看不到。
大部分的电脑无此现象,部分电脑偶尔有这种现象,少数电脑频繁出现这种现象。

4.内网的远程连接经常出现断时间的中断。
例如某台PC机正在通过SSH登录到内网的另一台linux服务器,或者通过mstsc登录到内网的一台windows服务器时,经常出现短时间中断几秒钟到一分钟不等,然后又恢复连接的情况。

5.无明显的网络风暴和ARP攻击迹象。
在三层交换机上查看CPU使用率只有5%,各个端口的带宽和数据包数量也不高,和平时上网时一样。
三层交换机日志中未出现有IP-MAC冲突的记录,员工电脑上的ARP防火墙也没有报ARP攻击。

-----------------------

请问有人遇到过类似的问题吗,可能是什么原因导致的呢?
我如果要解决这个问题的话,应该从哪些方面着手来进行排查,或者利用什么样的工具来辅助排查呢?
目前我怀疑是s3328这个三层交换机有问题,因为已经用了很多很多年了,但不知道交换机一般是哪里会出现故障。











ssffzz1 发表于 2013-09-12 08:43

1、你PING的时候看看ARP表,MAC表,STP等有无变化。
2、查看交换机的CPU利用率是否高,接口是否有错包,接口的速率是否高。
3、看看交换机的ARP MAC表的数量有多少。

number321 发表于 2013-09-12 08:58

display cpu-usage的结果是这样,其他全为0,低的时候SOCK是1-2,OS是5-6。应该使用率不高。
VIDL                  89%               0/24e21f92
SOCK                     4%               0/ 1fe4531
OS                     6%               0/ 16329aa


ARP MAC表里面全是动态学习到的ARP记录,共有145条记录,应该也不多。

另外又发现一个现象,就是当网络短时间中断以后,再到交换机上用dis arp查看,ARP记录的超时时间全部都是20。
看起来好像是ARP记录全都消失然后,交换机重新获取。或者交换机又刷新了一次所有的ARP记录。但导致这个问题的原因不知道怎么检查。

number321 发表于 2013-09-12 13:35

另外部分电脑有时不能上网,过一会又好的情况,我观察了现象是这样的:

1.当某个电脑不能上网时,在三层交换机上查看ARP表,能够查到这台电脑正确的ARP记录。
2.在不能上网的期间,电脑ping不通网关,用抓包工具查看电脑上的ARP包,只有发送给网关的ARP请求,没有接收到的应答。这个期间三层交换机上的ARP记录还在,手工清除ARP记录后发现没有重新获取新的ARP信息。
3.当又恢复上网时,交换机上能够看到有新的正确的ARP记录,并且这时电脑上抓包也能收到网关的应答。

也就是感觉电脑发送ARP数据包给网关时,网关过了很久才有应答,或者是根本没有成功把数据包发到网关,过了很久才发送成功到。

ssffzz1 发表于 2013-09-12 17:10

流量不大吗???

你可以DEBUG ARP报文看看,不过有设备死掉的风险哦。如果ARP报文很多很多的话,貌似攻击了。

ssffzz1 发表于 2013-09-12 17:11

STP没有翻动吧???

number321 发表于 2013-09-12 19:50

本帖最后由 number321 于 2013-09-12 19:55 编辑

不太清楚怎么查。。

我用display logbuffer看日志,只有几条很平常的日志。以前遇到内网有ARP攻击,都是直接交换机上报MAC地址冲突的。

各个端口的流量也不高。

现在我只能观察到现象,但不清楚导致问题的原因,请问应该怎样来定位问题所在呢?

ssffzz1 发表于 2013-09-12 20:27

先执行
td
tm
在用户模式 > 下执行。
然后debug ? 貌似有个ARP的关键字,可以看到系统对ARP报文的处理。

number321 发表于 2013-09-25 11:45

今天我又发现一个奇怪现象,我的电脑win7的系统,有一段时间不能上网,用arp -a看我自己电脑的ARP表,发现网卡的信息是没有的,过一段时间又有了,但很快又没有了,就这样重复了几次以后才恢复上网。

之前我一直以为是三层交换机因为某种原因无法获取PC机发来的ARP请求,导致PC机的ARP表超时以后,发送的新请求没有到网关,才会不显示有网关的ARP记录的。
现在看来,还有某种原因会导致PC机删除已经获取到的网关的ARP信息,不过什么情况会导致这种现象发生呢?

ssffzz1 发表于 2013-09-25 14:19

你能抓包吗,出问题的时候。
页: [1] 2
查看完整版本: ping三层交换机掉包,并且内网PC机经常断网