忘记密码   免费注册 查看新帖 | 论坛精华区

ChinaUnix.net

  平台 论坛 博客 认证专区 大话IT HPC论坛 徽章 文库 沙龙 自测 下载 频道自动化运维 虚拟化 储存备份 C/C++ PHP MySQL 嵌入式 Linux系统
最近访问板块 发新帖
查看: 40310 | 回复: 76

分享一起经典故障案例 [复制链接]

论坛徽章:
0
发表于 2010-04-01 20:49 |显示全部楼层
本帖最后由 mycoding 于 2010-04-07 10:04 编辑

案例描述:

服务器A和B同是属于一个VIP的Real Server,C、D、E、F、G等数十台服务器和A、B同属于一个IDC,同一个网段。
A、B提供后端存储服务,C、D、E、F、G等做web前端




环境:

硬件:
A、B 配置相同,其后分别外接一套存储
C、D、E、F、G等配置也一样

OS: CentOS 4.3 32bit

网络环境:
A、B、C、D的内网同属于一个交换机
E、F、G等的内网同属于一个交换机
但A、B、C、D、E、F、G的内网都同属于一个网段


现象描述:
1:在从A服务器上同步文件时发现在C、D、E、F、G等机器上的下载速度是不同的,有些机器可以达到几十Mb,有些只有几十Kb,同一网段的而且还都是走的内网,这差别也太大了。
2:从C、D、E、F、G测试发现到A服务器的延时很大大约在10ms左右,而到B服务则是正常的,在0.2-0.4ms左右。
3:初步检查A和B的负载以及IO以及连接数,均为发现异常。
4:C、E、F、G等的负载和IO也未发现异常。


问题:
1:导致到A延时较大以及下载速度差别较大的原因到底是什么呢?
2:如何去进一步查找分析原因、并解决问题?
3:如果您遇到这样的问题,改从何着手分析呢?


欢迎大家发表自己的分析思路,此案例的答案稍后公布。。。。。


----------------------------- update @ 2010-04-06 ----------------------------------
答案已经公布请大家翻看帖子查找吧.

附:故障时内网网卡流量分析,看看能否看出什么问题么?





-------------------------------update @ 2010-04-07 -----------------------------------
再次更新下当时的分析处理过程...

下面是我们起初分析处理的过程:
1: 检查这几台服务器所属的交换机,是否有限制?是否交换机过载?
经检查交换机未发现异常,所涉及到的端口都没有错误包记录,也没有Qos类的限制,只是这几台服务器属于一个B段,然后我们就思考是否是服务器上的路由导致的问题,随后检查路由也无异常
网络的原因大致排除掉了,只能再次寻找原因。

2:正当我们纳闷的时候发现延时恢复正常了,下载速度也恢复正常了,随后切回服务,很快故障现象有出现了。
怀疑是网口问题或是网线问题,随后把更换了B和A的网口做了调换问题依然,排除了交换机网口出问题的可能。

3: 继续排查这次定位到了网线上,随后更换了A的内网网线,问题依然。又排除掉了网线的可能。

4:A网卡没有丢包、没有报错,为何B机器没有这样的现象呢,难道.... 随后把A、B的内网做了互换,发现A恢复正常,其他服务器到B的延时开始变大,上述想象再次出现在服务器B上。
随后检查负载均衡的配置没有发现异常。。。。再次没有了头绪


5:到此为止把其他一切外在的因素都排除了,剩下的只有再次排除A本身了。
把之前做的变更全部还原,从新切回服务测试。。。。
这次我们对A和B同时做了流量的分析,终于发现了问题。。。。。



通过内网的流量分析我们发现此时网卡已经达到了千兆网卡的IO峰值,从而形成了网络IO瓶颈。
从而导致上述现象,只是我们在分析的时候未考虑到网卡的IO极限。。。。
从而在分析问题的时候走了很多弯路。
不知道大家有没有遇到过类似的网卡IO达到极限的问题。


总结一下:

1:要尽可能多的了解每个产品线的架构、以及其临时的调整。
2:回滚。但一个故障出现时,我们可以先去试着回滚到正常情况,然后再试着去分析问题。
3:要尽可能先从自身寻找原因。包括 服务、磁盘、存储、还有网卡IO。


通常的思考很难一下定位到网卡IO超载的,这也是个人以为此故障经典的地方,希望和大家一起分享。

论坛徽章:
0
发表于 2010-04-01 21:11 |显示全部楼层
期待答案。。。。

论坛徽章:
379
CU十二周年纪念徽章
日期:2014-01-04 22:46:58CU大牛徽章
日期:2013-03-13 15:32:35CU大牛徽章
日期:2013-03-13 15:38:15CU大牛徽章
日期:2013-03-13 15:38:52CU大牛徽章
日期:2013-03-14 14:08:55CU大牛徽章
日期:2013-04-17 11:17:19CU大牛徽章
日期:2013-04-17 11:17:32CU大牛徽章
日期:2013-04-17 11:17:37CU大牛徽章
日期:2013-04-17 11:17:42CU大牛徽章
日期:2013-04-17 11:17:47CU大牛徽章
日期:2013-04-17 11:17:52CU大牛徽章
日期:2013-04-17 11:17:56
发表于 2010-04-01 21:41 |显示全部楼层
1.把AB的网线互换,检查下是否是交换机端口的问题
2.ifconfig检查下A,B的网卡收发数据量
3.用ethtool检查下A网卡的工作模式(双工,速度,自动协商,...)

论坛徽章:
0
发表于 2010-04-01 22:08 |显示全部楼层
回复 3# chenyx


    思路很清晰哈,答案明天公布吧,欢迎大家继续思考。

论坛徽章:
0
发表于 2010-04-02 00:13 |显示全部楼层
1:在从A服务器上同步文件时发现在C、D、E、F、G等机器上的下载速度是不同的,有些机器可以达到几十Mb,有些只有几十Kb,同一网段的而且还都是走的内网,这差别也太大了。
2:从C、D、E、F、G测试发现到A服务器的延时很大大约在10ms左右

这两个有点矛盾吧?第1点上面说有的机器可以达到几十M,有的只有几十KB,第2点又说C.D.E.F.G到A服务器的延时在10ms左右,既然延时都是10ms左右,为什么差别这么大?应该是有的服务器到A服务器的延时在10ms左右吧。。不是所有机器吧?如果是我说的这个情况,那应该是CD服务器到A机下载可以打得到几十M了。。其他的只有几十K。。

论坛徽章:
0
发表于 2010-04-02 09:37 |显示全部楼层
回复 5# tanyangxf


    不矛盾,这也是当时处理的时候被迷惑的地方。。。

论坛徽章:
0
发表于 2010-04-02 09:46 |显示全部楼层
有点意思,那得想想别的原因了。

论坛徽章:
0
发表于 2010-04-02 09:55 |显示全部楼层
嗯,在这里分享也是因为这个案例确实是很少见,而且这里面充满了种种的假象和疑惑,我们当初也是绕了一大圈才找到原因。

大家踊跃拍砖吧。。。。

论坛徽章:
0
发表于 2010-04-02 10:23 |显示全部楼层
本帖最后由 mycoding 于 2010-04-02 10:26 编辑

下面是我们起初分析处理的过程:
1: 检查这几台服务器所属的交换机,是否有限制?是否交换机过载?

经检查交换机未发现异常,所涉及到的端口都没有错误包记录,也没有Qos类的限制,只是这几台服务器属于一个B段,然后我们就思考是否是服务器上的路由导致的问题,随后检查路由也无异常。。。。。

网络的原因大致排除掉了,只能再次寻找原因。

论坛徽章:
0
发表于 2010-04-02 10:31 |显示全部楼层
2:正当我们纳闷的时候发现延时恢复正常了,下载速度也恢复正常了,随后切回服务,很快故障现象有出现了。
怀疑是网口问题或是网线问题,随后把更换了B和A的网口做了调换问题依然,排除了交换机网口出问题的可能。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号 北京市公安局海淀分局网监中心备案编号:11010802020122
广播电视节目制作经营许可证(京) 字第1234号 中国互联网协会会员  联系我们:
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP