I WANT YOU！讲述运维人自己的“故事”~（已公布获奖名单） - 第2页 - CU活动专区 - Chinaunix

shjhcx 发表于 2016-03-08 13:21

哥们你赢了回复 9# Shell_HAT

jixuuse 发表于 2016-03-10 10:13

回复 10# stay_sun

你们这么大环境部署不用NTP同步时间？出个问题搞死你

baby_神 发表于 2016-03-11 19:26

公司服务器所在机房光纤被挖掘机挖断的路过。。。。。

vermouth 发表于 2016-03-14 18:40

还记得刚上班时候，清理一台mysql数据库服务器
看到几个源码包很大，就执行 rm -rf mysql-* 删除了，跑完发现当前目录下 mysql 目录是软连接到 mysql-xxx 的
还好history发现有 wget 记录，赶紧重启下了一个，解压 ./configure && make && make install 找回了程序
庆幸当时配置文件在 /etc，数据在另一分区目录。

lsstarboy 发表于 2016-03-18 08:33

看来高手都赚钱去了，这个话题都这么冷清……

翻翻笔记去，找几个帖上来。

lsstarboy 发表于 2016-03-18 15:01

1、

　　一个FreeBSD系统的FTP服务器，有一段时间每天早晨上班就发现不能访问了，重启后一整天都安然无恙。做了好几次压力测试都正常，仍然是坚持不懈地每天半夜自动停机，屏幕上也没显示异常。

　　实在没办法，弄了个监测系统，发现每天凌晨3:00多一点定时停止服务。
　　
　　手动调时间测试，发现还真是3:00就会停机，停机的时候硬盘灯那个呼啦啦的闪，闪上一阵就死翘翘了。
最初怀疑被黑了，但仔细找了一大圈，cront啦，default/rc.conf啦，loader.conf啦，甚至还写了个程序，逐个文件跟官方做了md5对比，但是一切都正常。

　　尼玛，这是“半夜凶铃”的节奏啊！心里都有点悚然了！

　　好在俺是相信科学的，再说神啦鬼啦，他们中也没几个懂电脑的哇，偶尔有几个电脑高手，恐怕早已是地狱的名鬼了，肯定属于国宝级的东东，不需要到咱这小地方折腾 ^_^

　　再一步一步找，开着好几个终端，有top，有iostat，有systat，有vmstat，有nestat -ih，每个stat都至少开两个，保证每秒能看到两次，静候异常到来……
　　
　　终于在心脏的狂跳中等来了最关键的时刻：突然io明显异常，硬盘读数大增，top中也多了几个进程，一个CPU占用很高的find出现了，然后netstat显示没流量了……
　　
　　看来问题出现了，主要find，但是这黑更半夜的，会自动find啥呢？
　　
　　试了好几次，终于在还没来得及死机的时候，显示了ps -axww的结果，发现是find -sx开头的命令。
　　
　　这次在find中找find吧：find / -name “*” -exec grep “find -sx” -nH {} \; > ~/out.txt

　　真是进入死循环了，一旦find放出去，系统很快就会停机了，但是没有办法，死了还重来吧，一次一个大目录，逐个来总还行吧！

　　经历了几次死机后，终于拿到out.txt了……
　　
　　排除掉正常的，发现异常在/etc里面，这是一身冷汗啊%???

竟然在/etc/periodic/security/中，找到了这个最终祸首：
/etc/periodic/security/100.chksetuid

手工运行一下：periodic security，也是立竿见影地停机！

凶手找到了，这还不能算是完工了，因为这充其量只算是杀手，还要找到雇主元凶才行。

不过应该很容易了，目录已经明确提示了：periodic

periodic确实是在每天的3:01启动，在/etc/crontab里面有它的条目：
# Perform daily/weekly/monthly maintenance.
1    3    *    *    *    root periodic daily
15    4    *    *    6    root periodic weekly
30    5    1    *    *    root periodic monthly

既使会它会导致停机，那就干脆禁掉不就好了？

　　其实完全禁掉不是一个好主意，因为安全检查还是很有必要的，只是这个setuid的检查是遇到问题了，其他的还是有必要的。
　　
　　这个setuid的检查其实也是应该的，只是它检查的范围太大了一些，所有挂载的文件系统都检查一遍，遇到多文件的系统时，就会遇到麻烦。而对于一些目录来说可以避免掉，比如禁止掉setuid的文件系统，完全没有这个必要的。
　　
　　比较合适的手段是写另一个/etc/periodic.conf，写上一句：
security_status_chksetuid_enable="NO"

　　就可以不进行setuid的检查了。

事后总结：由于用的是非主流的主板（当时好像是via），硬盘控制器驱动可能存在bug，再加上系统中的文件数量很多（近百万），扫描一遍很耗资源，不经意间把控制器的bug给触发了，导致了整个系统不正常。

------------------------------------------这是故事间的分隔线---------------------------------------

2、
某一天刚上班，办公室电话就被打暴了，大小领导、大小男神女神都反映上网慢。

一开始怀疑防火墙出问题了，仔仔细细检查了各项参数，一切正常，也没见到明显的网络攻击。

干脆拨下内网网线，防火墙直接接电脑，再作测试，正常！这说明问题出在内网中，防火墙以上正常。
　机器直连核心交换机，没问题，一切正常！差点就打电话给交换机供应商了。

　那就iperf测试网络内网质量……你别说，网络质量还真不高！
　防火墙网线的水晶头换了三次，效果仍然没有改善！

　怀疑网线坏了，外接了一根还不行！
　心里都开始念叨六类线了!

　启用终极手段！开始抓包……

　除了流量小一点外，抓包也没有异常，连广播都懒懒散散地出现，重发也不多。

　下级交换机灯也闪的也不厉害，只是偶尔眨眨眼，跟没睡醒似的，这玩意有传染效应，让我也感觉到头脑昏昏的，愈发地让我心里不安。

　……看来又遇到诡异问题了！

　反正大家都断网，也不怕领导训斥，所以更极端点好了：全体断电重启！
　说也奇怪，重启后竟然好了……几分钟……后……马上又故障了！

　于是意识到是某台交换机出了问题，既然防火墙没问题，核心交换机也没有问题，那么肯定就出在下级的交换机上了。

　软件的终极手段是抓包，硬件的终极策略叫逐个断电排除——当然这招不到关键时刻，一般是不能轻易用的，否则你就准备着有人对你大吼大叫吧，根据本人长期以来总结的经验：全体断网倒不怕，大伙儿同一水平，没人会对你怎么样；但是如果你单独对某一部分开小灶，导致了不公平，那么不好意思，有人会不高兴了！

　接上监测流量的电脑，逐个试吧。

　哈哈，你别说，运气还不坏，试了两三次就试着了：一台交换机，只要拨下级联线，网络马上正常，插上后大家集体断网。
　把它换下来吧，整个网正常了！

　　但还要分析一下：
　　又做了个测试的小局域网，逐个端口测试，发现其中有个端口，只要一插上网线，整个交换机就不通了。
　　顺着这个网口，找到原来的网线主人，发现是某个办公室的电脑，前些日子刚修过，是主板烧了，当时推测的原因是冬天用大功率取暖设备导致电压不稳。

　　真凶找到了，应该是主板烧坏的时候，不稳定的电压顺着网线传到交换机，顺便把那个网口也烧坏了。
　　再具体的硬件问题，也我不懂了，电路的知识早已还给老师了！

　　但有几个明显的问题还是搞不明白：
　　1、既然网口被烧坏了，为什么不是当时发作，而是过了一段时间才发作？
　　2、一个交换机坏了，为什么会影响整个网络，甚至是核心交换机都不能避免？当然核心交换机仅仅是影响了接的那个端口，我专门看过交换机状态，error和重发都没有，连pause帧都没有。按网络分层，这些内容应该属于“物理层”的范围，超出我们一般的运维的理解水平了，只能等硬件工程师们来解答!

------------------------------------------这是故事间的分隔线---------------------------------------

3、

　　刚接手现在的局域网时候，电脑上网一直不正常，原因是作为汇聚层用的三层交换机很古老，转发性能不足，机器稍微多一点就卡住了。我接手后，把汇聚层的三层功能取消，仅保留VLAN，转发功能上移到了核心交换机，这样每个单位基本上都能跑到50M以上，基本上能满足正常的需求了。
但是好景不长，用了几天之后，发现大面积网络故障，具体表现很常见：只能挂QQ，打不开网页，但是360浏览器之类的奇葩浏览器，偶尔还能正常上网。

　　干过运维的都知道这是DNS问题，但这是大面积的DNS故障，很不好理解。

　　先nslookup，不能正确解析，确认这是DNS故障。

　　开始怀疑防火墙，反来复去调参数，一直没有改善，甚至请来厂家的技术员协助，也没能解决。
　　另外还有个现象，就是到了晚上，解析就正常了。
　　又怀疑防火墙性能不足，厂家给换了一台性能好一些的，也故障依旧。

　　一直折腾了三四天……
　　
　　直到无意中又测试nslookup，后面随手加了一个不常用的DNS服务器，竟然解析成功了。
　　又试了几个DNS服务器，确认只要不用常用的这几个，都能解析成功。

　　开始怀疑是DNS被封掉了。

　　于是做了个网桥，抓取了外网DNS解析流量，发现竟然接近100M的流量！

　　这么大流量从同一个IP（注意，是同一个IP！）出去，肯定会被防DDOS的系统拦截了，后来跟联通内部人员沟通，说应该被市级的防火墙拦住了。

　　于是开始意识到网络的结构出现问题：我们局域网有近万台机器，但是只有两个公网IP可用，是典型的大NAT网络。原来网络不好的时候，一般总出口流量也就是200、300兆，而改造之后可以很轻松能到700、800兆，而所有机器都严格按照联通公司给的DNS设置，这就造成了像对DNS服务器DOS一样的流量，再加上故障当时有几款流氓软件正红火，只要开着，就疯狂在解析域名，就造成了上百兆的DNS请求流量。

　　知道了原因，解决起来就简单了：自己做DNS缓存服务器，缓存目标设上十多个国内公开DNS服务器；再设置上请求数限制——中了招的机器不能影响别人；最重要的一条：要把缓存服务器IP设置为联通给的DNS服务器IP（比劫持还利落^_^）！

　　顺便提一句：现在局域网中的监控设备多了起来，NTP也在面临这个问题，NTP一般只好做劫持了。

------------------------------------------这是故事间的分隔线---------------------------------------

4、

很早之前的事，正好有事，让同事装一台FreeBSD，带IDE的raid，一个小时后，说安装完重启就报错，装了五六次了，故障仍旧，怀疑硬盘坏了。
我抽空过去看了一下，原来他选择硬盘时，先择了第一个硬盘，标识为ad0。
在FreeBSD下，低档的IDE raid卡，单个硬盘标识为ad*，而raid硬盘为ar*。选ar0就能正常使用了，这应该是一个bug。
　事后同事很委屈地说：你不是说选第一个盘就行吗？

------------------------------------------这是故事间的分隔线---------------------------------------

5、
　　给每个单位配了台三层交换机，我统一调好后让各单位领回去换上。第二天一个性子很急的网管气呼呼来找我：你给的什么交换机？插上网就不通，试了好几次，你给个坏的交换机！
　　
　　我说不对，我调交换机的时候都试过后才发下去的。

　　又拿机房仔细试了一下，交换机没任何问题，启动、配置、连线测试都正常。

　　然后一直在一边看的那位网管悠悠地说：原来这货启动要好几分钟啊，我以为插上电就能用……

------------------------------------------这是故事间的分隔线---------------------------------------

6、
把整个局域网的上网方式从静态IP改为PPPoE，结果紧接着就收到一大批投诉：只要用无线路由器的，用几分钟就断网。

一开始怀疑病毒占满带宽，又怀疑是路由器质量不好，结果被各单位的网管们群起而攻之了……

　　亲自弄了个无线路由，确实就像他们说的那样，用几分钟后，无规律断网，拨号显示正常，服务器端也没有任何报警，只是流量少的可怜而已。内网口能获取到内网IP，但无法上网，外网口无反映，从PPPoE接入服务器ping外网口IP也不通。
　　
　　即使让路由器空闲，下面不接任何设备，能坚持的时间长一点，但终归还会断网。

　　抓包也没多大效果，因为就根本没有多少包可以抓到。

　　反来复去折腾了好几天，路由器配置清空了N次，一直没找到原因。
　　后来发现不仅是无线路由器，连有些家用路由器效果也一样。

　　但是自已做的二级软路由一直安然无恙！
　　有个单位自己买了netgear，也能正常工作！
　　几个纯AP，跑的也挺欢。

　　看来还应该在路由器上面找问题。
　　
　　还要抓包，再抓包……

　　这次专门弄了个小局域网，仔仔细细分析，拆出PPPoE包，再逐个分析。

　　突然发现一个很不正常的包，以前一直以为是正常的包：UPNP，这个包发出几个之后，很快就断网了。
　　灵机一动，进到路由器里面，关闭了UPNP功能。

　　——竟然正常了。

　　总结：upnp有时候是个灾难，特别是一个局域网里面有很多路由器，并且每个路由器的内网IP设置相同（一般都是192.168.1.0/24）的时候，一定要小心！

--end--

daili0703 发表于 2016-03-18 16:06

哈哈哈，估计当时都吓傻了把 {:yxh109:} 回复 2# jixuuse

jixuuse 发表于 2016-03-18 17:06

回复 16# lsstarboy

你那么多客户端居然直接用外部DNS和NTP。。。真是心够大

lsstarboy 发表于 2016-03-18 18:52

回复 18# jixuuse

历史遗留问题，接手时没注意。后来问了一下，各单位通网的时候，联通技术人员一再强调要使用他们的DNS。

沧桑有我 发表于 2016-03-18 19:25

倒腾数据，处理ogg的奇葩问题，调整优化公司的生产环境。基本上都是加班到凌晨1-2点。

页: 1 [2] 3

Chinaunix's Archiver