免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: duke217
打印 上一主题 下一主题

I WANT YOU!讲述运维人自己的“故事”~(已公布获奖名单) [复制链接]

论坛徽章:
8
2015年亚洲杯之阿联酋
日期:2015-02-19 13:23:46拜羊年徽章
日期:2015-03-03 16:15:432015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:57:092015亚冠之胡齐斯坦钢铁
日期:2015-05-29 12:47:50程序设计版块每日发帖之星
日期:2015-06-03 10:32:58综合交流区版块每日发帖之星
日期:2015-06-03 10:32:582016猴年福章徽章
日期:2016-02-18 15:30:34
11 [报告]
发表于 2016-03-08 13:21 |只看该作者
哥们你赢了回复 9# Shell_HAT


   

论坛徽章:
41
操作系统版块每日发帖之星
日期:2016-08-21 06:20:00每日论坛发贴之星
日期:2016-05-05 06:20:00操作系统版块每日发帖之星
日期:2016-05-05 06:20:00IT运维版块每日发帖之星
日期:2016-05-05 06:20:0015-16赛季CBA联赛之山西
日期:2016-04-27 08:49:00操作系统版块每日发帖之星
日期:2016-04-25 06:20:00操作系统版块每日发帖之星
日期:2016-04-17 06:23:2815-16赛季CBA联赛之吉林
日期:2016-03-25 15:46:3415-16赛季CBA联赛之四川
日期:2016-03-25 14:26:19操作系统版块每日发帖之星
日期:2016-05-27 06:20:00操作系统版块每日发帖之星
日期:2016-05-28 06:20:00IT运维版块每日发帖之星
日期:2016-08-18 06:20:00
12 [报告]
发表于 2016-03-10 10:13 |只看该作者
回复 10# stay_sun

你们这么大环境部署不用NTP同步时间?出个问题搞死你


   

论坛徽章:
20
程序设计版块每日发帖之星
日期:2015-10-11 06:20:0015-16赛季CBA联赛之山东
日期:2016-05-28 18:18:5615-16赛季CBA联赛之新疆
日期:2017-04-12 22:55:4715-16赛季CBA联赛之青岛
日期:2017-06-26 18:30:0315-16赛季CBA联赛之四川
日期:2017-09-04 12:27:0315-16赛季CBA联赛之福建
日期:2018-02-09 14:28:3315-16赛季CBA联赛之同曦
日期:2018-04-17 12:43:3415-16赛季CBA联赛之浙江
日期:2018-07-14 13:27:4015-16赛季CBA联赛之吉林
日期:2018-09-13 15:48:2915-16赛季CBA联赛之新疆
日期:2016-05-07 05:05:3215-16赛季CBA联赛之八一
日期:2016-03-14 12:32:06程序设计版块每日发帖之星
日期:2015-12-12 06:20:00
13 [报告]
发表于 2016-03-11 19:26 |只看该作者
公司服务器所在机房光纤被挖掘机挖断的路过。。。。。

论坛徽章:
34
亥猪
日期:2015-03-20 13:55:11戌狗
日期:2015-03-20 13:57:01酉鸡
日期:2015-03-20 14:03:56未羊
日期:2015-03-20 14:18:30子鼠
日期:2015-03-20 14:20:14丑牛
日期:2015-03-20 14:20:31辰龙
日期:2015-03-20 14:35:34巳蛇
日期:2015-03-20 14:35:56操作系统版块每日发帖之星
日期:2015-11-06 06:20:00操作系统版块每日发帖之星
日期:2015-11-08 06:20:00操作系统版块每日发帖之星
日期:2015-11-19 06:20:00黄金圣斗士
日期:2015-11-24 10:43:13
14 [报告]
发表于 2016-03-14 18:40 |只看该作者
还记得刚上班时候,清理一台mysql数据库服务器
看到几个源码包很大,就执行 rm -rf mysql-* 删除了,跑完发现当前目录下 mysql 目录是软连接到 mysql-xxx 的
还好history发现有 wget 记录,赶紧重启下了一个,解压 ./configure && make && make install 找回了程序
庆幸当时配置文件在 /etc,数据在另一分区目录。

论坛徽章:
54
2017金鸡报晓
日期:2017-02-08 10:39:42操作系统版块每日发帖之星
日期:2016-03-08 06:20:00操作系统版块每日发帖之星
日期:2016-03-07 06:20:00操作系统版块每日发帖之星
日期:2016-02-22 06:20:00操作系统版块每日发帖之星
日期:2016-01-29 06:20:00操作系统版块每日发帖之星
日期:2016-01-27 06:20:00操作系统版块每日发帖之星
日期:2016-01-20 06:20:00操作系统版块每日发帖之星
日期:2016-01-06 06:20:0015-16赛季CBA联赛之江苏
日期:2015-12-21 20:00:24操作系统版块每日发帖之星
日期:2015-12-21 06:20:00IT运维版块每日发帖之星
日期:2015-11-17 06:20:002015亚冠之广州恒大
日期:2015-11-12 10:58:02
15 [报告]
发表于 2016-03-18 08:33 |只看该作者
看来高手都赚钱去了,这个话题都这么冷清……

翻翻笔记去,找几个帖上来。

论坛徽章:
54
2017金鸡报晓
日期:2017-02-08 10:39:42操作系统版块每日发帖之星
日期:2016-03-08 06:20:00操作系统版块每日发帖之星
日期:2016-03-07 06:20:00操作系统版块每日发帖之星
日期:2016-02-22 06:20:00操作系统版块每日发帖之星
日期:2016-01-29 06:20:00操作系统版块每日发帖之星
日期:2016-01-27 06:20:00操作系统版块每日发帖之星
日期:2016-01-20 06:20:00操作系统版块每日发帖之星
日期:2016-01-06 06:20:0015-16赛季CBA联赛之江苏
日期:2015-12-21 20:00:24操作系统版块每日发帖之星
日期:2015-12-21 06:20:00IT运维版块每日发帖之星
日期:2015-11-17 06:20:002015亚冠之广州恒大
日期:2015-11-12 10:58:02
16 [报告]
发表于 2016-03-18 15:01 |只看该作者
1、

  一个FreeBSD系统的FTP服务器,有一段时间每天早晨上班就发现不能访问了,重启后一整天都安然无恙。做了好几次压力测试都正常,仍然是坚持不懈地每天半夜自动停机,屏幕上也没显示异常。

  实在没办法,弄了个监测系统,发现每天凌晨3:00多一点定时停止服务。
  
  手动调时间测试,发现还真是3:00就会停机,停机的时候硬盘灯那个呼啦啦的闪,闪上一阵就死翘翘了。
最初怀疑被黑了,但仔细找了一大圈,cront啦,default/rc.conf啦,loader.conf啦,甚至还写了个程序,逐个文件跟官方做了md5对比,但是一切都正常。

  尼玛,这是“半夜凶铃”的节奏啊!心里都有点悚然了!

  好在俺是相信科学的,再说神啦鬼啦,他们中也没几个懂电脑的哇,偶尔有几个电脑高手,恐怕早已是地狱的名鬼了,肯定属于国宝级的东东,不需要到咱这小地方折腾 ^_^

  再一步一步找,开着好几个终端,有top,有iostat,有systat,有vmstat,有nestat -ih,每个stat都至少开两个,保证每秒能看到两次,静候异常到来……
  
  终于在心脏的狂跳中等来了最关键的时刻:突然io明显异常,硬盘读数大增,top中也多了几个进程,一个CPU占用很高的find出现了,然后netstat显示没流量了……
  
  看来问题出现了,主要find,但是这黑更半夜的,会自动find啥呢?
  
  试了好几次,终于在还没来得及死机的时候,显示了ps -axww的结果,发现是find -sx开头的命令。
  
  这次在find中找find吧:find / -name “*” -exec grep “find -sx” -nH {} \; > ~/out.txt
  
  真是进入死循环了,一旦find放出去,系统很快就会停机了,但是没有办法,死了还重来吧,一次一个大目录,逐个来总还行吧!

  经历了几次死机后,终于拿到out.txt了……
  
  排除掉正常的,发现异常在/etc里面,这是一身冷汗啊%???

  竟然在/etc/periodic/security/中,找到了这个最终祸首:
  /etc/periodic/security/100.chksetuid


  手工运行一下:periodic security,也是立竿见影地停机!

  凶手找到了,这还不能算是完工了,因为这充其量只算是杀手,还要找到雇主元凶才行。

  不过应该很容易了,目录已经明确提示了:periodic        
  
  periodic确实是在每天的3:01启动,在/etc/crontab里面有它的条目:
# Perform daily/weekly/monthly maintenance.
1       3       *       *       *       root    periodic daily
15      4       *       *       6       root    periodic weekly
30      5       1       *       *       root    periodic monthly



既使会它会导致停机,那就干脆禁掉不就好了?

  其实完全禁掉不是一个好主意,因为安全检查还是很有必要的,只是这个setuid的检查是遇到问题了,其他的还是有必要的。
  
  这个setuid的检查其实也是应该的,只是它检查的范围太大了一些,所有挂载的文件系统都检查一遍,遇到多文件的系统时,就会遇到麻烦。而对于一些目录来说可以避免掉,比如禁止掉setuid的文件系统,完全没有这个必要的。
  
  比较合适的手段是写另一个/etc/periodic.conf,写上一句:
security_status_chksetuid_enable="NO"


  就可以不进行setuid的检查了。

  事后总结:由于用的是非主流的主板(当时好像是via),硬盘控制器驱动可能存在bug,再加上系统中的文件数量很多(近百万),扫描一遍很耗资源,不经意间把控制器的bug给触发了,导致了整个系统不正常。


------------------------------------------这是故事间的分隔线---------------------------------------

2、
   某一天刚上班,办公室电话就被打暴了,大小领导、大小男神女神都反映上网慢。

   一开始怀疑防火墙出问题了,仔仔细细检查了各项参数,一切正常,也没见到明显的网络攻击。

   干脆拨下内网网线,防火墙直接接电脑,再作测试,正常!这说明问题出在内网中,防火墙以上正常。
 机器直连核心交换机,没问题,一切正常!差点就打电话给交换机供应商了。

 那就iperf测试网络内网质量……你别说,网络质量还真不高!
 防火墙网线的水晶头换了三次,效果仍然没有改善!

 怀疑网线坏了,外接了一根还不行!
 心里都开始念叨六类线了!


 启用终极手段!开始抓包……

 除了流量小一点外,抓包也没有异常,连广播都懒懒散散地出现,重发也不多。

 下级交换机灯也闪的也不厉害,只是偶尔眨眨眼,跟没睡醒似的,这玩意有传染效应,让我也感觉到头脑昏昏的,愈发地让我心里不安。

 ……看来又遇到诡异问题了!

 反正大家都断网,也不怕领导训斥,所以更极端点好了:全体断电重启!
 说也奇怪,重启后竟然好了……几分钟……后……马上又故障了!

 于是意识到是某台交换机出了问题,既然防火墙没问题,核心交换机也没有问题,那么肯定就出在下级的交换机上了。

 软件的终极手段是抓包,硬件的终极策略叫逐个断电排除——当然这招不到关键时刻,一般是不能轻易用的,否则你就准备着有人对你大吼大叫吧,根据本人长期以来总结的经验:全体断网倒不怕,大伙儿同一水平,没人会对你怎么样;但是如果你单独对某一部分开小灶,导致了不公平,那么不好意思,有人会不高兴了!

 接上监测流量的电脑,逐个试吧。

 哈哈,你别说,运气还不坏,试了两三次就试着了:一台交换机,只要拨下级联线,网络马上正常,插上后大家集体断网。
 把它换下来吧,整个网正常了!

  但还要分析一下:
  又做了个测试的小局域网,逐个端口测试,发现其中有个端口,只要一插上网线,整个交换机就不通了。
  顺着这个网口,找到原来的网线主人,发现是某个办公室的电脑,前些日子刚修过,是主板烧了,当时推测的原因是冬天用大功率取暖设备导致电压不稳。

  真凶找到了,应该是主板烧坏的时候,不稳定的电压顺着网线传到交换机,顺便把那个网口也烧坏了。
  再具体的硬件问题,也我不懂了,电路的知识早已还给老师了!

  但有几个明显的问题还是搞不明白:
  1、既然网口被烧坏了,为什么不是当时发作,而是过了一段时间才发作?
  2、一个交换机坏了,为什么会影响整个网络,甚至是核心交换机都不能避免?当然核心交换机仅仅是影响了接的那个端口,我专门看过交换机状态,error和重发都没有,连pause帧都没有。按网络分层,这些内容应该属于“物理层”的范围,超出我们一般的运维的理解水平了,只能等硬件工程师们来解答!


------------------------------------------这是故事间的分隔线---------------------------------------


3、

  刚接手现在的局域网时候,电脑上网一直不正常,原因是作为汇聚层用的三层交换机很古老,转发性能不足,机器稍微多一点就卡住了。我接手后,把汇聚层的三层功能取消,仅保留VLAN,转发功能上移到了核心交换机,这样每个单位基本上都能跑到50M以上,基本上能满足正常的需求了。
但是好景不长,用了几天之后,发现大面积网络故障,具体表现很常见:只能挂QQ,打不开网页,但是360浏览器之类的奇葩浏览器,偶尔还能正常上网。

  干过运维的都知道这是DNS问题,但这是大面积的DNS故障,很不好理解。

  先nslookup,不能正确解析,确认这是DNS故障。

  开始怀疑防火墙,反来复去调参数,一直没有改善,甚至请来厂家的技术员协助,也没能解决。
  另外还有个现象,就是到了晚上,解析就正常了。
  又怀疑防火墙性能不足,厂家给换了一台性能好一些的,也故障依旧。

  一直折腾了三四天……
  
  直到无意中又测试nslookup,后面随手加了一个不常用的DNS服务器,竟然解析成功了。
  又试了几个DNS服务器,确认只要不用常用的这几个,都能解析成功。

  开始怀疑是DNS被封掉了。

  于是做了个网桥,抓取了外网DNS解析流量,发现竟然接近100M的流量!

  这么大流量从同一个IP(注意,是同一个IP!)出去,肯定会被防DDOS的系统拦截了,后来跟联通内部人员沟通,说应该被市级的防火墙拦住了。

  于是开始意识到网络的结构出现问题:我们局域网有近万台机器,但是只有两个公网IP可用,是典型的大NAT网络。原来网络不好的时候,一般总出口流量也就是200、300兆,而改造之后可以很轻松能到700、800兆,而所有机器都严格按照联通公司给的DNS设置,这就造成了像对DNS服务器DOS一样的流量,再加上故障当时有几款流氓软件正红火,只要开着,就疯狂在解析域名,就造成了上百兆的DNS请求流量。

  知道了原因,解决起来就简单了:自己做DNS缓存服务器,缓存目标设上十多个国内公开DNS服务器;再设置上请求数限制——中了招的机器不能影响别人;最重要的一条:要把缓存服务器IP设置为联通给的DNS服务器IP(比劫持还利落^_^)!

  顺便提一句:现在局域网中的监控设备多了起来,NTP也在面临这个问题,NTP一般只好做劫持了。


------------------------------------------这是故事间的分隔线---------------------------------------

4、

   很早之前的事,正好有事,让同事装一台FreeBSD,带IDE的raid,一个小时后,说安装完重启就报错,装了五六次了,故障仍旧,怀疑硬盘坏了。
我抽空过去看了一下,原来他选择硬盘时,先择了第一个硬盘,标识为ad0。
在FreeBSD下,低档的IDE raid卡,单个硬盘标识为ad*,而raid硬盘为ar*。选ar0就能正常使用了,这应该是一个bug。
 事后同事很委屈地说:你不是说选第一个盘就行吗?


------------------------------------------这是故事间的分隔线---------------------------------------


5、
  给每个单位配了台三层交换机,我统一调好后让各单位领回去换上。第二天一个性子很急的网管气呼呼来找我:你给的什么交换机?插上网就不通,试了好几次,你给个坏的交换机!
  
  我说不对,我调交换机的时候都试过后才发下去的。

  又拿机房仔细试了一下,交换机没任何问题,启动、配置、连线测试都正常。

  然后一直在一边看的那位网管悠悠地说:原来这货启动要好几分钟啊,我以为插上电就能用……


------------------------------------------这是故事间的分隔线---------------------------------------


6、
     把整个局域网的上网方式从静态IP改为PPPoE,结果紧接着就收到一大批投诉:只要用无线路由器的,用几分钟就断网。

     一开始怀疑病毒占满带宽,又怀疑是路由器质量不好,结果被各单位的网管们群起而攻之了……

  亲自弄了个无线路由,确实就像他们说的那样,用几分钟后,无规律断网,拨号显示正常,服务器端也没有任何报警,只是流量少的可怜而已。内网口能获取到内网IP,但无法上网,外网口无反映,从PPPoE接入服务器ping外网口IP也不通。
  
  即使让路由器空闲,下面不接任何设备,能坚持的时间长一点,但终归还会断网。

  抓包也没多大效果,因为就根本没有多少包可以抓到。

  反来复去折腾了好几天,路由器配置清空了N次,一直没找到原因。
  后来发现不仅是无线路由器,连有些家用路由器效果也一样。

  但是自已做的二级软路由一直安然无恙!
  有个单位自己买了netgear,也能正常工作!
  几个纯AP,跑的也挺欢。

  看来还应该在路由器上面找问题。
  
  还要抓包,再抓包……

  这次专门弄了个小局域网,仔仔细细分析,拆出PPPoE包,再逐个分析。

  突然发现一个很不正常的包,以前一直以为是正常的包:UPNP,这个包发出几个之后,很快就断网了。
  灵机一动,进到路由器里面,关闭了UPNP功能。

  ——竟然正常了。

  总结:upnp有时候是个灾难,特别是一个局域网里面有很多路由器,并且每个路由器的内网IP设置相同(一般都是192.168.1.0/24)的时候,一定要小心!







--end--

论坛徽章:
130
亥猪
日期:2016-05-06 16:12:48水瓶座
日期:2016-05-06 16:13:28白羊座
日期:2016-05-06 16:14:17射手座
日期:2016-05-06 16:14:17巳蛇
日期:2016-05-06 16:13:28午马
日期:2016-05-06 16:12:48辰龙
日期:2016-05-06 16:13:28天蝎座
日期:2016-05-06 16:13:28丑牛
日期:2016-05-06 16:13:28白羊座
日期:2016-05-06 16:13:28水瓶座
日期:2016-05-06 16:13:28未羊
日期:2016-05-06 16:12:48
17 [报告]
发表于 2016-03-18 16:06 |只看该作者
哈哈哈,估计当时都吓傻了把    回复 2# jixuuse


   

论坛徽章:
41
操作系统版块每日发帖之星
日期:2016-08-21 06:20:00每日论坛发贴之星
日期:2016-05-05 06:20:00操作系统版块每日发帖之星
日期:2016-05-05 06:20:00IT运维版块每日发帖之星
日期:2016-05-05 06:20:0015-16赛季CBA联赛之山西
日期:2016-04-27 08:49:00操作系统版块每日发帖之星
日期:2016-04-25 06:20:00操作系统版块每日发帖之星
日期:2016-04-17 06:23:2815-16赛季CBA联赛之吉林
日期:2016-03-25 15:46:3415-16赛季CBA联赛之四川
日期:2016-03-25 14:26:19操作系统版块每日发帖之星
日期:2016-05-27 06:20:00操作系统版块每日发帖之星
日期:2016-05-28 06:20:00IT运维版块每日发帖之星
日期:2016-08-18 06:20:00
18 [报告]
发表于 2016-03-18 17:06 |只看该作者
回复 16# lsstarboy


你那么多客户端居然直接用外部DNS和NTP。。。真是心够大




   

论坛徽章:
54
2017金鸡报晓
日期:2017-02-08 10:39:42操作系统版块每日发帖之星
日期:2016-03-08 06:20:00操作系统版块每日发帖之星
日期:2016-03-07 06:20:00操作系统版块每日发帖之星
日期:2016-02-22 06:20:00操作系统版块每日发帖之星
日期:2016-01-29 06:20:00操作系统版块每日发帖之星
日期:2016-01-27 06:20:00操作系统版块每日发帖之星
日期:2016-01-20 06:20:00操作系统版块每日发帖之星
日期:2016-01-06 06:20:0015-16赛季CBA联赛之江苏
日期:2015-12-21 20:00:24操作系统版块每日发帖之星
日期:2015-12-21 06:20:00IT运维版块每日发帖之星
日期:2015-11-17 06:20:002015亚冠之广州恒大
日期:2015-11-12 10:58:02
19 [报告]
发表于 2016-03-18 18:52 |只看该作者
回复 18# jixuuse

历史遗留问题,接手时没注意。后来问了一下,各单位通网的时候,联通技术人员一再强调要使用他们的DNS。
   

论坛徽章:
0
20 [报告]
发表于 2016-03-18 19:25 |只看该作者
倒腾数据,处理ogg的奇葩问题,调整优化公司的生产环境。基本上都是加班到凌晨1-2点。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP