shjhcx
发表于 2016-03-08 13:21
哥们你赢了回复 9# Shell_HAT
jixuuse
发表于 2016-03-10 10:13
回复 10# stay_sun
你们这么大环境部署不用NTP同步时间?出个问题搞死你
baby_神
发表于 2016-03-11 19:26
公司服务器所在机房光纤被挖掘机挖断的路过。。。。。
vermouth
发表于 2016-03-14 18:40
还记得刚上班时候,清理一台mysql数据库服务器
看到几个源码包很大,就执行 rm -rf mysql-* 删除了,跑完发现当前目录下 mysql 目录是软连接到 mysql-xxx 的
还好history发现有 wget 记录,赶紧重启下了一个,解压 ./configure && make && make install 找回了程序
庆幸当时配置文件在 /etc,数据在另一分区目录。
lsstarboy
发表于 2016-03-18 08:33
看来高手都赚钱去了,这个话题都这么冷清……
翻翻笔记去,找几个帖上来。
lsstarboy
发表于 2016-03-18 15:01
1、
一个FreeBSD系统的FTP服务器,有一段时间每天早晨上班就发现不能访问了,重启后一整天都安然无恙。做了好几次压力测试都正常,仍然是坚持不懈地每天半夜自动停机,屏幕上也没显示异常。
实在没办法,弄了个监测系统,发现每天凌晨3:00多一点定时停止服务。
手动调时间测试,发现还真是3:00就会停机,停机的时候硬盘灯那个呼啦啦的闪,闪上一阵就死翘翘了。
最初怀疑被黑了,但仔细找了一大圈,cront啦,default/rc.conf啦,loader.conf啦,甚至还写了个程序,逐个文件跟官方做了md5对比,但是一切都正常。
尼玛,这是“半夜凶铃”的节奏啊!心里都有点悚然了!
好在俺是相信科学的,再说神啦鬼啦,他们中也没几个懂电脑的哇,偶尔有几个电脑高手,恐怕早已是地狱的名鬼了,肯定属于国宝级的东东,不需要到咱这小地方折腾 ^_^
再一步一步找,开着好几个终端,有top,有iostat,有systat,有vmstat,有nestat -ih,每个stat都至少开两个,保证每秒能看到两次,静候异常到来……
终于在心脏的狂跳中等来了最关键的时刻:突然io明显异常,硬盘读数大增,top中也多了几个进程,一个CPU占用很高的find出现了,然后netstat显示没流量了……
看来问题出现了,主要find,但是这黑更半夜的,会自动find啥呢?
试了好几次,终于在还没来得及死机的时候,显示了ps -axww的结果,发现是find -sx开头的命令。
这次在find中找find吧:find / -name “*” -exec grep “find -sx” -nH {} \; > ~/out.txt
真是进入死循环了,一旦find放出去,系统很快就会停机了,但是没有办法,死了还重来吧,一次一个大目录,逐个来总还行吧!
经历了几次死机后,终于拿到out.txt了……
排除掉正常的,发现异常在/etc里面,这是一身冷汗啊%???
竟然在/etc/periodic/security/中,找到了这个最终祸首:
/etc/periodic/security/100.chksetuid
手工运行一下:periodic security,也是立竿见影地停机!
凶手找到了,这还不能算是完工了,因为这充其量只算是杀手,还要找到雇主元凶才行。
不过应该很容易了,目录已经明确提示了:periodic
periodic确实是在每天的3:01启动,在/etc/crontab里面有它的条目:
# Perform daily/weekly/monthly maintenance.
1 3 * * * root periodic daily
15 4 * * 6 root periodic weekly
30 5 1 * * root periodic monthly
既使会它会导致停机,那就干脆禁掉不就好了?
其实完全禁掉不是一个好主意,因为安全检查还是很有必要的,只是这个setuid的检查是遇到问题了,其他的还是有必要的。
这个setuid的检查其实也是应该的,只是它检查的范围太大了一些,所有挂载的文件系统都检查一遍,遇到多文件的系统时,就会遇到麻烦。而对于一些目录来说可以避免掉,比如禁止掉setuid的文件系统,完全没有这个必要的。
比较合适的手段是写另一个/etc/periodic.conf,写上一句:
security_status_chksetuid_enable="NO"
就可以不进行setuid的检查了。
事后总结:由于用的是非主流的主板(当时好像是via),硬盘控制器驱动可能存在bug,再加上系统中的文件数量很多(近百万),扫描一遍很耗资源,不经意间把控制器的bug给触发了,导致了整个系统不正常。
------------------------------------------这是故事间的分隔线---------------------------------------
2、
某一天刚上班,办公室电话就被打暴了,大小领导、大小男神女神都反映上网慢。
一开始怀疑防火墙出问题了,仔仔细细检查了各项参数,一切正常,也没见到明显的网络攻击。
干脆拨下内网网线,防火墙直接接电脑,再作测试,正常!这说明问题出在内网中,防火墙以上正常。
机器直连核心交换机,没问题,一切正常!差点就打电话给交换机供应商了。
那就iperf测试网络内网质量……你别说,网络质量还真不高!
防火墙网线的水晶头换了三次,效果仍然没有改善!
怀疑网线坏了,外接了一根还不行!
心里都开始念叨六类线了!
启用终极手段!开始抓包……
除了流量小一点外,抓包也没有异常,连广播都懒懒散散地出现,重发也不多。
下级交换机灯也闪的也不厉害,只是偶尔眨眨眼,跟没睡醒似的,这玩意有传染效应,让我也感觉到头脑昏昏的,愈发地让我心里不安。
……看来又遇到诡异问题了!
反正大家都断网,也不怕领导训斥,所以更极端点好了:全体断电重启!
说也奇怪,重启后竟然好了……几分钟……后……马上又故障了!
于是意识到是某台交换机出了问题,既然防火墙没问题,核心交换机也没有问题,那么肯定就出在下级的交换机上了。
软件的终极手段是抓包,硬件的终极策略叫逐个断电排除——当然这招不到关键时刻,一般是不能轻易用的,否则你就准备着有人对你大吼大叫吧,根据本人长期以来总结的经验:全体断网倒不怕,大伙儿同一水平,没人会对你怎么样;但是如果你单独对某一部分开小灶,导致了不公平,那么不好意思,有人会不高兴了!
接上监测流量的电脑,逐个试吧。
哈哈,你别说,运气还不坏,试了两三次就试着了:一台交换机,只要拨下级联线,网络马上正常,插上后大家集体断网。
把它换下来吧,整个网正常了!
但还要分析一下:
又做了个测试的小局域网,逐个端口测试,发现其中有个端口,只要一插上网线,整个交换机就不通了。
顺着这个网口,找到原来的网线主人,发现是某个办公室的电脑,前些日子刚修过,是主板烧了,当时推测的原因是冬天用大功率取暖设备导致电压不稳。
真凶找到了,应该是主板烧坏的时候,不稳定的电压顺着网线传到交换机,顺便把那个网口也烧坏了。
再具体的硬件问题,也我不懂了,电路的知识早已还给老师了!
但有几个明显的问题还是搞不明白:
1、既然网口被烧坏了,为什么不是当时发作,而是过了一段时间才发作?
2、一个交换机坏了,为什么会影响整个网络,甚至是核心交换机都不能避免?当然核心交换机仅仅是影响了接的那个端口,我专门看过交换机状态,error和重发都没有,连pause帧都没有。按网络分层,这些内容应该属于“物理层”的范围,超出我们一般的运维的理解水平了,只能等硬件工程师们来解答!
------------------------------------------这是故事间的分隔线---------------------------------------
3、
刚接手现在的局域网时候,电脑上网一直不正常,原因是作为汇聚层用的三层交换机很古老,转发性能不足,机器稍微多一点就卡住了。我接手后,把汇聚层的三层功能取消,仅保留VLAN,转发功能上移到了核心交换机,这样每个单位基本上都能跑到50M以上,基本上能满足正常的需求了。
但是好景不长,用了几天之后,发现大面积网络故障,具体表现很常见:只能挂QQ,打不开网页,但是360浏览器之类的奇葩浏览器,偶尔还能正常上网。
干过运维的都知道这是DNS问题,但这是大面积的DNS故障,很不好理解。
先nslookup,不能正确解析,确认这是DNS故障。
开始怀疑防火墙,反来复去调参数,一直没有改善,甚至请来厂家的技术员协助,也没能解决。
另外还有个现象,就是到了晚上,解析就正常了。
又怀疑防火墙性能不足,厂家给换了一台性能好一些的,也故障依旧。
一直折腾了三四天……
直到无意中又测试nslookup,后面随手加了一个不常用的DNS服务器,竟然解析成功了。
又试了几个DNS服务器,确认只要不用常用的这几个,都能解析成功。
开始怀疑是DNS被封掉了。
于是做了个网桥,抓取了外网DNS解析流量,发现竟然接近100M的流量!
这么大流量从同一个IP(注意,是同一个IP!)出去,肯定会被防DDOS的系统拦截了,后来跟联通内部人员沟通,说应该被市级的防火墙拦住了。
于是开始意识到网络的结构出现问题:我们局域网有近万台机器,但是只有两个公网IP可用,是典型的大NAT网络。原来网络不好的时候,一般总出口流量也就是200、300兆,而改造之后可以很轻松能到700、800兆,而所有机器都严格按照联通公司给的DNS设置,这就造成了像对DNS服务器DOS一样的流量,再加上故障当时有几款流氓软件正红火,只要开着,就疯狂在解析域名,就造成了上百兆的DNS请求流量。
知道了原因,解决起来就简单了:自己做DNS缓存服务器,缓存目标设上十多个国内公开DNS服务器;再设置上请求数限制——中了招的机器不能影响别人;最重要的一条:要把缓存服务器IP设置为联通给的DNS服务器IP(比劫持还利落^_^)!
顺便提一句:现在局域网中的监控设备多了起来,NTP也在面临这个问题,NTP一般只好做劫持了。
------------------------------------------这是故事间的分隔线---------------------------------------
4、
很早之前的事,正好有事,让同事装一台FreeBSD,带IDE的raid,一个小时后,说安装完重启就报错,装了五六次了,故障仍旧,怀疑硬盘坏了。
我抽空过去看了一下,原来他选择硬盘时,先择了第一个硬盘,标识为ad0。
在FreeBSD下,低档的IDE raid卡,单个硬盘标识为ad*,而raid硬盘为ar*。选ar0就能正常使用了,这应该是一个bug。
事后同事很委屈地说:你不是说选第一个盘就行吗?
------------------------------------------这是故事间的分隔线---------------------------------------
5、
给每个单位配了台三层交换机,我统一调好后让各单位领回去换上。第二天一个性子很急的网管气呼呼来找我:你给的什么交换机?插上网就不通,试了好几次,你给个坏的交换机!
我说不对,我调交换机的时候都试过后才发下去的。
又拿机房仔细试了一下,交换机没任何问题,启动、配置、连线测试都正常。
然后一直在一边看的那位网管悠悠地说:原来这货启动要好几分钟啊,我以为插上电就能用……
------------------------------------------这是故事间的分隔线---------------------------------------
6、
把整个局域网的上网方式从静态IP改为PPPoE,结果紧接着就收到一大批投诉:只要用无线路由器的,用几分钟就断网。
一开始怀疑病毒占满带宽,又怀疑是路由器质量不好,结果被各单位的网管们群起而攻之了……
亲自弄了个无线路由,确实就像他们说的那样,用几分钟后,无规律断网,拨号显示正常,服务器端也没有任何报警,只是流量少的可怜而已。内网口能获取到内网IP,但无法上网,外网口无反映,从PPPoE接入服务器ping外网口IP也不通。
即使让路由器空闲,下面不接任何设备,能坚持的时间长一点,但终归还会断网。
抓包也没多大效果,因为就根本没有多少包可以抓到。
反来复去折腾了好几天,路由器配置清空了N次,一直没找到原因。
后来发现不仅是无线路由器,连有些家用路由器效果也一样。
但是自已做的二级软路由一直安然无恙!
有个单位自己买了netgear,也能正常工作!
几个纯AP,跑的也挺欢。
看来还应该在路由器上面找问题。
还要抓包,再抓包……
这次专门弄了个小局域网,仔仔细细分析,拆出PPPoE包,再逐个分析。
突然发现一个很不正常的包,以前一直以为是正常的包:UPNP,这个包发出几个之后,很快就断网了。
灵机一动,进到路由器里面,关闭了UPNP功能。
——竟然正常了。
总结:upnp有时候是个灾难,特别是一个局域网里面有很多路由器,并且每个路由器的内网IP设置相同(一般都是192.168.1.0/24)的时候,一定要小心!
--end--
daili0703
发表于 2016-03-18 16:06
哈哈哈,估计当时都吓傻了把 {:yxh109:} 回复 2# jixuuse
jixuuse
发表于 2016-03-18 17:06
回复 16# lsstarboy
你那么多客户端居然直接用外部DNS和NTP。。。真是心够大
lsstarboy
发表于 2016-03-18 18:52
回复 18# jixuuse
历史遗留问题,接手时没注意。后来问了一下,各单位通网的时候,联通技术人员一再强调要使用他们的DNS。
沧桑有我
发表于 2016-03-18 19:25
倒腾数据,处理ogg的奇葩问题,调整优化公司的生产环境。基本上都是加班到凌晨1-2点。