hexilanlan 发表于 2014-12-09 08:57

:em17::em17:

少林方丈王鹏展 发表于 2014-12-09 10:12

曾经是运维人员,但不是电商,没遇到过那么大的高峰并发量。只是以前有linux主机运行时间长了,swap快满了就没法ssh登陆了,只能重启,没配置ILO口还得到现场处理。以前年底业务量集中的时候F5下所有的server都非常繁忙,中间件的连接池频繁overload,但又不能配的太大超过数据库的最大连接数,当天值班的兄弟就一直在刷着控制台的网页,看到连接池overload的赶快重启连接池,从而避免重启server。说起运维也是一把辛酸泪啊。不管多晚,有问题就得跑来。

少林方丈王鹏展 发表于 2014-12-09 10:13

是某米吗?回复 20# 490999122


   

typuc 发表于 2014-12-10 22:32

本帖最后由 typuc 于 2014-12-10 22:38 编辑

1.作为服务器管理员,请聊聊您所经历的服务器计划外宕机事件,造成的影响,应对的策略。
有一个应用基于tomcat+mysql。用户突然没发登陆,登陆应用服务器,瞬间发现发现tomcat 连接数1000个已经被沾满了(应用配置了内存缓存,没法实现集群单个tomcat)重启tomcat 和 mysql 都无效果;mysql 执行show processlist 发现全是连接全是同一个sql的操作读操作;手动执行该sql查询超过3分钟都还没结果;但是在mysql备机上2秒完成,果断切换应用到备数据库。后面dba 发现那个sql 执行了一个视图,而且那个视图不会有数据更新,将那个视图生成统一名称的表,删除原有视图,部署集群定期重启tomcat更新内存缓存。

2.在进行服务器部署、维护、管理的过程中,您遇到过哪些服务器管理的槽点?
采用cobbler 批量部署,服务器托管机房上架前,完成相关配置交换机网络接口配置,上架时候只需要开机,测试ping,不做其他操作。之前公司上架10台服务器,如果公司联调完成2-3个小时就能完成理线通电测试工作,结果后面从下午搞到12点(机房太吵真心不适合临时想办法)。托管服务器最好带远程控制卡,可以远程故障诊断。详细记录服务器的所在机柜位置,U数。

3.服务器宕机之后如何快速找到故障节点?找到故障服务器之后如何快速替换?在进行服务器部署、维护、管理的过程中,您感受过哪些较为人性化的功能?
完善监控,nagios报警内容包括“主机名+应用名+端口”。找到故障服务器后,重负载上摘除该节点;保护现场,用于事故排查;
人性化功能:
   A, 应用路径全是小写,不要大小写混用。应用采用tomcat+war方式部署,tomcat 容器的名词和war包工程名一致;
   B,更新包提前解压,完成相关配置修改;通过rsync 同步到正式环境,温和下线后依次;
   C, 相关日志和应用分开存放。防止脚本清理日志时候误删除应用;减少代码备份大小;
   D, 所有应用中禁止使用IP地址,全部采用hostname 和 修改hosts文件实现互访问;
4.作为运维工程师的您,双十一前后经历了哪些故事?
围观电商大战,看他们的技术分享;那些新技术可以应用到当前业务中。

5.面对双十一带来的流量高峰,人性化的服务器维护管理功能可以为电商平台维护人员带来哪些好处?
   A, 快速定位故障点;
   B, 整齐划一的配置部署,减少后期维护难度;
   C, 应用迁移不需要修改代码配置,只需要修改主机hosts文件。

wrong1111 发表于 2014-12-11 13:36

都是经历过生死的人才能有淡定的心情来渡过难关呀。。

fengzhanhai 发表于 2014-12-11 18:39

:wink:好活动,持续围观

xp4628 发表于 2014-12-15 16:18

1.作为服务器管理员,请聊聊您所经历的服务器计划外宕机事件,造成的影响,应对的策略。
后端数据库服务器为双机,前端为多台中间件,通过F5负载均器对外服务。有次数据库产生很多锁,导致集群中数据库会话暴增,主机内存也消耗殆尽,由于系统是对外服务系统,缴费客户影响较大,柜台排队人数已经接近很多,通过查杀数据库锁也没有立刻恢复应用,最后先通过停止部分外围应用以及一些查询业务模块,从而保证核心业务模块对外服务。最后原因为内存自动管理的问题。

2.在进行服务器部署、维护、管理的过程中,您遇到过哪些服务器管理的槽点?
在服务器部署过程中,新上领导不愿按照原有领导的规划实施,导致项目工期和规划调整很大。运维的一个槽点:我们运维团队新接的一个系统,我们梳理平台、业务系统、硬件架构等情况时,发现主机的后面的存储线、网络线、电源线真是错综复杂,决定是蜘蛛网行的,最后在不停止应用的情况下,花了整整一个多月的时间整理才算稍微好点

3.服务器宕机之后如何快速找到故障节点?找到故障服务器之后如何快速替换?在进行服务器部署、维护、管理的过程中,您感受过哪些较为人性化的功能?
监控软件监控的信息点越多就越容易抓住故障点。监控软件通过警报、短信、邮件等信息发出也是为不影响对外服务而快速处理故障提供帮助。在处理故障的时候不要忽略最简单的命令和信息收集,说不定就是某个文件系统满了,网络的路由出现异常了,某个调度进程异常导致重复进程出现而耗费所有内存等
人性化的功能:我们自己写脚本和开发一些适合自己需要的监控界面,为运维的方便和快捷提供了很大的帮助

4.作为运维工程师的您,双十一前后经历了哪些故事?
我不是电商,因此。。。。

5.面对双十一带来的流量高峰,人性化的服务器维护管理功能可以为电商平台维护人员带来哪些好处?
我认为肯定可以快速了解平台运行状态,从状态中应对异常现象,按照应急预案及演练方法做正确的应对措施,最大可能的保障对外服务

pipihappy8888 发表于 2014-12-16 14:55

这个吐槽点很多

hotsun2011 发表于 2014-12-16 14:57

本帖最后由 hotsun2011 于 2014-12-16 14:58 编辑

1.作为服务器管理员,请聊聊您所经历的服务器计划外宕机事件,造成的影响,应对的策略。
中国有一个神奇的网站叫12306,每逢春节就会被扣上宕机的帽子,这个耗资三亿的网站上线之后却因为系统缓慢、程序复杂等问题屡遭质疑,且其在节假日的几次宕机,使得其每次都处于舆论的焦点。考虑增加服务器与带宽,改善网购登录难的问题。但业内人士指出,“即便增加了足够的服务器与带宽,但是软件系统架构不行,也无济无事。”

2.在进行服务器部署、维护、管理的过程中,您遇到过哪些服务器管理的槽点?
在服务器的管理中,会涉及到很多方面,服务器系统管理、磁盘和数据管理、安全管理、硬件资源的维护和管理、还有软件管理等等。

特别是在数据安全方面,常常会考虑:备份什么、在哪备份、何时备份、多长时间备份一次、谁负责备份、备份载体应放在哪、多长时间检查一次备份,以及一旦数据丢失应采取哪些措施。

还有很多槽点,比如用户账户、密码、文件和网络访问权限、用户权利、用户配置文件及用户安全策略等,都需要好好琢磨。

3.服务器宕机之后如何快速找到故障节点?找到故障服务器之后如何快速替换?在进行服务器部署、维护、管理的过程中,您感受过哪些较为人性化的功能?

有时候服务器死机了,还得排查是硬死机,还是软死机,比如键盘切换数字锁、答谢锁等,鼠标没反应,那么就是硬死机了,要联系硬件厂商。

如果能ping通,那就是软死机了,有时候还会遇到桌面一片空白,不过忘了和打印机共享区仍然可以访问。可能内存耗尽了,进程死锁了......我会检查事件日志,查找发生死机时事件日志中的任何事件。以页面池耗尽为例,你会看到事件编号2019或2020,事件来源是SRV。


服务器是网站的灵魂,是打开网站的必要载体,没有服务器的网站用户无法浏览。服务器就像一块敲门砖,就算网站在搜索引擎里的排名再好,网站打不开,用户无法浏览,网站就没有用户体验可言,网站能被打开是第一个重点。

有些邮件服务器软件在人性化管理方面做得很不错,操作简单、外行也能上手,对于分级的管理员权限设置上做得很到位,最高权限者监控整个邮件服务器的运行。一站式的全程跟踪服务,从安装、部署到维护都有专人进行服务,大大让企业在使用之时无后顾之忧,提升工作效率。

hotsun2011 发表于 2014-12-16 15:14

4.作为运维工程师的您,双十一前后经历了哪些故事?
双11,要没日没夜的盯着供电情况,一旦断电了其它工作无法进行了,还要确保设备不至于过冷或者过热,再就是网络安全方面,有时刻防止黑客的网络攻击。有很多垃圾邮件包发发过来,我意识到系统遭受网络攻击了,这时候我通过监控手段,然后在指向IP地址服务器及时做处理,并且不会影响客户双11的服务工作。
还有通过网络监控工具,一旦意识到服务器的并发负载压力太大,我要权衡,是否扩容。

5.面对双十一带来的流量高峰,人性化的服务器维护管理功能可以为电商平台维护人员带来哪些好处?
传统服务器基本上都是使用负载均衡的电源使用方式,而一般情况下负载小于50%,这样电源转换效率较低。现在有些服务器做得比较好,实现了一些人性化的功能,比如可以设置电源的使用方式,一种是待机,另一种是激活,此外,还能够监测到负载的情况,这样的话,双11负载压力过大,电源就处于激活状态,平时访问量不高的情况下,电源自动切换到待机状态,这样就可以按照负载情况来自动选择最合适的电源使用方式,电源使用率就达到了最大化了。
页: 1 2 3 4 [5] 6 7 8 9
查看完整版本: 【大话IT】双十一运维工程师怎么过?吐槽那些垃圾的服务器管理的故事!