chenyx
发表于 2014-12-03 08:20
1.作为服务器管理员,请聊聊您所经历的服务器计划外宕机事件,造成的影响,应对的策略。
市电断电,Ups电池没挺住,造成服务器直接断电,重启卡住,报告硬盘出错,服务器启动不起来了.
果断用光盘启动进入救援模式,fsck检查硬盘,成功后重启,一切恢复正常.
另外一次,一台机器,也是由于停电造成分区错误,/分区报SuperBlock错误,fsck检查无果,只能重新安装.好在数据所在的分区是存储,没丢数据.
2.在进行服务器部署、维护、管理的过程中,您遇到过哪些服务器管理的槽点?
现在的服务器行硬件,要求系统版本很高,比如win2k8,有些应用是在2k3下做的,根本没有驱动,没法更新硬件,很是苦恼.
3.服务器宕机之后如何快速找到故障节点?找到故障服务器之后如何快速替换?在进行服务器部署、维护、管理的过程中,您感受过哪些较为人性化的功能?
最直观的就是接上显示器看机器的启动界面,因为我们有KVM(就是键盘鼠标显示控制器),可以在一个地方切换不同的机器,所以感觉很方便,另外,机器少,管理起来难度也小.
替换就简单了,有备用机的情况下直接替换,没有的情况下,能修复的修复,不行就重装,用备份数据恢复系统的运转.平时有备份,故障的时候心不慌.
4.作为运维工程师的您,双十一前后经历了哪些故事?
很平稳度过,没有感觉.
5.面对双十一带来的流量高峰,人性化的服务器维护管理功能可以为电商平台维护人员带来哪些好处?
不是电商,不好评论,还是等专业人员来评述吧.
dbcloudy
发表于 2014-12-03 09:59
连接服务器是不是一项很有趣的工作不要做开发要维护
yestreenstars
发表于 2014-12-03 10:15
1.作为服务器管理员,请聊聊您所经历的服务器计划外宕机事件,造成的影响,应对的策略。
有一天晚上,平台的某台服务器宕机了,而且是一台核心服务器,导致整个平台都无法正常使用,起初我以为只是死机了,就让客服同事帮忙重启一下,结果还是连不上,只好大晚上赶回公司查看了,因为我们的平台是7x24小时提供服务的,所以有问题需要尽快解决,等我到了公司,插上显示器,重启服务器,发现没找到硬盘,再加上面板的报警信息,判断为RAID卡坏了,可是没有备用的RAID卡,也没有同型号的闲置的服务器可以拆来用,一时半会没想到解决方法,最后在平台的其他服务器上找到了核心服务器的应用程序,于是马上给一台闲置的服务器安装新系统,将备份的应用程序复制到新服务器上,经过一番折腾,还好能起来,平台又恢复正常了。通过这个事件可知备份对我们的工作有多么重要,平时有备份,出现问题时就不怕了。
2.在进行服务器部署、维护、管理的过程中,您遇到过哪些服务器管理的槽点?
在进行服务器部署时,因为是给客户部署,所以服务器的操作系统不是我安装的,这样就导致我写的一键自动化部署脚本在有些客户的服务器上运行出错,我现在在部署前都需要先检查一下才能运行脚本。在维护和管理时,有些服务器的使用时间过长,面板信息已经看不清,这样一来有报警也不知道是哪里出现问题了,等故障暴露出来后再解决又有点晚了。
3.服务器宕机之后如何快速找到故障节点?找到故障服务器之后如何快速替换?在进行服务器部署、维护、管理的过程中,您感受过哪些较为人性化的功能?
主要通过面板信息和开机信息找到故障节点,经验丰富的运维一看到故障信息就知道是哪里出问题了,菜鸟运维也应该学会通过搜索故障信息来找到故障节点。找到故障之后,如果在保修期内就直接找官方报修,否则就就近联系当地的维修商购买相应配件,因为直接通过官方购买配置那个流程实在是太长了,等他送来,黄花菜都凉了。人性化的功能?貌似没想到。
4.作为运维工程师的您,双十一前后经历了哪些故事?
公司不是做电商的,所以双十一对我没什么影响。
5.面对双十一带来的流量高峰,人性化的服务器维护管理功能可以为电商平台维护人员带来哪些好处?
不是在电商公司做运维,这点就无法回答啦,期待大牛的分享吧。
action08
发表于 2014-12-03 10:19
qingduo04 发表于 2014-12-02 19:54 static/image/common/back.gif
电商如果没有规划好双十一的性能评估,就会造成运维人员当晚悲催的处理问题..............
可以来多谈谈经验哈
action08
发表于 2014-12-03 10:23
chenyx 发表于 2014-12-03 08:20 static/image/common/back.gif
1.作为服务器管理员,请聊聊您所经历的服务器计划外宕机事件,造成的影响,应对的策略。
市电断电,Ups电 ...
你们资源规划还是不错的,
存储跟系统就应该磁盘分开来放,方便
ups供电,系统没有任何措施么??
action08
发表于 2014-12-03 10:25
4.作为运维工程师的您,双十一前后经历了哪些故事?
吐槽一下自己的经历,
我曾经也做过一名运维工程师,一个连ssh权限都没有的工程师,淡淡定定过双11
大家多分享点吧
action08
发表于 2014-12-03 10:27
Buring__ 发表于 2014-12-02 21:32 static/image/common/back.gif
哪里有打折的,都是骗人的
可以多关注大品牌的直营店,双11真的便宜
例如电信平时180的华为手机,真能便宜到149.
——淘宝假货只要80块
forgaoqiang
发表于 2014-12-03 10:29
~~~~(>_<)~~~~老在出差 都没空参加活动了~
xike2002
发表于 2014-12-03 10:59
好话题,这个必须得来说一说。
490999122
发表于 2014-12-03 11:32
某家卖手环的网站,某个时刻开放抢购导致访问量过高,后端MySQL响应不了,然后网站整个瘫掉了。瘫掉就瘫掉了,奇葩的是PHP的报错页面没关,然后数据库IP地址用户名密码神马的全暴露出来了,MySQL居然用的是公网地址,没做任何IP限制。结果当然是轻而易举的进入到他们的数据库了,订单什么的全在里面。及时反馈给他们的客服,大概十分钟之后,管理人员把MySQL的密码改掉。至于后面网站的架构优化,系统安全改进如何不得而知。我是他们产品的粉丝,通过这件事情只是想给他们提个醒,并无任何恶意之举。