忘记密码   免费注册 查看新帖 | 论坛精华区

ChinaUnix.net

  平台 论坛 博客 认证专区 大话IT HPC论坛 徽章 文库 沙龙 自测 下载 频道自动化运维 虚拟化 储存备份 C/C++ PHP MySQL 嵌入式 Linux系统
最近访问板块 发新帖
查看: 56117 | 回复: 81

[Web] 【大话IT】双十一运维工程师怎么过?吐槽那些垃圾的服务器管理的故事! [复制链接]

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152014年中国系统架构师大会
日期:2015-06-05 16:54:182011年中国系统架构师大会
日期:2015-06-05 16:54:392012年中国系统架构师大会
日期:2015-06-05 16:54:392013年中国系统架构师大会
日期:2015-06-05 16:54:39
发表于 2014-12-02 14:53 |显示全部楼层
获奖名单已公布http://bbs.chinaunix.net/thread-4165558-1-1.html

服务器管理对服务器应用来说十分重要,对电商平台尤为如此,特别是面对双十一带来的流量高峰,如何确保数据中心不宕机?或许有些电商用户颇有感触,当服务器出现DNS无法解析、连接超时、响应超时、重定向次数过多、甚至宕机的时候,只能无奈的摇头叹气大江东去,徒留一把辛酸泪啊,悔不该当初在服务器上多下点功夫啊!


双十一是购物者的狂欢日,是电商的战场,更是运维人员的考场,时刻准备着扩容、演练意外方案等等,话说在服务器管理方面有没有故事呢?的确,一些细微的人性化管理功能往往能起到“四两拨千斤”的效果,比如有的服务器所有的系统都是热插拔,十分易于安装拆卸。最为糟糕的是,有的服务器内部故障后有指示灯指示故障,但是断电维修的时候,故障指示灯也不亮了。大家在服务器管理工作过程中,有木有遇到类似的经历呢?遇到过哪些管理软件的槽点,又感受到哪些功能较为人性化,值得借鉴的功能?希望大家畅所欲言!


话题讨论:

1.作为服务器管理员,请聊聊您所经历的服务器计划外宕机事件,造成的影响,应对的策略。


2.在进行服务器部署、维护、管理的过程中,您遇到过哪些服务器管理的槽点?


3.服务器宕机之后如何快速找到故障节点?找到故障服务器之后如何快速替换?在进行服务器部署、维护、管理的过程中,您感受过哪些较为人性化的功能?


4.作为运维工程师的您,双十一前后经历了哪些故事?


5.面对双十一带来的流量高峰,人性化的服务器维护管理功能可以为电商平台维护人员带来哪些好处?


活动时间:2014年12月2日-12月17日


活动奖励:欢迎亲们针对以上问题踊跃回帖,言之有理即可,我们将根据大家的回复情况评选获奖会员

功劳奖:回复内容质量高的会员2名,赠送价值100元的京东购物卡

苦劳奖:参与回帖积极活跃的会员7名,赠送32G usb key


图片1.jpg

论坛徽章:
379
CU十二周年纪念徽章
日期:2014-01-04 22:46:58CU大牛徽章
日期:2013-03-13 15:32:35CU大牛徽章
日期:2013-03-13 15:38:15CU大牛徽章
日期:2013-03-13 15:38:52CU大牛徽章
日期:2013-03-14 14:08:55CU大牛徽章
日期:2013-04-17 11:17:19CU大牛徽章
日期:2013-04-17 11:17:32CU大牛徽章
日期:2013-04-17 11:17:37CU大牛徽章
日期:2013-04-17 11:17:42CU大牛徽章
日期:2013-04-17 11:17:47CU大牛徽章
日期:2013-04-17 11:17:52CU大牛徽章
日期:2013-04-17 11:17:56
发表于 2014-12-03 08:20 |显示全部楼层
1.作为服务器管理员,请聊聊您所经历的服务器计划外宕机事件,造成的影响,应对的策略。
   市电断电,Ups电池没挺住,造成服务器直接断电,重启卡住,报告硬盘出错,服务器启动不起来了.
   果断用光盘启动进入救援模式,fsck检查硬盘,成功后重启,一切恢复正常.
   另外一次,一台机器,也是由于停电造成分区错误,/分区报SuperBlock错误,fsck检查无果,只能重新安装.好在数据所在的分区是存储,没丢数据.

2.在进行服务器部署、维护、管理的过程中,您遇到过哪些服务器管理的槽点?
   现在的服务器行硬件,要求系统版本很高,比如win2k8,有些应用是在2k3下做的,根本没有驱动,没法更新硬件,很是苦恼.

3.服务器宕机之后如何快速找到故障节点?找到故障服务器之后如何快速替换?在进行服务器部署、维护、管理的过程中,您感受过哪些较为人性化的功能?
    最直观的就是接上显示器看机器的启动界面,因为我们有KVM(就是键盘鼠标显示控制器),可以在一个地方切换不同的机器,所以感觉很方便,另外,机器少,管理起来难度也小.
    替换就简单了,有备用机的情况下直接替换,没有的情况下,能修复的修复,不行就重装,用备份数据恢复系统的运转.平时有备份,故障的时候心不慌.
   

4.作为运维工程师的您,双十一前后经历了哪些故事?
   很平稳度过,没有感觉.

5.面对双十一带来的流量高峰,人性化的服务器维护管理功能可以为电商平台维护人员带来哪些好处?
  不是电商,不好评论,还是等专业人员来评述吧.

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
发表于 2014-12-03 10:15 |显示全部楼层
1.作为服务器管理员,请聊聊您所经历的服务器计划外宕机事件,造成的影响,应对的策略。
      有一天晚上,平台的某台服务器宕机了,而且是一台核心服务器,导致整个平台都无法正常使用,起初我以为只是死机了,就让客服同事帮忙重启一下,结果还是连不上,只好大晚上赶回公司查看了,因为我们的平台是7x24小时提供服务的,所以有问题需要尽快解决,等我到了公司,插上显示器,重启服务器,发现没找到硬盘,再加上面板的报警信息,判断为RAID卡坏了,可是没有备用的RAID卡,也没有同型号的闲置的服务器可以拆来用,一时半会没想到解决方法,最后在平台的其他服务器上找到了核心服务器的应用程序,于是马上给一台闲置的服务器安装新系统,将备份的应用程序复制到新服务器上,经过一番折腾,还好能起来,平台又恢复正常了。通过这个事件可知备份对我们的工作有多么重要,平时有备份,出现问题时就不怕了。

2.在进行服务器部署、维护、管理的过程中,您遇到过哪些服务器管理的槽点?
      在进行服务器部署时,因为是给客户部署,所以服务器的操作系统不是我安装的,这样就导致我写的一键自动化部署脚本在有些客户的服务器上运行出错,我现在在部署前都需要先检查一下才能运行脚本。在维护和管理时,有些服务器的使用时间过长,面板信息已经看不清,这样一来有报警也不知道是哪里出现问题了,等故障暴露出来后再解决又有点晚了。

3.服务器宕机之后如何快速找到故障节点?找到故障服务器之后如何快速替换?在进行服务器部署、维护、管理的过程中,您感受过哪些较为人性化的功能?
      主要通过面板信息和开机信息找到故障节点,经验丰富的运维一看到故障信息就知道是哪里出问题了,菜鸟运维也应该学会通过搜索故障信息来找到故障节点。找到故障之后,如果在保修期内就直接找官方报修,否则就就近联系当地的维修商购买相应配件,因为直接通过官方购买配置那个流程实在是太长了,等他送来,黄花菜都凉了。人性化的功能?貌似没想到。

4.作为运维工程师的您,双十一前后经历了哪些故事?
      公司不是做电商的,所以双十一对我没什么影响。

5.面对双十一带来的流量高峰,人性化的服务器维护管理功能可以为电商平台维护人员带来哪些好处?
      不是在电商公司做运维,这点就无法回答啦,期待大牛的分享吧。

论坛徽章:
0
发表于 2014-12-03 11:32 |显示全部楼层
某家卖手环的网站,某个时刻开放抢购导致访问量过高,后端MySQL响应不了,然后网站整个瘫掉了。瘫掉就瘫掉了,奇葩的是PHP的报错页面没关,然后数据库IP地址用户名密码神马的全暴露出来了,MySQL居然用的是公网地址,没做任何IP限制。结果当然是轻而易举的进入到他们的数据库了,订单什么的全在里面。及时反馈给他们的客服,大概十分钟之后,管理人员把MySQL的密码改掉。至于后面网站的架构优化,系统安全改进如何不得而知。我是他们产品的粉丝,通过这件事情只是想给他们提个醒,并无任何恶意之举。

论坛徽章:
0
发表于 2014-12-04 20:15 |显示全部楼层
回复 1# pipihappy8888


    一)服务器宕机的情况经常会发生,由于过保 或者负载过高的情况
        特定的节日引发问题对于门户网站更是常见,个人认为引发点一般有
               1)双十一更是一个流量徒增,并发量过大,服务器数量不够   
               2)大促期间,产品异常兴奋,在紧急催促下,开发的代码逻辑很是关键,形成死循环之类
               3)预估不够准确,压测终究是测试,不是实战,而是理想情况
       策略要针对本质,也就是运维的职责所在了
                #1    个人认为运维一直是打野状态, carry全场不是空话,带动节奏      测试  产品   开发  都需要把控的内容,最后到运维这   所以一个公司平时的流程化细不细很关键!
                #2     访问量评估要准确一点,不能相差甚远,过于浪费或者过于节俭都是不合适的,平时的架构基础很关键
                #3    系统优化,针对不同业务选择内核的优化方案,比如需要长连接的设置了回收  重新使用,很可能经常连接,造成服务器更高的负载

论坛徽章:
18
卯兔
日期:2013-09-27 17:41:0615-16赛季CBA联赛之佛山
日期:2016-07-09 17:34:45操作系统版块每周发帖之星
日期:2015-12-02 15:01:04IT运维版块每日发帖之星
日期:2015-12-02 06:20:00IT运维版块每日发帖之星
日期:2015-10-07 06:20:00IT运维版块每日发帖之星
日期:2015-10-03 06:20:00IT运维版块每日发帖之星
日期:2015-10-01 06:20:00羊年新春福章
日期:2015-04-01 17:56:06拜羊年徽章
日期:2015-04-01 17:56:062015年迎新春徽章
日期:2015-03-04 09:49:452015年辞旧岁徽章
日期:2015-03-03 16:54:15天秤座
日期:2015-01-14 06:39:28
发表于 2014-12-04 20:32 |显示全部楼层
回复 28# qingduo04


    1.作为服务器管理员,请聊聊您所经历的服务器计划外宕机事件,造成的影响,应对的策略。

  
// 印象中最重要的计划外宕机,是数据库(DB2)集群中的一台P570小型机,突然之间电源模块都报警,主机宕机。
      但是由于前期规划DB2数据节点两两互备,故在宕机后相关的资源自动进行切换,数据库的配置文件没有自动更换,我们现场手工停库、更换配置,启库,恢复正常。
影响:当时是耽误了4个小时吧,由于DB2数据库以外宕机后,数据库重新启动后需要rollback操作。
应对:需要提前进行高可用性测试,确保异常宕机后,数据库能够切换。

2.在进行服务器部署、维护、管理的过程中,您遇到过哪些服务器管理的槽点?
1.硬件报警: 大量X86维护的时候,涉及到机房巡检的操作,发现硬件告警,当前没有多余的人力进行机房巡检。
2.日常维护: 大量X86服务器做安全加固或者统一操作的时候,还需要一台一台进行操作,太浪费工作量。


3.服务器宕机之后如何快速找到故障节点?找到故障服务器之后如何快速替换?在进行服务器部署、维护、管理的过程中,您感受过哪些较为人性化的功能?
1. 比较安全的就是做负载,购买成对或者多台服务器能够互相备份,避免故障一台后,影响生产。


4.作为运维工程师的您,双十一前后经历了哪些故事?
   1. 由于所在行业为电信行业,没有感受到电商行业的运维工程师的双十一的压力。
但是在消费者正常访问前台的时候,幕后集聚着运维工程师辛苦的汗水。

论坛徽章:
21
白羊座
日期:2013-08-23 15:49:17金牛座
日期:2013-10-08 17:00:03处女座
日期:2013-10-12 11:54:11CU十二周年纪念徽章
日期:2013-10-24 15:41:34午马
日期:2013-11-27 14:07:21巨蟹座
日期:2013-12-04 10:56:03水瓶座
日期:2013-12-04 15:58:00亥猪
日期:2014-05-24 16:02:3115-16赛季CBA联赛之辽宁
日期:2016-11-07 13:52:53戌狗
日期:2013-08-23 16:15:31白羊座
日期:2013-08-24 21:59:24巨蟹座
日期:2013-08-25 16:34:24
发表于 2014-12-05 15:02 |显示全部楼层
1.作为服务器管理员,请聊聊您所经历的服务器计划外宕机事件,造成的影响,应对的策略。
        我上家公司是做电商的,有过一次宕机事件,那是在13年的时候,几月份忘记了, 我们机器在蓝讯托管,
        有一天上午,我们发现我们部分机器挂了,打电话和机房沟通,说是A控掉电,这个真的是很不爽啊,部分业务受影响,
        通过这个事反应出来,以后买机器要买双电的。这虽然是小概率事件,但是还是会发生的。

2.在进行服务器部署、维护、管理的过程中,您遇到过哪些服务器管理的槽点?
        机器多了的话必须使用自动化软件,例如:puppet saltstack ,一方面提高工作效率,一方面可以避免出错。

3.服务器宕机之后如何快速找到故障节点?找到故障服务器之后如何快速替换?在进行服务器部署、维护、管理的过程中,您感受过哪些较为人性化的功能?
        这个是多方面的, 有硬件的,软件的,环境的, 如果是硬件的问题,就打售后,软件的就自行解决呗。
        人性化? 都是工具而已,哪个用着顺手就用哪个。

4.作为运维工程师的您,双十一前后经历了哪些故事?
        我没遇到过高并发的情况

5.面对双十一带来的流量高峰,人性化的服务器维护管理功能可以为电商平台维护人员带来哪些好处?
        如果有ops那肯定是好,有压力直接上线机器,多方便啊。

论坛徽章:
9
巳蛇
日期:2013-12-05 15:03:33戌狗
日期:2013-12-10 20:52:35白羊座
日期:2014-12-30 14:11:58处女座
日期:2015-01-15 14:33:442015年亚洲杯纪念徽章
日期:2015-01-28 13:37:36羊年新春福章
日期:2015-01-30 15:03:352015年亚洲杯之约旦
日期:2015-02-09 17:07:552015年亚洲杯之韩国
日期:2015-03-26 15:04:132015年亚洲杯之卡塔尔
日期:2015-04-04 16:35:54
发表于 2014-12-05 16:34 |显示全部楼层
好话题。:wink:

1.作为服务器管理员,请聊聊您所经历的服务器计划外宕机事件,造成的影响,应对的策略。
由于投了点广告,搞活动,晚上9:45点,用户暴增,内存溢出,服务器瘫痪了,当时服务器不多,只能通知机房一台台重启了,好在数据在,临时加了近20台服务器..:wink:

还有一次是不知道机房哪家公司运营着不好的内容遭举报了,凌晨遭拔全部网线。......急冲冲杀到机房,换机柜了...

2.在进行服务器部署、维护、管理的过程中,您遇到过哪些服务器管理的槽点?
走到新的环境中,重新规划上100台机器的统一管理。

3.服务器宕机之后如何快速找到故障节点?找到故障服务器之后如何快速替换?在进行服务器部署、维护、管理的过程中,您感受过哪些较为人性化的功能?
监控通过 协议、端口、应用服务,同时监控着,很快找到故障点,现在所以的服务都有双线热备了

4.作为运维工程师的您,双十一前后经历了哪些故事?
      目前公司不是做电商的....,所以双十一没什么影响。

5.面对双十一带来的流量高峰,人性化的服务器维护管理功能可以为电商平台维护人员带来哪些好处?
      虽然公司不是电商,毕竟之前在电商做过~,感觉是电商需要备用足够的服务器,但是前提是要知道自己的用户群,预估量的多少,广告量投多少,来合理规划服务器资源。

论坛徽章:
4
戌狗
日期:2014-10-12 21:48:202015年辞旧岁徽章
日期:2015-03-03 16:54:15IT运维版块每日发帖之星
日期:2015-06-09 22:20:002016猴年福章徽章
日期:2016-02-18 15:30:34
发表于 2014-12-10 22:32 |显示全部楼层
本帖最后由 typuc 于 2014-12-10 22:38 编辑

1.作为服务器管理员,请聊聊您所经历的服务器计划外宕机事件,造成的影响,应对的策略。
  有一个应用基于tomcat+mysql。用户突然没发登陆,登陆应用服务器,瞬间发现发现tomcat 连接数1000个已经被沾满了(应用配置了内存缓存,没法实现集群单个tomcat)重启tomcat 和 mysql 都无效果;mysql 执行show processlist 发现全是连接全是同一个sql的操作读操作;手动执行该sql查询超过3分钟都还没结果;但是在mysql备机上2秒完成,果断切换应用到备数据库。后面dba 发现那个sql 执行了一个视图,而且那个视图不会有数据更新,将那个视图生成统一名称的表,删除原有视图,部署集群定期重启tomcat更新内存缓存。

2.在进行服务器部署、维护、管理的过程中,您遇到过哪些服务器管理的槽点?
  采用cobbler 批量部署,服务器托管机房上架前,完成相关配置交换机网络接口配置,上架时候只需要开机,测试ping,不做其他操作。之前公司上架10台服务器,如果公司联调完成2-3个小时就能完成理线通电测试工作,结果后面从下午搞到12点(机房太吵真心不适合临时想办法)。托管服务器最好带远程控制卡,可以远程故障诊断。详细记录服务器的所在机柜位置,U数。

3.服务器宕机之后如何快速找到故障节点?找到故障服务器之后如何快速替换?在进行服务器部署、维护、管理的过程中,您感受过哪些较为人性化的功能?
  完善监控,nagios报警内容包括“主机名+应用名+端口”。找到故障服务器后,重负载上摘除该节点;保护现场,用于事故排查;
  人性化功能:
   A, 应用路径全是小写,不要大小写混用。应用采用tomcat+war方式部署,tomcat 容器的名词和war包工程名一致;
   B,更新包提前解压,完成相关配置修改;通过rsync 同步到正式环境,温和下线后依次;
   C, 相关日志和应用分开存放。防止脚本清理日志时候误删除应用;减少代码备份大小;
   D, 所有应用中禁止使用IP地址,全部采用hostname 和 修改hosts文件实现互访问;
4.作为运维工程师的您,双十一前后经历了哪些故事?
  围观电商大战,看他们的技术分享;那些新技术可以应用到当前业务中。

5.面对双十一带来的流量高峰,人性化的服务器维护管理功能可以为电商平台维护人员带来哪些好处?
   A, 快速定位故障点;
   B, 整齐划一的配置部署,减少后期维护难度;
   C, 应用迁移不需要修改代码配置,只需要修改主机hosts文件。

论坛徽章:
0
发表于 2014-12-15 16:18 |显示全部楼层
1.作为服务器管理员,请聊聊您所经历的服务器计划外宕机事件,造成的影响,应对的策略。
后端数据库服务器为双机,前端为多台中间件,通过F5负载均器对外服务。有次数据库产生很多锁,导致集群中数据库会话暴增,主机内存也消耗殆尽,由于系统是对外服务系统,缴费客户影响较大,柜台排队人数已经接近很多,通过查杀数据库锁也没有立刻恢复应用,最后先通过停止部分外围应用以及一些查询业务模块,从而保证核心业务模块对外服务。最后原因为内存自动管理的问题。

2.在进行服务器部署、维护、管理的过程中,您遇到过哪些服务器管理的槽点?
在服务器部署过程中,新上领导不愿按照原有领导的规划实施,导致项目工期和规划调整很大。运维的一个槽点:我们运维团队新接的一个系统,我们梳理平台、业务系统、硬件架构等情况时,发现主机的后面的存储线、网络线、电源线真是错综复杂,决定是蜘蛛网行的,最后在不停止应用的情况下,花了整整一个多月的时间整理才算稍微好点

3.服务器宕机之后如何快速找到故障节点?找到故障服务器之后如何快速替换?在进行服务器部署、维护、管理的过程中,您感受过哪些较为人性化的功能?
监控软件监控的信息点越多就越容易抓住故障点。监控软件通过警报、短信、邮件等信息发出也是为不影响对外服务而快速处理故障提供帮助。在处理故障的时候不要忽略最简单的命令和信息收集,说不定就是某个文件系统满了,网络的路由出现异常了,某个调度进程异常导致重复进程出现而耗费所有内存等
人性化的功能:我们自己写脚本和开发一些适合自己需要的监控界面,为运维的方便和快捷提供了很大的帮助

4.作为运维工程师的您,双十一前后经历了哪些故事?
我不是电商,因此。。。。

5.面对双十一带来的流量高峰,人性化的服务器维护管理功能可以为电商平台维护人员带来哪些好处?
我认为肯定可以快速了解平台运行状态,从状态中应对异常现象,按照应急预案及演练方法做正确的应对措施,最大可能的保障对外服务

论坛徽章:
0
发表于 2014-12-16 14:57 |显示全部楼层
本帖最后由 hotsun2011 于 2014-12-16 14:58 编辑

1.作为服务器管理员,请聊聊您所经历的服务器计划外宕机事件,造成的影响,应对的策略。
中国有一个神奇的网站叫12306,每逢春节就会被扣上宕机的帽子,这个耗资三亿的网站上线之后却因为系统缓慢、程序复杂等问题屡遭质疑,且其在节假日的几次宕机,使得其每次都处于舆论的焦点。考虑增加服务器与带宽,改善网购登录难的问题。但业内人士指出,“即便增加了足够的服务器与带宽,但是软件系统架构不行,也无济无事。”

2.在进行服务器部署、维护、管理的过程中,您遇到过哪些服务器管理的槽点?
在服务器的管理中,会涉及到很多方面,服务器系统管理、磁盘和数据管理、安全管理、硬件资源的维护和管理、还有软件管理等等。

特别是在数据安全方面,常常会考虑:备份什么、在哪备份、何时备份、多长时间备份一次、谁负责备份、备份载体应放在哪、多长时间检查一次备份,以及一旦数据丢失应采取哪些措施。

还有很多槽点,比如用户账户、密码、文件和网络访问权限、用户权利、用户配置文件及用户安全策略等,都需要好好琢磨。

3.服务器宕机之后如何快速找到故障节点?找到故障服务器之后如何快速替换?在进行服务器部署、维护、管理的过程中,您感受过哪些较为人性化的功能?

有时候服务器死机了,还得排查是硬死机,还是软死机,比如键盘切换数字锁、答谢锁等,鼠标没反应,那么就是硬死机了,要联系硬件厂商。

如果能ping通,那就是软死机了,有时候还会遇到桌面一片空白,不过忘了和打印机共享区仍然可以访问。可能内存耗尽了,进程死锁了......我会检查事件日志,查找发生死机时事件日志中的任何事件。以页面池耗尽为例,你会看到事件编号2019或2020,事件来源是SRV。


服务器是网站的灵魂,是打开网站的必要载体,没有服务器的网站用户无法浏览。服务器就像一块敲门砖,就算网站在搜索引擎里的排名再好,网站打不开,用户无法浏览,网站就没有用户体验可言,网站能被打开是第一个重点。

有些邮件服务器软件在人性化管理方面做得很不错,操作简单、外行也能上手,对于分级的管理员权限设置上做得很到位,最高权限者监控整个邮件服务器的运行。一站式的全程跟踪服务,从安装、部署到维护都有专人进行服务,大大让企业在使用之时无后顾之忧,提升工作效率。

论坛徽章:
89
CU大牛徽章
日期:2013-11-29 22:26:36CU大牛徽章
日期:2014-02-21 14:21:56CU十二周年纪念徽章
日期:2014-02-21 14:22:02CU大牛徽章
日期:2014-02-21 14:22:07CU大牛徽章
日期:2014-02-21 14:22:09CU大牛徽章
日期:2015-02-28 17:45:342015元宵节徽章
日期:2015-03-06 16:56:38羊年新春福章
日期:2015-02-28 17:42:522015七夕节徽章
日期:2015-09-14 09:24:55CU大牛徽章
日期:2014-02-21 14:22:44CU大牛徽章
日期:2015-02-28 17:48:12CU大牛徽章
日期:2015-02-28 17:47:58
发表于 2014-12-02 15:25 |显示全部楼层
哈哈,沙发!

论坛徽章:
0
发表于 2014-12-02 17:56 |显示全部楼层
我是开发,双十一我通宵,哈哈哈

论坛徽章:
210
2022北京冬奥会纪念版徽章
日期:2015-08-10 16:30:322015亚冠之全北现代
日期:2016-05-11 17:05:27操作系统版块每日发帖之星
日期:2016-05-10 19:23:04操作系统版块每日发帖之星
日期:2016-05-10 19:23:04操作系统版块每日发帖之星
日期:2016-05-10 19:23:04操作系统版块每日发帖之星
日期:2016-05-10 19:23:04操作系统版块每日发帖之星
日期:2016-05-10 19:22:58数据库技术版块每日发帖之星
日期:2016-05-10 19:23:04数据库技术版块每日发帖之星
日期:2016-05-10 19:23:04操作系统版块每日发帖之星
日期:2016-05-10 19:22:58操作系统版块每日发帖之星
日期:2016-05-10 19:22:58操作系统版块每日发帖之星
日期:2016-05-10 19:22:58
发表于 2014-12-02 18:36 |显示全部楼层
caoshanhu 发表于 2014-12-02 17:56
我是开发,双十一我通宵,哈哈哈


哪家的啊??也是做电商的么??

论坛徽章:
0
发表于 2014-12-02 18:54 |显示全部楼层
双十一通宵买东西哈

论坛徽章:
18
卯兔
日期:2013-09-27 17:41:0615-16赛季CBA联赛之佛山
日期:2016-07-09 17:34:45操作系统版块每周发帖之星
日期:2015-12-02 15:01:04IT运维版块每日发帖之星
日期:2015-12-02 06:20:00IT运维版块每日发帖之星
日期:2015-10-07 06:20:00IT运维版块每日发帖之星
日期:2015-10-03 06:20:00IT运维版块每日发帖之星
日期:2015-10-01 06:20:00羊年新春福章
日期:2015-04-01 17:56:06拜羊年徽章
日期:2015-04-01 17:56:062015年迎新春徽章
日期:2015-03-04 09:49:452015年辞旧岁徽章
日期:2015-03-03 16:54:15天秤座
日期:2015-01-14 06:39:28
发表于 2014-12-02 19:54 |显示全部楼层
电商如果没有规划好双十一的性能评估,就会造成运维人员当晚悲催的处理问题..............

论坛徽章:
3
白羊座
日期:2014-08-25 15:04:112014年中国系统架构师大会
日期:2014-10-14 15:59:002015元宵节徽章
日期:2015-03-06 15:52:30
发表于 2014-12-02 20:23 来自手机 |显示全部楼层
双十二不会又疯狂的打折吧

论坛徽章:
9
申猴
日期:2014-09-19 11:12:372015亚冠之大阪钢巴
日期:2015-06-04 11:47:30丑牛
日期:2015-01-22 15:49:26巳蛇
日期:2015-01-22 10:11:18巨蟹座
日期:2014-11-20 10:55:03天蝎座
日期:2014-11-16 22:10:26处女座
日期:2014-11-16 11:01:10双鱼座
日期:2014-07-25 10:09:54程序设计版块每日发帖之星
日期:2015-08-24 06:20:00
发表于 2014-12-02 21:32 |显示全部楼层
哪里有打折的,都是骗人的

论坛徽章:
29
CU大牛徽章
日期:2013-05-20 10:45:13数据库技术版块每日发帖之星
日期:2015-09-07 06:20:00每日论坛发贴之星
日期:2015-09-07 06:20:00每日论坛发贴之星
日期:2015-09-07 06:20:00数据库技术版块每日发帖之星
日期:2015-12-13 06:20:0015-16赛季CBA联赛之江苏
日期:2016-03-03 11:56:13IT运维版块每日发帖之星
日期:2016-03-06 06:20:00fulanqi
日期:2016-06-17 17:54:25IT运维版块每日发帖之星
日期:2016-07-23 06:20:0015-16赛季CBA联赛之佛山
日期:2016-08-11 18:06:41JAVA
日期:2016-10-25 16:09:072017金鸡报晓
日期:2017-01-10 15:13:29
发表于 2014-12-02 22:37 |显示全部楼层
本帖最后由 jieforest 于 2014-12-08 22:39 编辑

聊双11啊,有趣的话题

还是要声明一下,我不是专业运维人员,也不在国内几大电商公司、IT巨头。不过我以前带的徒弟中有几个现在是运维工程师。

1、作为服务器管理员,请聊聊您所经历的服务器计划外宕机事件,造成的影响,应对的策略。
通常服务器计划外的宕机事件都会被监控系统给监控到,以短信+电邮的方式通知运维人员,然后运维人员检查服务器,定位故障,排除故障。
至于要说造成的影响,还是取决于故障服务器上面部署的业务的紧急程度、重要程度,以及整个业务系统是否做了高可用的架构,如果不是高可用架构,且无备份,而且还是关键系统,那么影响肯定是很糟糕的。
至于应对的策略,肯定是把系统改造成高可用的架构,以应付偶发的故障。

2、在进行服务器部署、维护、管理的过程中,您遇到过哪些服务器管理的槽点?
其实服务器管理,最主要还是人的问题。
我们公司在这方面,以前有的槽点是管理制度以及不懂装懂的领导。

3、服务器宕机之后如何快速找到故障节点?找到故障服务器之后如何快速替换?在进行服务器部署、维护、管理的过程中,您感受过哪些较为人性化的功能?
我们通常都是通过自动化的运维监控系统来定位故障节点的,运维监控系统会给出故障节点的所在位置以及相应的故障类型,并通知运维人员,由运维人员去处理。

4、作为运维工程师的您,双十一前后经历了哪些故事?
这问题还是请电商公司的运维人员来回答吧。双十一对我公司的运维人员来说,表示无压力。

5、面对双十一带来的流量高峰,人性化的服务器维护管理功能可以为电商平台维护人员带来哪些好处?
有人性化的服务器维护管理功能吗?我很想听听电商公司的运维人员是怎么说的。

论坛徽章:
16
处女座
日期:2014-07-18 14:50:542017金鸡报晓
日期:2017-02-08 10:33:212017金鸡报晓
日期:2017-01-10 15:13:2915-16赛季CBA联赛之深圳
日期:2016-12-15 17:55:53C
日期:2016-10-25 16:00:1515-16赛季CBA联赛之新疆
日期:2016-07-21 14:02:0415-16赛季CBA联赛之江苏
日期:2016-06-30 12:15:04shanzhi
日期:2016-06-17 17:59:31平安夜徽章
日期:2015-12-26 00:06:30综合交流区版块每日发帖之星
日期:2015-10-10 06:20:00IT运维版块每日发帖之星
日期:2015-09-01 06:20:002015七夕节徽章
日期:2015-08-21 11:06:17
发表于 2014-12-02 22:43 |显示全部楼层
不是运维人员,友情帮顶
您需要登录后才可以回帖 登录 | 注册

本版积分规则

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号 北京市公安局海淀分局网监中心备案编号:11010802020122
广播电视节目制作经营许可证(京) 字第1234号 中国互联网协会会员  联系我们:
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP