忘记密码   免费注册 查看新帖 | 论坛精华区

ChinaUnix.net

  平台 论坛 博客 认证专区 大话IT HPC论坛 徽章 文库 沙龙 自测 下载 频道自动化运维 虚拟化 储存备份 C/C++ PHP MySQL 嵌入式 Linux系统
最近访问板块 发新帖
楼主: pipihappy8888

[Web] 【大话IT】双十一运维工程师怎么过?吐槽那些垃圾的服务器管理的故事! [复制链接]

论坛徽章:
10
CU大牛徽章
日期:2013-05-20 10:44:54数据库技术版块每日发帖之星
日期:2015-06-09 22:20:00IT运维版块每日发帖之星
日期:2015-06-05 22:20:00亥猪
日期:2014-08-23 14:52:27摩羯座
日期:2013-11-29 18:02:31CU十二周年纪念徽章
日期:2013-10-24 15:41:34CU大牛徽章
日期:2013-05-20 10:45:31CU大牛徽章
日期:2013-05-20 10:45:24CU大牛徽章
日期:2013-05-20 10:45:13综合交流区版块每日发帖之星
日期:2016-02-12 06:20:00
发表于 2014-12-04 18:21 |显示全部楼层
火速围观中

论坛徽章:
0
发表于 2014-12-04 20:15 |显示全部楼层
回复 1# pipihappy8888


    一)服务器宕机的情况经常会发生,由于过保 或者负载过高的情况
        特定的节日引发问题对于门户网站更是常见,个人认为引发点一般有
               1)双十一更是一个流量徒增,并发量过大,服务器数量不够   
               2)大促期间,产品异常兴奋,在紧急催促下,开发的代码逻辑很是关键,形成死循环之类
               3)预估不够准确,压测终究是测试,不是实战,而是理想情况
       策略要针对本质,也就是运维的职责所在了
                #1    个人认为运维一直是打野状态, carry全场不是空话,带动节奏      测试  产品   开发  都需要把控的内容,最后到运维这   所以一个公司平时的流程化细不细很关键!
                #2     访问量评估要准确一点,不能相差甚远,过于浪费或者过于节俭都是不合适的,平时的架构基础很关键
                #3    系统优化,针对不同业务选择内核的优化方案,比如需要长连接的设置了回收  重新使用,很可能经常连接,造成服务器更高的负载

论坛徽章:
18
卯兔
日期:2013-09-27 17:41:0615-16赛季CBA联赛之佛山
日期:2016-07-09 17:34:45操作系统版块每周发帖之星
日期:2015-12-02 15:01:04IT运维版块每日发帖之星
日期:2015-12-02 06:20:00IT运维版块每日发帖之星
日期:2015-10-07 06:20:00IT运维版块每日发帖之星
日期:2015-10-03 06:20:00IT运维版块每日发帖之星
日期:2015-10-01 06:20:00羊年新春福章
日期:2015-04-01 17:56:06拜羊年徽章
日期:2015-04-01 17:56:062015年迎新春徽章
日期:2015-03-04 09:49:452015年辞旧岁徽章
日期:2015-03-03 16:54:15天秤座
日期:2015-01-14 06:39:28
发表于 2014-12-04 20:32 |显示全部楼层
回复 28# qingduo04


    1.作为服务器管理员,请聊聊您所经历的服务器计划外宕机事件,造成的影响,应对的策略。

  
// 印象中最重要的计划外宕机,是数据库(DB2)集群中的一台P570小型机,突然之间电源模块都报警,主机宕机。
      但是由于前期规划DB2数据节点两两互备,故在宕机后相关的资源自动进行切换,数据库的配置文件没有自动更换,我们现场手工停库、更换配置,启库,恢复正常。
影响:当时是耽误了4个小时吧,由于DB2数据库以外宕机后,数据库重新启动后需要rollback操作。
应对:需要提前进行高可用性测试,确保异常宕机后,数据库能够切换。

2.在进行服务器部署、维护、管理的过程中,您遇到过哪些服务器管理的槽点?
1.硬件报警: 大量X86维护的时候,涉及到机房巡检的操作,发现硬件告警,当前没有多余的人力进行机房巡检。
2.日常维护: 大量X86服务器做安全加固或者统一操作的时候,还需要一台一台进行操作,太浪费工作量。


3.服务器宕机之后如何快速找到故障节点?找到故障服务器之后如何快速替换?在进行服务器部署、维护、管理的过程中,您感受过哪些较为人性化的功能?
1. 比较安全的就是做负载,购买成对或者多台服务器能够互相备份,避免故障一台后,影响生产。


4.作为运维工程师的您,双十一前后经历了哪些故事?
   1. 由于所在行业为电信行业,没有感受到电商行业的运维工程师的双十一的压力。
但是在消费者正常访问前台的时候,幕后集聚着运维工程师辛苦的汗水。

论坛徽章:
0
发表于 2014-12-04 21:10 来自手机 |显示全部楼层
看人买东西

论坛徽章:
3
金牛座
日期:2013-08-26 10:25:02摩羯座
日期:2013-09-09 15:14:322015年亚洲杯之约旦
日期:2015-05-06 09:33:56
发表于 2014-12-05 10:38 |显示全部楼层
好活动,支持。。不在电商行业啊。

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152014年中国系统架构师大会
日期:2015-06-05 16:54:182011年中国系统架构师大会
日期:2015-06-05 16:54:392012年中国系统架构师大会
日期:2015-06-05 16:54:392013年中国系统架构师大会
日期:2015-06-05 16:54:39
发表于 2014-12-05 10:58 |显示全部楼层
也可以按照你的思路来发言啊回复 35# kooleon


   

论坛徽章:
21
白羊座
日期:2013-08-23 15:49:17金牛座
日期:2013-10-08 17:00:03处女座
日期:2013-10-12 11:54:11CU十二周年纪念徽章
日期:2013-10-24 15:41:34午马
日期:2013-11-27 14:07:21巨蟹座
日期:2013-12-04 10:56:03水瓶座
日期:2013-12-04 15:58:00亥猪
日期:2014-05-24 16:02:3115-16赛季CBA联赛之辽宁
日期:2016-11-07 13:52:53戌狗
日期:2013-08-23 16:15:31白羊座
日期:2013-08-24 21:59:24巨蟹座
日期:2013-08-25 16:34:24
发表于 2014-12-05 15:02 |显示全部楼层
1.作为服务器管理员,请聊聊您所经历的服务器计划外宕机事件,造成的影响,应对的策略。
        我上家公司是做电商的,有过一次宕机事件,那是在13年的时候,几月份忘记了, 我们机器在蓝讯托管,
        有一天上午,我们发现我们部分机器挂了,打电话和机房沟通,说是A控掉电,这个真的是很不爽啊,部分业务受影响,
        通过这个事反应出来,以后买机器要买双电的。这虽然是小概率事件,但是还是会发生的。

2.在进行服务器部署、维护、管理的过程中,您遇到过哪些服务器管理的槽点?
        机器多了的话必须使用自动化软件,例如:puppet saltstack ,一方面提高工作效率,一方面可以避免出错。

3.服务器宕机之后如何快速找到故障节点?找到故障服务器之后如何快速替换?在进行服务器部署、维护、管理的过程中,您感受过哪些较为人性化的功能?
        这个是多方面的, 有硬件的,软件的,环境的, 如果是硬件的问题,就打售后,软件的就自行解决呗。
        人性化? 都是工具而已,哪个用着顺手就用哪个。

4.作为运维工程师的您,双十一前后经历了哪些故事?
        我没遇到过高并发的情况

5.面对双十一带来的流量高峰,人性化的服务器维护管理功能可以为电商平台维护人员带来哪些好处?
        如果有ops那肯定是好,有压力直接上线机器,多方便啊。

论坛徽章:
9
巳蛇
日期:2013-12-05 15:03:33戌狗
日期:2013-12-10 20:52:35白羊座
日期:2014-12-30 14:11:58处女座
日期:2015-01-15 14:33:442015年亚洲杯纪念徽章
日期:2015-01-28 13:37:36羊年新春福章
日期:2015-01-30 15:03:352015年亚洲杯之约旦
日期:2015-02-09 17:07:552015年亚洲杯之韩国
日期:2015-03-26 15:04:132015年亚洲杯之卡塔尔
日期:2015-04-04 16:35:54
发表于 2014-12-05 16:34 |显示全部楼层
好话题。:wink:

1.作为服务器管理员,请聊聊您所经历的服务器计划外宕机事件,造成的影响,应对的策略。
由于投了点广告,搞活动,晚上9:45点,用户暴增,内存溢出,服务器瘫痪了,当时服务器不多,只能通知机房一台台重启了,好在数据在,临时加了近20台服务器..:wink:

还有一次是不知道机房哪家公司运营着不好的内容遭举报了,凌晨遭拔全部网线。......急冲冲杀到机房,换机柜了...

2.在进行服务器部署、维护、管理的过程中,您遇到过哪些服务器管理的槽点?
走到新的环境中,重新规划上100台机器的统一管理。

3.服务器宕机之后如何快速找到故障节点?找到故障服务器之后如何快速替换?在进行服务器部署、维护、管理的过程中,您感受过哪些较为人性化的功能?
监控通过 协议、端口、应用服务,同时监控着,很快找到故障点,现在所以的服务都有双线热备了

4.作为运维工程师的您,双十一前后经历了哪些故事?
      目前公司不是做电商的....,所以双十一没什么影响。

5.面对双十一带来的流量高峰,人性化的服务器维护管理功能可以为电商平台维护人员带来哪些好处?
      虽然公司不是电商,毕竟之前在电商做过~,感觉是电商需要备用足够的服务器,但是前提是要知道自己的用户群,预估量的多少,广告量投多少,来合理规划服务器资源。

论坛徽章:
0
发表于 2014-12-05 16:51 |显示全部楼层
1、双11针对重点业务进行24小时监控,特多对支付通道
2、各个机器流量预估峰值
3、资源准备
4、出现宕机时,快速从容的添加备用主机

论坛徽章:
29
CU大牛徽章
日期:2013-05-20 10:45:13数据库技术版块每日发帖之星
日期:2015-09-07 06:20:00每日论坛发贴之星
日期:2015-09-07 06:20:00每日论坛发贴之星
日期:2015-09-07 06:20:00数据库技术版块每日发帖之星
日期:2015-12-13 06:20:0015-16赛季CBA联赛之江苏
日期:2016-03-03 11:56:13IT运维版块每日发帖之星
日期:2016-03-06 06:20:00fulanqi
日期:2016-06-17 17:54:25IT运维版块每日发帖之星
日期:2016-07-23 06:20:0015-16赛季CBA联赛之佛山
日期:2016-08-11 18:06:41JAVA
日期:2016-10-25 16:09:072017金鸡报晓
日期:2017-01-10 15:13:29
发表于 2014-12-08 22:24 |显示全部楼层
caoshanhu 发表于 2014-12-02 18:54
双十一通宵买东西哈


朋友太幽默了,让我喷出一口老血。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号 北京市公安局海淀分局网监中心备案编号:11010802020122
广播电视节目制作经营许可证(京) 字第1234号 中国互联网协会会员  联系我们:
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP