fengzhanhai 发表于 2014-12-04 18:21

火速围观中:mrgreen:

t364749568 发表于 2014-12-04 20:15

回复 1# pipihappy8888


    一)服务器宕机的情况经常会发生,由于过保 或者负载过高的情况
      特定的节日引发问题对于门户网站更是常见,个人认为引发点一般有
               1)双十一更是一个流量徒增,并发量过大,服务器数量不够   
               2)大促期间,产品异常兴奋,在紧急催促下,开发的代码逻辑很是关键,形成死循环之类
               3)预估不够准确,压测终究是测试,不是实战,而是理想情况
       策略要针对本质,也就是运维的职责所在了
                #1    个人认为运维一直是打野状态, carry全场不是空话,带动节奏      测试产品   开发都需要把控的内容,最后到运维这   所以一个公司平时的流程化细不细很关键!
                #2   访问量评估要准确一点,不能相差甚远,过于浪费或者过于节俭都是不合适的,平时的架构基础很关键
                #3    系统优化,针对不同业务选择内核的优化方案,比如需要长连接的设置了回收重新使用,很可能经常连接,造成服务器更高的负载

qingduo04 发表于 2014-12-04 20:32

回复 28# qingduo04


    1.作为服务器管理员,请聊聊您所经历的服务器计划外宕机事件,造成的影响,应对的策略。

   // 印象中最重要的计划外宕机,是数据库(DB2)集群中的一台P570小型机,突然之间电源模块都报警,主机宕机。
      但是由于前期规划DB2数据节点两两互备,故在宕机后相关的资源自动进行切换,数据库的配置文件没有自动更换,我们现场手工停库、更换配置,启库,恢复正常。
影响:当时是耽误了4个小时吧,由于DB2数据库以外宕机后,数据库重新启动后需要rollback操作。
应对:需要提前进行高可用性测试,确保异常宕机后,数据库能够切换。

2.在进行服务器部署、维护、管理的过程中,您遇到过哪些服务器管理的槽点?
1.硬件报警: 大量X86维护的时候,涉及到机房巡检的操作,发现硬件告警,当前没有多余的人力进行机房巡检。
2.日常维护: 大量X86服务器做安全加固或者统一操作的时候,还需要一台一台进行操作,太浪费工作量。


3.服务器宕机之后如何快速找到故障节点?找到故障服务器之后如何快速替换?在进行服务器部署、维护、管理的过程中,您感受过哪些较为人性化的功能?
1. 比较安全的就是做负载,购买成对或者多台服务器能够互相备份,避免故障一台后,影响生产。

4.作为运维工程师的您,双十一前后经历了哪些故事?
   1. 由于所在行业为电信行业,没有感受到电商行业的运维工程师的双十一的压力。
但是在消费者正常访问前台的时候,幕后集聚着运维工程师辛苦的汗水。

chenzhiquan2000 发表于 2014-12-04 21:10

kooleon 发表于 2014-12-05 10:38

好活动,支持。。不在电商行业啊。:mrgreen:

pipihappy8888 发表于 2014-12-05 10:58

也可以按照你的思路来发言啊回复 35# kooleon


   

zongg 发表于 2014-12-05 15:02

1.作为服务器管理员,请聊聊您所经历的服务器计划外宕机事件,造成的影响,应对的策略。
        我上家公司是做电商的,有过一次宕机事件,那是在13年的时候,几月份忘记了, 我们机器在蓝讯托管,
        有一天上午,我们发现我们部分机器挂了,打电话和机房沟通,说是A控掉电,这个真的是很不爽啊,部分业务受影响,
        通过这个事反应出来,以后买机器要买双电的。这虽然是小概率事件,但是还是会发生的。

2.在进行服务器部署、维护、管理的过程中,您遇到过哪些服务器管理的槽点?
        机器多了的话必须使用自动化软件,例如:puppet saltstack ,一方面提高工作效率,一方面可以避免出错。

3.服务器宕机之后如何快速找到故障节点?找到故障服务器之后如何快速替换?在进行服务器部署、维护、管理的过程中,您感受过哪些较为人性化的功能?
        这个是多方面的, 有硬件的,软件的,环境的, 如果是硬件的问题,就打售后,软件的就自行解决呗。
        人性化? 都是工具而已,哪个用着顺手就用哪个。

4.作为运维工程师的您,双十一前后经历了哪些故事?
        我没遇到过高并发的情况:)

5.面对双十一带来的流量高峰,人性化的服务器维护管理功能可以为电商平台维护人员带来哪些好处?
        如果有ops那肯定是好,有压力直接上线机器,多方便啊。

h101com 发表于 2014-12-05 16:34

好话题。:wink:

1.作为服务器管理员,请聊聊您所经历的服务器计划外宕机事件,造成的影响,应对的策略。
由于投了点广告,搞活动,晚上9:45点,用户暴增,内存溢出,服务器瘫痪了,当时服务器不多,只能通知机房一台台重启了,好在数据在,临时加了近20台服务器..:wink:

还有一次是不知道机房哪家公司运营着不好的内容遭举报了,凌晨遭拔全部网线。......急冲冲杀到机房,换机柜了...

2.在进行服务器部署、维护、管理的过程中,您遇到过哪些服务器管理的槽点?
走到新的环境中,重新规划上100台机器的统一管理。

3.服务器宕机之后如何快速找到故障节点?找到故障服务器之后如何快速替换?在进行服务器部署、维护、管理的过程中,您感受过哪些较为人性化的功能?
监控通过 协议、端口、应用服务,同时监控着,很快找到故障点,现在所以的服务都有双线热备了:victory:

4.作为运维工程师的您,双十一前后经历了哪些故事?
      目前公司不是做电商的....,所以双十一没什么影响。:lol

5.面对双十一带来的流量高峰,人性化的服务器维护管理功能可以为电商平台维护人员带来哪些好处?
      虽然公司不是电商,毕竟之前在电商做过~,感觉是电商需要备用足够的服务器,但是前提是要知道自己的用户群,预估量的多少,广告量投多少,来合理规划服务器资源。

jean319 发表于 2014-12-05 16:51

1、双11针对重点业务进行24小时监控,特多对支付通道
2、各个机器流量预估峰值
3、资源准备
4、出现宕机时,快速从容的添加备用主机

jieforest 发表于 2014-12-08 22:24

caoshanhu 发表于 2014-12-02 18:54 static/image/common/back.gif
双十一通宵买东西哈

朋友太幽默了,让我喷出一口老血。
页: 1 2 3 [4] 5 6 7 8 9
查看完整版本: 【大话IT】双十一运维工程师怎么过?吐槽那些垃圾的服务器管理的故事!