- 论坛徽章:
- 4
|
本帖最后由 typuc 于 2014-12-10 22:38 编辑
1.作为服务器管理员,请聊聊您所经历的服务器计划外宕机事件,造成的影响,应对的策略。
有一个应用基于tomcat+mysql。用户突然没发登陆,登陆应用服务器,瞬间发现发现tomcat 连接数1000个已经被沾满了(应用配置了内存缓存,没法实现集群单个tomcat)重启tomcat 和 mysql 都无效果;mysql 执行show processlist 发现全是连接全是同一个sql的操作读操作;手动执行该sql查询超过3分钟都还没结果;但是在mysql备机上2秒完成,果断切换应用到备数据库。后面dba 发现那个sql 执行了一个视图,而且那个视图不会有数据更新,将那个视图生成统一名称的表,删除原有视图,部署集群定期重启tomcat更新内存缓存。
2.在进行服务器部署、维护、管理的过程中,您遇到过哪些服务器管理的槽点?
采用cobbler 批量部署,服务器托管机房上架前,完成相关配置交换机网络接口配置,上架时候只需要开机,测试ping,不做其他操作。之前公司上架10台服务器,如果公司联调完成2-3个小时就能完成理线通电测试工作,结果后面从下午搞到12点(机房太吵真心不适合临时想办法)。托管服务器最好带远程控制卡,可以远程故障诊断。详细记录服务器的所在机柜位置,U数。
3.服务器宕机之后如何快速找到故障节点?找到故障服务器之后如何快速替换?在进行服务器部署、维护、管理的过程中,您感受过哪些较为人性化的功能?
完善监控,nagios报警内容包括“主机名+应用名+端口”。找到故障服务器后,重负载上摘除该节点;保护现场,用于事故排查;
人性化功能:
A, 应用路径全是小写,不要大小写混用。应用采用tomcat+war方式部署,tomcat 容器的名词和war包工程名一致;
B,更新包提前解压,完成相关配置修改;通过rsync 同步到正式环境,温和下线后依次;
C, 相关日志和应用分开存放。防止脚本清理日志时候误删除应用;减少代码备份大小;
D, 所有应用中禁止使用IP地址,全部采用hostname 和 修改hosts文件实现互访问;
4.作为运维工程师的您,双十一前后经历了哪些故事?
围观电商大战,看他们的技术分享;那些新技术可以应用到当前业务中。
5.面对双十一带来的流量高峰,人性化的服务器维护管理功能可以为电商平台维护人员带来哪些好处?
A, 快速定位故障点;
B, 整齐划一的配置部署,减少后期维护难度;
C, 应用迁移不需要修改代码配置,只需要修改主机hosts文件。 |
|