- 论坛徽章:
- 0
|
1、说说您在Linux服务器维护工作中遇到哪些困难?
在运维过程中,部分环境的基础硬件及OS不一致,导致运维成本急剧增加。我们的运维工作大部分自动化了,并且自动化的过程基本是自主研发的,主要由C+Shell+python的组合完成。由于OS的不一致,导致前期部署这些监控工具时会出现不同的小问题,而工具的编写人员交接工作及文档做的不够,给后期维护这些工具带来了极大的痛苦。我举个例子,在linx中grep -E可以实现正则表示过滤文本,但是版本Linux如果升级到6.5后,这个写法就要改成grep -P,否则不能使用,而这部分代码是Shell编写的,Shell编写的代码调试是比较痛苦的事情。很多痛苦的教训,提醒我们,如果做自己的运维工作,条件允许尽量做成一致的环境,但是往往历史原因,很难实现。这是编写管理脚本时要注意封装一些特殊用法,如果这些用法改变了,只要该封装接口就可以了,不要做太多的修改,否则维护这些管理工具也是很痛苦的。
2、谈谈您对运维人员职业发展的看法
运维人员的职业发展,个人认为必须先从繁杂的运维工作中脱离出来,要想脱离出来就必须学会“偷懒”,编写脚本程序,减轻自己的工作,然后才有时间,这时根据自己的爱好去学习。如果能脱离出来,我相信你总可以找到一条光明的道路,否则天天被这些繁杂的小事给忙坏了。
(1)如果对系统的业务感兴趣,可以找系统故障和应用的关联性,然后研究什么计算机故障,对应联系什么人,会影响什么业务......,你的运维工作慢慢就跟业务走的更近了,哪天就到了老总哪里去了。
(2)如果能接触生产线的代码,可以研究系统代码,熟悉系统如何实现的;
(3)如果爱好数据库,可以去研究Oracle,考个OCM认证,这个方向目前来看还是不错的;
(4)如果......,
还是结合自己的基础和兴趣,有时自己的兴趣是很难知道的,10年前我不可能知道有现在的我,尝试去做了,然后发现兴趣。
3、说说您在Linux服务器维护工作中遇到的有启发的案例
Linux服务器维护工作中,启发最大的就是:如何学会“偷懒”,但是工作的产出物不能打折扣,而往往“偷懒”后报表和效果图更有数据做说服力。
学会了以后,然后从繁杂的工作中脱颖出来,利用时间学习,总结每个故障;需求和故障都能驱动我们进步。
看到前面的朋友提到运维机器比较多,建议换种思路来实现监控,一般我们监控都是在各个Agent端部署Agent程序,将Agent采集的结果发送到Center,如果机器多时,建议学习一下我们成功的经验:在Agent端做好必要的数据分析,将分析后有用的数据再发送到Center,本地存一份完整的采集结果,利于分析复杂问题。
还有一个:如果不做监控产品,尽量统一基础环境,便于维护管理监控的工具。 |
|