itTangzeng 发表于 2014-09-26 12:58

1、说说您在Linux服务器维护工作中遇到哪些困难?
在运维过程中,部分环境的基础硬件及OS不一致,导致运维成本急剧增加。我们的运维工作大部分自动化了,并且自动化的过程基本是自主研发的,主要由C+Shell+python的组合完成。由于OS的不一致,导致前期部署这些监控工具时会出现不同的小问题,而工具的编写人员交接工作及文档做的不够,给后期维护这些工具带来了极大的痛苦。我举个例子,在linx中grep -E可以实现正则表示过滤文本,但是版本Linux如果升级到6.5后,这个写法就要改成grep -P,否则不能使用,而这部分代码是Shell编写的,Shell编写的代码调试是比较痛苦的事情。很多痛苦的教训,提醒我们,如果做自己的运维工作,条件允许尽量做成一致的环境,但是往往历史原因,很难实现。这是编写管理脚本时要注意封装一些特殊用法,如果这些用法改变了,只要该封装接口就可以了,不要做太多的修改,否则维护这些管理工具也是很痛苦的。

2、谈谈您对运维人员职业发展的看法
运维人员的职业发展,个人认为必须先从繁杂的运维工作中脱离出来,要想脱离出来就必须学会“偷懒”,编写脚本程序,减轻自己的工作,然后才有时间,这时根据自己的爱好去学习。如果能脱离出来,我相信你总可以找到一条光明的道路,否则天天被这些繁杂的小事给忙坏了。
(1)如果对系统的业务感兴趣,可以找系统故障和应用的关联性,然后研究什么计算机故障,对应联系什么人,会影响什么业务......,你的运维工作慢慢就跟业务走的更近了,哪天就到了老总哪里去了。
(2)如果能接触生产线的代码,可以研究系统代码,熟悉系统如何实现的;
(3)如果爱好数据库,可以去研究Oracle,考个OCM认证,这个方向目前来看还是不错的;
(4)如果......,
还是结合自己的基础和兴趣,有时自己的兴趣是很难知道的,10年前我不可能知道有现在的我,尝试去做了,然后发现兴趣。

3、说说您在Linux服务器维护工作中遇到的有启发的案例
Linux服务器维护工作中,启发最大的就是:如何学会“偷懒”,但是工作的产出物不能打折扣,而往往“偷懒”后报表和效果图更有数据做说服力。
学会了以后,然后从繁杂的工作中脱颖出来,利用时间学习,总结每个故障;需求和故障都能驱动我们进步。
看到前面的朋友提到运维机器比较多,建议换种思路来实现监控,一般我们监控都是在各个Agent端部署Agent程序,将Agent采集的结果发送到Center,如果机器多时,建议学习一下我们成功的经验:在Agent端做好必要的数据分析,将分析后有用的数据再发送到Center,本地存一份完整的采集结果,利于分析复杂问题。
还有一个:如果不做监控产品,尽量统一基础环境,便于维护管理监控的工具。

exitgogo 发表于 2014-09-26 17:53

回复 41# itTangzeng



说的很详细,赞:mrgreen:
   

yestreenstars 发表于 2014-09-26 18:01

回复 41# itTangzeng

6.5也支持-E参数的啊~# cat /etc/issue
CentOS release 6.5 (Final)
Kernel \r on an \m

# echo '123abc456' | grep -oE '+'
abc
#

yunas 发表于 2014-09-26 19:21

新书~支持。

yunas 发表于 2014-09-26 19:21

本帖最后由 yunas 于 2014-11-12 23:25 编辑

支持南非蚂蚁 的新书,我来谈谈这几个讨论话题的个人看法。

bfmo 发表于 2014-09-27 21:08

1、说说您在Linux服务器维护工作中遇到哪些困难?
    1). linux版本较多(特别是测试部门),对于软件要多考虑兼容性;
    2). 虚拟机系统多,资源竞争很厉害(业务应用多),需详细了解业务应用,合理分配资源;
    3). 权限管理复杂(不同网段,用户访问权限交叉,不容易管理);
2、谈谈您对运维人员职业发展的看法
运维人员的职业发展,可以向多个方向发展,比如:熟悉公司产品,精通部署运营,可转售前/后支持工程师(技术);
对于技术比较感兴趣,到一定程度,可晋级系统架构师。也可以转管理,做运维经理,总监;
3、说说您在Linux服务器维护工作中遇到的有启发的案例
总结了几点:做事细致,善于发现问题;主动积极,虚心请教,把总结当成习惯;对于解决方法,多想想,
找出不同的处理方式,扩展思路;例如Cacti的自定义模板,结合实际应用,编写适合自己场景的代码;

以上简单总结了一下,抛砖引玉,希望能听听大牛们的见解。

南非蚂蚁 发表于 2014-09-28 09:57

bfmo 发表于 2014-09-27 21:08 static/image/common/back.gif
1、说说您在Linux服务器维护工作中遇到哪些困难?
    1). linux版本较多(特别是测试部门),对于软件要多 ...


说的很对,我的理解,其实运维就是一个资源整合和梳理的过程,然后建立相关制度和规范,相关人员进行遵守。这也是运维中的难点,反倒技术并不是最难的

思庄 发表于 2014-09-28 11:41

不错,又多长点知识了

seesea2517 发表于 2014-09-28 17:48

咦,一楼的话题是这个:
1、说说您在Linux服务器维护工作中遇到哪些困难?
2、谈谈您对Linux安全运维要关注的有哪些方面?
3、说说您对Linux自动化运维的理解和实际的应用案例?
4、谈谈您公司的分布式监控报警平台是如何搭建的,并说说你认为比较好的监控报警平台?

为啥看大家的回复话题是这样的:
1、说说您在Linux服务器维护工作中遇到哪些困难?
2、谈谈您对运维人员职业发展的看法
3、说说您在Linux服务器维护工作中遇到的有启发的案例
4、谈谈你对蚂蚁版主和他的书的看法

fengdoudm 发表于 2014-09-29 10:01

做技术,需要高度的细心、谨慎。一不小心造成损失是不可估量的。特别是运维和DBA:-L另外版主说的很对,规范运维管理制度确实很重要。
页: 1 2 3 4 [5] 6 7 8 9 10
查看完整版本: IT运维技术讨论之一:如何构建高性能Linux服务器(获奖名单已公布-2014-11-10)