论坛徽章:: 0

1楼 [报告]

发表于 2014-09-26 12:58 |显示全部楼层

1、说说您在Linux服务器维护工作中遇到哪些困难？
在运维过程中，部分环境的基础硬件及OS不一致，导致运维成本急剧增加。我们的运维工作大部分自动化了，并且自动化的过程基本是自主研发的，主要由C+Shell+python的组合完成。由于OS的不一致，导致前期部署这些监控工具时会出现不同的小问题，而工具的编写人员交接工作及文档做的不够，给后期维护这些工具带来了极大的痛苦。我举个例子，在linx中grep -E可以实现正则表示过滤文本，但是版本Linux如果升级到6.5后，这个写法就要改成grep -P，否则不能使用，而这部分代码是Shell编写的，Shell编写的代码调试是比较痛苦的事情。很多痛苦的教训，提醒我们，如果做自己的运维工作，条件允许尽量做成一致的环境，但是往往历史原因，很难实现。这是编写管理脚本时要注意封装一些特殊用法，如果这些用法改变了，只要该封装接口就可以了，不要做太多的修改，否则维护这些管理工具也是很痛苦的。

2、谈谈您对运维人员职业发展的看法
运维人员的职业发展，个人认为必须先从繁杂的运维工作中脱离出来，要想脱离出来就必须学会“偷懒”，编写脚本程序，减轻自己的工作，然后才有时间，这时根据自己的爱好去学习。如果能脱离出来，我相信你总可以找到一条光明的道路，否则天天被这些繁杂的小事给忙坏了。
(1)如果对系统的业务感兴趣，可以找系统故障和应用的关联性，然后研究什么计算机故障，对应联系什么人，会影响什么业务......，你的运维工作慢慢就跟业务走的更近了，哪天就到了老总哪里去了。
(2)如果能接触生产线的代码，可以研究系统代码，熟悉系统如何实现的；
(3)如果爱好数据库，可以去研究Oracle，考个OCM认证，这个方向目前来看还是不错的；
(4)如果......，
还是结合自己的基础和兴趣，有时自己的兴趣是很难知道的，10年前我不可能知道有现在的我，尝试去做了，然后发现兴趣。

3、说说您在Linux服务器维护工作中遇到的有启发的案例
Linux服务器维护工作中，启发最大的就是：如何学会“偷懒”,但是工作的产出物不能打折扣，而往往“偷懒”后报表和效果图更有数据做说服力。
学会了以后，然后从繁杂的工作中脱颖出来，利用时间学习，总结每个故障；需求和故障都能驱动我们进步。
看到前面的朋友提到运维机器比较多，建议换种思路来实现监控，一般我们监控都是在各个Agent端部署Agent程序，将Agent采集的结果发送到Center，如果机器多时，建议学习一下我们成功的经验：在Agent端做好必要的数据分析，将分析后有用的数据再发送到Center，本地存一份完整的采集结果，利于分析复杂问题。
还有一个：如果不做监控产品，尽量统一基础环境，便于维护管理监控的工具。

itTangzeng

白手起家

论坛徽章:: 0

2楼 [报告]

发表于 2014-09-26 12:58 |显示全部楼层

1、说说您在Linux服务器维护工作中遇到哪些困难？
在运维过程中，部分环境的基础硬件及OS不一致，导致运维成本急剧增加。我们的运维工作大部分自动化了，并且自动化的过程基本是自主研发的，主要由C+Shell+python的组合完成。由于OS的不一致，导致前期部署这些监控工具时会出现不同的小问题，而工具的编写人员交接工作及文档做的不够，给后期维护这些工具带来了极大的痛苦。我举个例子，在linx中grep -E可以实现正则表示过滤文本，但是版本Linux如果升级到6.5后，这个写法就要改成grep -P，否则不能使用，而这部分代码是Shell编写的，Shell编写的代码调试是比较痛苦的事情。很多痛苦的教训，提醒我们，如果做自己的运维工作，条件允许尽量做成一致的环境，但是往往历史原因，很难实现。这是编写管理脚本时要注意封装一些特殊用法，如果这些用法改变了，只要该封装接口就可以了，不要做太多的修改，否则维护这些管理工具也是很痛苦的。

2、谈谈您对运维人员职业发展的看法
运维人员的职业发展，个人认为必须先从繁杂的运维工作中脱离出来，要想脱离出来就必须学会“偷懒”，编写脚本程序，减轻自己的工作，然后才有时间，这时根据自己的爱好去学习。如果能脱离出来，我相信你总可以找到一条光明的道路，否则天天被这些繁杂的小事给忙坏了。
(1)如果对系统的业务感兴趣，可以找系统故障和应用的关联性，然后研究什么计算机故障，对应联系什么人，会影响什么业务......，你的运维工作慢慢就跟业务走的更近了，哪天就到了老总哪里去了。
(2)如果能接触生产线的代码，可以研究系统代码，熟悉系统如何实现的；
(3)如果爱好数据库，可以去研究Oracle，考个OCM认证，这个方向目前来看还是不错的；
(4)如果......，
还是结合自己的基础和兴趣，有时自己的兴趣是很难知道的，10年前我不可能知道有现在的我，尝试去做了，然后发现兴趣。

3、说说您在Linux服务器维护工作中遇到的有启发的案例
Linux服务器维护工作中，启发最大的就是：如何学会“偷懒”,但是工作的产出物不能打折扣，而往往“偷懒”后报表和效果图更有数据做说服力。
学会了以后，然后从繁杂的工作中脱颖出来，利用时间学习，总结每个故障；需求和故障都能驱动我们进步。
看到前面的朋友提到运维机器比较多，建议换种思路来实现监控，一般我们监控都是在各个Agent端部署Agent程序，将Agent采集的结果发送到Center，如果机器多时，建议学习一下我们成功的经验：在Agent端做好必要的数据分析，将分析后有用的数据再发送到Center，本地存一份完整的采集结果，利于分析复杂问题。
还有一个：如果不做监控产品，尽量统一基础环境，便于维护管理监控的工具。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

itTangzeng

白手起家

论坛徽章:: 0

3楼 [报告]

发表于 2014-09-29 11:02 |显示全部楼层

1、技术
2、规范化的流程
3、企业文化

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

itTangzeng

白手起家

论坛徽章:: 0

4楼 [报告]

发表于 2014-09-29 12:01 |显示全部楼层

回复 43# yestreenstars

相同的写法，5.5 和 6.5是有区别的。建议用-P，这样兼容性更好。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

itTangzeng

白手起家

论坛徽章:: 0

5楼 [报告]

发表于 2014-10-07 10:34 |显示全部楼层

1、说说您在Linux服务器维护工作中遇到哪些困难？
遇到最多的问题是：
(1)考虑不同OS（除了linux还有部分IBM的Unix）和硬件设备（存储设备、共享文件系统）的管理。
(2)不同软件系统及服务程序的配置管理
(3)对软件系统、OS、硬件设备的监控

2、谈谈您对Linux安全运维要关注的有哪些方面？
Linux安全运维涉及比较少，主要配置开放的端口，利用iptables的功能而已。
我们的安全设防主要在硬件入口完成，到了内部主要靠制度、物理隔离及DMZ区管理，所有的服务器都在DMZ区域内部。

3、说说您对Linux自动化运维的理解和实际的应用案例？
自动化运维：主要就是将重复劳动自动化，一般我们自动化都是通过定制脚本做特殊应用的自动化管理；
应用案例：常规通用的运维工作采用Zabbix来完成，功能齐全，易用性比较好，容易上手。
常规监控有：
CPU负荷
内存使用
磁盘使用
网络状况
端口监视
日志监视

4、谈谈您公司的分布式监控报警平台是如何搭建的，并说说你认为比较好的监控报警平台？
ganglia+nagios
插件nagios很多，扩展性很好。