免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: send_linux
打印 上一主题 下一主题

[其他] IT运维技术讨论之一:如何构建高性能Linux服务器(获奖名单已公布-2014-11-10) [复制链接]

论坛徽章:
0
1 [报告]
发表于 2014-09-26 12:58 |显示全部楼层
1、说说您在Linux服务器维护工作中遇到哪些困难?
在运维过程中,部分环境的基础硬件及OS不一致,导致运维成本急剧增加。我们的运维工作大部分自动化了,并且自动化的过程基本是自主研发的,主要由C+Shell+python的组合完成。由于OS的不一致,导致前期部署这些监控工具时会出现不同的小问题,而工具的编写人员交接工作及文档做的不够,给后期维护这些工具带来了极大的痛苦。我举个例子,在linx中grep -E可以实现正则表示过滤文本,但是版本Linux如果升级到6.5后,这个写法就要改成grep -P,否则不能使用,而这部分代码是Shell编写的,Shell编写的代码调试是比较痛苦的事情。很多痛苦的教训,提醒我们,如果做自己的运维工作,条件允许尽量做成一致的环境,但是往往历史原因,很难实现。这是编写管理脚本时要注意封装一些特殊用法,如果这些用法改变了,只要该封装接口就可以了,不要做太多的修改,否则维护这些管理工具也是很痛苦的。

2、谈谈您对运维人员职业发展的看法
运维人员的职业发展,个人认为必须先从繁杂的运维工作中脱离出来,要想脱离出来就必须学会“偷懒”,编写脚本程序,减轻自己的工作,然后才有时间,这时根据自己的爱好去学习。如果能脱离出来,我相信你总可以找到一条光明的道路,否则天天被这些繁杂的小事给忙坏了。
(1)如果对系统的业务感兴趣,可以找系统故障和应用的关联性,然后研究什么计算机故障,对应联系什么人,会影响什么业务......,你的运维工作慢慢就跟业务走的更近了,哪天就到了老总哪里去了。
(2)如果能接触生产线的代码,可以研究系统代码,熟悉系统如何实现的;
(3)如果爱好数据库,可以去研究Oracle,考个OCM认证,这个方向目前来看还是不错的;
(4)如果......,
还是结合自己的基础和兴趣,有时自己的兴趣是很难知道的,10年前我不可能知道有现在的我,尝试去做了,然后发现兴趣。

3、说说您在Linux服务器维护工作中遇到的有启发的案例
Linux服务器维护工作中,启发最大的就是:如何学会“偷懒”,但是工作的产出物不能打折扣,而往往“偷懒”后报表和效果图更有数据做说服力。
学会了以后,然后从繁杂的工作中脱颖出来,利用时间学习,总结每个故障;需求和故障都能驱动我们进步。
看到前面的朋友提到运维机器比较多,建议换种思路来实现监控,一般我们监控都是在各个Agent端部署Agent程序,将Agent采集的结果发送到Center,如果机器多时,建议学习一下我们成功的经验:在Agent端做好必要的数据分析,将分析后有用的数据再发送到Center,本地存一份完整的采集结果,利于分析复杂问题。
还有一个:如果不做监控产品,尽量统一基础环境,便于维护管理监控的工具。

论坛徽章:
0
2 [报告]
发表于 2014-09-26 12:58 |显示全部楼层
1、说说您在Linux服务器维护工作中遇到哪些困难?
在运维过程中,部分环境的基础硬件及OS不一致,导致运维成本急剧增加。我们的运维工作大部分自动化了,并且自动化的过程基本是自主研发的,主要由C+Shell+python的组合完成。由于OS的不一致,导致前期部署这些监控工具时会出现不同的小问题,而工具的编写人员交接工作及文档做的不够,给后期维护这些工具带来了极大的痛苦。我举个例子,在linx中grep -E可以实现正则表示过滤文本,但是版本Linux如果升级到6.5后,这个写法就要改成grep -P,否则不能使用,而这部分代码是Shell编写的,Shell编写的代码调试是比较痛苦的事情。很多痛苦的教训,提醒我们,如果做自己的运维工作,条件允许尽量做成一致的环境,但是往往历史原因,很难实现。这是编写管理脚本时要注意封装一些特殊用法,如果这些用法改变了,只要该封装接口就可以了,不要做太多的修改,否则维护这些管理工具也是很痛苦的。

2、谈谈您对运维人员职业发展的看法
运维人员的职业发展,个人认为必须先从繁杂的运维工作中脱离出来,要想脱离出来就必须学会“偷懒”,编写脚本程序,减轻自己的工作,然后才有时间,这时根据自己的爱好去学习。如果能脱离出来,我相信你总可以找到一条光明的道路,否则天天被这些繁杂的小事给忙坏了。
(1)如果对系统的业务感兴趣,可以找系统故障和应用的关联性,然后研究什么计算机故障,对应联系什么人,会影响什么业务......,你的运维工作慢慢就跟业务走的更近了,哪天就到了老总哪里去了。
(2)如果能接触生产线的代码,可以研究系统代码,熟悉系统如何实现的;
(3)如果爱好数据库,可以去研究Oracle,考个OCM认证,这个方向目前来看还是不错的;
(4)如果......,
还是结合自己的基础和兴趣,有时自己的兴趣是很难知道的,10年前我不可能知道有现在的我,尝试去做了,然后发现兴趣。

3、说说您在Linux服务器维护工作中遇到的有启发的案例
Linux服务器维护工作中,启发最大的就是:如何学会“偷懒”,但是工作的产出物不能打折扣,而往往“偷懒”后报表和效果图更有数据做说服力。
学会了以后,然后从繁杂的工作中脱颖出来,利用时间学习,总结每个故障;需求和故障都能驱动我们进步。
看到前面的朋友提到运维机器比较多,建议换种思路来实现监控,一般我们监控都是在各个Agent端部署Agent程序,将Agent采集的结果发送到Center,如果机器多时,建议学习一下我们成功的经验:在Agent端做好必要的数据分析,将分析后有用的数据再发送到Center,本地存一份完整的采集结果,利于分析复杂问题。
还有一个:如果不做监控产品,尽量统一基础环境,便于维护管理监控的工具。

论坛徽章:
0
3 [报告]
发表于 2014-09-29 11:02 |显示全部楼层
1、技术
2、规范化的流程
3、企业文化

论坛徽章:
0
4 [报告]
发表于 2014-09-29 12:01 |显示全部楼层
回复 43# yestreenstars


    相同的写法,5.5 和 6.5是有区别的。建议用-P,这样兼容性更好。

论坛徽章:
0
5 [报告]
发表于 2014-10-07 10:34 |显示全部楼层
1、说说您在Linux服务器维护工作中遇到哪些困难?
遇到最多的问题是:
(1)考虑不同OS(除了linux还有部分IBM的Unix)和硬件设备(存储设备、共享文件系统)的管理。
(2)不同软件系统及服务程序的配置管理
(3)对软件系统、OS、硬件设备的监控

2、谈谈您对Linux安全运维要关注的有哪些方面?
Linux安全运维涉及比较少,主要配置开放的端口,利用iptables的功能而已。
我们的安全设防主要在硬件入口完成,到了内部主要靠制度、物理隔离及DMZ区管理,所有的服务器都在DMZ区域内部。

3、说说您对Linux自动化运维的理解和实际的应用案例?
自动化运维:主要就是将重复劳动自动化,一般我们自动化都是通过定制脚本做特殊应用的自动化管理;
应用案例:常规通用的运维工作采用Zabbix来完成,功能齐全,易用性比较好,容易上手。
常规监控有:
CPU负荷
内存使用
磁盘使用
网络状况
端口监视
日志监视

4、谈谈您公司的分布式监控报警平台是如何搭建的,并说说你认为比较好的监控报警平台?
ganglia+nagios
插件nagios很多,扩展性很好。

论坛徽章:
0
6 [报告]
发表于 2014-10-09 09:48 |显示全部楼层
回复 83# 南非蚂蚁
(1)服务器的确很多,我们交易所里一个数据中心的生产系统就好几百,几个中心。并且应用上线的跨度比较大,所有OS的版本和硬件都有差异。
(2)硬件防火墙是有的,第一道关卡就是靠它来实现的。




   

论坛徽章:
0
7 [报告]
发表于 2014-10-09 09:49 |显示全部楼层
(1)服务器的确很多,我们交易所里一个数据中心的生产系统就好几百,几个中心。并且应用上线的时间跨度比较大,所以OS的版本和硬件都有差异。
(2)硬件防火墙是有的,第一道关卡就是靠它来实现的。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP