- 论坛徽章:
- 0
|
1、谈谈您的运维管理和效率提升方面的经验
首先说下我们单位性质,是民企的ISP。在生产环境中,需要大量的服务器来做Nat,logs这些,其他的有少量应用mysql。
早期环境中应用了vmware的vsphere,后来改成万兆设备,在自动化运维管理方面也是一步一步的进步和摸索.
1),在监控上,cacti(监控流量,流量报警),nagios(监控服务器性能和状态,服务器性能报警),并行运行。(着这里和大家分享下,cacti在部署的时候,最好不要单台运行,因为cacti的rrdtool会很吃I/O的,最好2+台同时运行,这样当一台有故障时候,还可以有备份的数据来查看所需的.nagios就不详谈了,运行了3年无问题,当然也是我们监控的服务少的原因,但是不妨碍nagios的强大)
2),如果使用snmp来监控信息的话,网内的snmp团体名一定要统一,否则后期等到拓扑愈来愈大的时候,很头疼;现在好多的监控软件都能自动发现snmp了。
3),最近在搞zabbix,已经试验成功了,近期要批量上线,zabbix是很强大的软件,具体的功能感兴趣的朋友可以搜下
4),效率提升方面,用的是shell,python编写的脚本程序结合crontab来执行,
5),服务器安装方面使用的PXE外加定制精简的CentOS.
6),当服务器愈来愈多,单位愈来愈大的情况下,统一的账号管理就很重要了,最近搞的openldap可以实现,现在遇到了个别问题就是openldap+sudo的权限问题,搞了2,3天没搞成功,有兴趣的朋友可以交流下.
2、您在使用Puppet的感受
对于Puppet,我个人准备下一步就试验测试了,他的功能包括配置文件、管理用户、配置cron任务、管理软件包、管理系统服务这些方面都很适合我们这种大批量部署软件,管理员工账号权限,……这些任务,希望能和大家一起研究进步.
3、未来的自动化运维的方向,以及这些自动化运维工具的未来
个人认为未来的运维,对大数据,存储这些关键业务肯定是自动化的,数据的备份,安全,稳定。服务器的状态,性能.7*24能实时监控是必须的.
好的自动化运维工具,稳定,维护简单,配置简便,能给公司节俭成本,增加公司服务/数据稳定性和安全性是必然的,具体的会变成什么样,就不敢揣测了。
平时我在运维的过程中都没有整理文档的习惯,借此机会正好总结一下,建议大家当完成一个任务时,都记一个文档,刚开始我配置cacti的很熟悉。后来一台累死掉了,重新配置时,还得慢慢回忆,很费劲.
谢谢~希望这些能给大家带来点帮助,另外希望版主能够分享一本《Puppet实战》,哈哈,好了。非常乐意分享这些给大家~
  
|
评分
-
查看全部评分
|