laputa73 发表于 2014-10-05 09:13

从功能看Zabbix,可以支持agent,snmp,ipmi,也可以支持短信,邮件告警。agent还支持跨平台。
和Ganglia+Nagios架构类似,但是更像一个传统的主机管理系统。
这两种方案有什么主要差别?
那个管理大量主机的性能更好?
那个的插件更丰富?

南非蚂蚁 发表于 2014-10-05 12:33

houjun19830610 发表于 2014-10-01 21:12 static/image/common/back.gif
本期话题:
1、说说您在Linux服务器维护工作中遇到哪些困难?
目前遇到的主要困难是


都是经验之谈!:mrgreen:

南非蚂蚁 发表于 2014-10-05 12:35

laputa73 发表于 2014-10-05 09:13 static/image/common/back.gif
从功能看Zabbix,可以支持agent,snmp,ipmi,也可以支持短信,邮件告警。agent还支持跨平台。
和Ganglia+Nag ...

ganglia+nagios,支持分布式构建,插件nagios的够多了吧,支持nagios的插件都支持这个构架。

性能问题,绝对优秀,几千台服务器监控非常稳定和轻松

shang2010 发表于 2014-10-06 05:26

ganglia+nagios,支持分布式构建,插件nagios的够多了吧,支持nagios的插件都支持这个构架。


这些都是监控用途的吧

ertou 发表于 2014-10-06 21:28

本人正在研究在centos 7上搭建高可用集群,之前从未接触过这方面,都不知道从哪里开始着手,在网上找一些资料看,但缺少系统的学习方法,求赠书!
目前我通过一些琐碎的资料可以实现pacemaker+corosync双集热备集群,即可以通过命令行配置,也可以通过UI界面管理。它是从heartbeat衍生出来的项目,pacemaker功能相当的强大。
corosync+pacemaker成了高可用集群中的最佳组合,正在成为一种流行的趋势。
稍后为会整理一下资料分享给大家,供大家参考
下面这个连接,就是本人杰作:、
http://linux.cn/forum.php?mod=viewthread&tid=13137&page=1&extra=#pid49390

lanni654321 发表于 2014-10-06 22:01

unicom_2 发表于 2014-10-07 09:41

在开发和运维完全断层的企业工作的表示,运维其实就是背黑锅的

itTangzeng 发表于 2014-10-07 10:34

1、说说您在Linux服务器维护工作中遇到哪些困难?
遇到最多的问题是:
(1)考虑不同OS(除了linux还有部分IBM的Unix)和硬件设备(存储设备、共享文件系统)的管理。
(2)不同软件系统及服务程序的配置管理
(3)对软件系统、OS、硬件设备的监控

2、谈谈您对Linux安全运维要关注的有哪些方面?
Linux安全运维涉及比较少,主要配置开放的端口,利用iptables的功能而已。
我们的安全设防主要在硬件入口完成,到了内部主要靠制度、物理隔离及DMZ区管理,所有的服务器都在DMZ区域内部。

3、说说您对Linux自动化运维的理解和实际的应用案例?
自动化运维:主要就是将重复劳动自动化,一般我们自动化都是通过定制脚本做特殊应用的自动化管理;
应用案例:常规通用的运维工作采用Zabbix来完成,功能齐全,易用性比较好,容易上手。
常规监控有:
CPU负荷
内存使用
磁盘使用
网络状况
端口监视
日志监视

4、谈谈您公司的分布式监控报警平台是如何搭建的,并说说你认为比较好的监控报警平台?
ganglia+nagios
插件nagios很多,扩展性很好。

race 发表于 2014-10-07 11:13

本帖最后由 race 于 2014-10-07 11:15 编辑

1、说说您在Linux服务器维护工作中遇到哪些困难?
作为一个有20年维护经验的人来说,每天都会遇到问题或者困难,困难是相对的,已经解决的问题再次遇到的话,就不叫困难了。只有不断地学习,不断地熟悉自己维护的设备,困难是越来越少的。技术上的问题,最终都是可以解决的。非技术问题,对于维护人员来说,就是最大的困难了。例如服务器出保之后,遇到硬件损坏,必须更换,需要给领导说明白必须花这么多钱买这个配件,领导批准之后,还得催着采购人员赶紧买,到货之后赶紧安装测试。在这段时间里面,别人看到的就是设备不正常,不管其中的原因。还有就是压力,维护人员都会遇到这样的情况:单位关键的工作需要在某个关键的服务器上运行,该服务器又突然不正常了,各方面的人都在不停地催,这个时候,困难也不是技术因素,而是别人人为造成的压力。还有就是协调的问题,例如检查发现,服务器发热严重,需要降低环境温度,而空调又是别人负责的,他说以前都这个温度,就没问题,为什么到你这里就得降低温度?
2、谈谈您对Linux安全运维要关注的有哪些方面?
   安全运维的关键就是安全的标准,不同的标准需要的投入是不一样的,这个投入就包括了技术、设备和人员。实际上我们经常遇到的就是没有什么投入情况下,来强调安全,让一个普通的系统管理员来兼任安全管理,这本身就是隐患。不同的单位对安全的要求也是不一样的,有些怕数据丢失,就买了带库来备份数据,有些怕敏感数据被窃,就增加各种防火墙。其实安全的关键还是防范意识和责任心,技术上差别不大。防范意识强了,随时会增加安全方面的投资,责任心强了,随时会关注漏洞和补丁。不要以为花大价钱买了当前最好的防火墙就可以高枕无忧了,有可能一个月之后,防火墙就漏洞百出了。还有就是制度的完善和监督,很多安全事件都是内部人员有意或无意造成的,这是技术防范管不了的。
3、说说您对Linux自动化运维的理解和实际的应用案例?
   目前正在研发的无人驾驶汽车,据说是未来的发展趋势,其实我一直在想,开车经常遇到修路,需要从旁边的烂路上绕过去,或者到了草原和沙漠里面,没有路,只能依稀看到车辙,这个时候,还是靠司机来驾驶稳妥。自动化运维跟无人驾驶汽车有点类似。自动化也是维护人员的工具,只是减轻了系统员的负担,也离不开系统员的的参与。如果维护人员水平高,就可以自己写自动化运维工具,如果没能力,就会买别人的自动化维护产品。一旦发现问题的话,还得需要系统员来解决。当然,如果维护服务外包的话,就另说了。自动化运维用在多节点的系统安装、应用软件部署、系统监控、开关机等方面还是提高了很多工作效率。维护100个节点,突然发现几个节点看不到了,只能放弃自动化,一台台去机房解决了。
4、谈谈您公司的分布式监控报警平台是如何搭建的,并说说你认为比较好的监控报警平台?
   对于上千个节点的集群来说,包括了服务器、存储和交换机等主要的设备,它们的品牌不同,购置的日期不同,要做到很好的监控,在有能力的条件下,开源监控软件是最后的选择了,Ganglia、zabbix和Cacti都是不错的选择,功能都差不多,关键在于对监控软件的熟悉程度和应用程度了,例如,GPU集群安装之后,如何在原来的监控软件里面监控GPU的运行状态?一个服务器两个GPU卡,他们是同时工作,还是一个负载到100%之后,再启动另一个?这都需要通过监控来了解,才能进一步了解应用软件是如何工作的。监控也是有重点的,对于硬件经常出现故障的部位,例如内存、硬盘等,需要重点监控;对于高性能计算服务器就需要密切监控CPU利用率、网络和存储,这是影响整体运算速度的关键。数据库敏感型的应用,对数据库的监控就是首要任务了。

laputa73 发表于 2014-10-07 12:41

读了一下样张,感觉收获不小。
关于ntop/ntopng,有个疑问
理论上,他应该只能看见本机网卡的流量,应该不能用来监控局域网多台主机流量的吧
页: 1 2 3 4 5 6 7 [8] 9 10
查看完整版本: IT运维技术讨论之一:如何构建高性能Linux服务器(获奖名单已公布-2014-11-10)