IT运维技术讨论之一：如何构建高性能Linux服务器（获奖名单已公布-2014-11-10） - 第8页 - 服务器应用 - Chinaunix

laputa73 发表于 2014-10-05 09:13

从功能看Zabbix，可以支持agent,snmp,ipmi,也可以支持短信，邮件告警。agent还支持跨平台。
和Ganglia+Nagios架构类似，但是更像一个传统的主机管理系统。
这两种方案有什么主要差别？
那个管理大量主机的性能更好？
那个的插件更丰富？

南非蚂蚁 发表于 2014-10-05 12:33

houjun19830610 发表于 2014-10-01 21:12 static/image/common/back.gif
本期话题：
1、说说您在Linux服务器维护工作中遇到哪些困难？
目前遇到的主要困难是

都是经验之谈！:mrgreen:

南非蚂蚁 发表于 2014-10-05 12:35

laputa73 发表于 2014-10-05 09:13 static/image/common/back.gif
从功能看Zabbix，可以支持agent,snmp,ipmi,也可以支持短信，邮件告警。agent还支持跨平台。
和Ganglia+Nag ...

ganglia+nagios，支持分布式构建，插件nagios的够多了吧，支持nagios的插件都支持这个构架。

性能问题，绝对优秀，几千台服务器监控非常稳定和轻松

shang2010 发表于 2014-10-06 05:26

ganglia+nagios，支持分布式构建，插件nagios的够多了吧，支持nagios的插件都支持这个构架。

这些都是监控用途的吧

ertou 发表于 2014-10-06 21:28

本人正在研究在centos 7上搭建高可用集群，之前从未接触过这方面，都不知道从哪里开始着手，在网上找一些资料看，但缺少系统的学习方法，求赠书！
目前我通过一些琐碎的资料可以实现pacemaker+corosync双集热备集群，即可以通过命令行配置，也可以通过UI界面管理。它是从heartbeat衍生出来的项目，pacemaker功能相当的强大。
corosync+pacemaker成了高可用集群中的最佳组合，正在成为一种流行的趋势。
稍后为会整理一下资料分享给大家，供大家参考
下面这个连接，就是本人杰作：、
http://linux.cn/forum.php?mod=viewthread&tid=13137&page=1&extra=#pid49390

lanni654321 发表于 2014-10-06 22:01

unicom_2 发表于 2014-10-07 09:41

在开发和运维完全断层的企业工作的表示，运维其实就是背黑锅的

itTangzeng 发表于 2014-10-07 10:34

1、说说您在Linux服务器维护工作中遇到哪些困难？
遇到最多的问题是：
(1)考虑不同OS（除了linux还有部分IBM的Unix）和硬件设备（存储设备、共享文件系统）的管理。
(2)不同软件系统及服务程序的配置管理
(3)对软件系统、OS、硬件设备的监控

2、谈谈您对Linux安全运维要关注的有哪些方面？
Linux安全运维涉及比较少，主要配置开放的端口，利用iptables的功能而已。
我们的安全设防主要在硬件入口完成，到了内部主要靠制度、物理隔离及DMZ区管理，所有的服务器都在DMZ区域内部。

3、说说您对Linux自动化运维的理解和实际的应用案例？
自动化运维：主要就是将重复劳动自动化，一般我们自动化都是通过定制脚本做特殊应用的自动化管理；
应用案例：常规通用的运维工作采用Zabbix来完成，功能齐全，易用性比较好，容易上手。
常规监控有：
CPU负荷
内存使用
磁盘使用
网络状况
端口监视
日志监视

4、谈谈您公司的分布式监控报警平台是如何搭建的，并说说你认为比较好的监控报警平台？
ganglia+nagios
插件nagios很多，扩展性很好。

race 发表于 2014-10-07 11:13

本帖最后由 race 于 2014-10-07 11:15 编辑

1、说说您在Linux服务器维护工作中遇到哪些困难？
作为一个有20年维护经验的人来说，每天都会遇到问题或者困难，困难是相对的，已经解决的问题再次遇到的话，就不叫困难了。只有不断地学习，不断地熟悉自己维护的设备，困难是越来越少的。技术上的问题，最终都是可以解决的。非技术问题，对于维护人员来说，就是最大的困难了。例如服务器出保之后，遇到硬件损坏，必须更换，需要给领导说明白必须花这么多钱买这个配件，领导批准之后，还得催着采购人员赶紧买，到货之后赶紧安装测试。在这段时间里面，别人看到的就是设备不正常，不管其中的原因。还有就是压力，维护人员都会遇到这样的情况：单位关键的工作需要在某个关键的服务器上运行，该服务器又突然不正常了，各方面的人都在不停地催，这个时候，困难也不是技术因素，而是别人人为造成的压力。还有就是协调的问题，例如检查发现，服务器发热严重，需要降低环境温度，而空调又是别人负责的，他说以前都这个温度，就没问题，为什么到你这里就得降低温度？
2、谈谈您对Linux安全运维要关注的有哪些方面？
安全运维的关键就是安全的标准，不同的标准需要的投入是不一样的，这个投入就包括了技术、设备和人员。实际上我们经常遇到的就是没有什么投入情况下，来强调安全，让一个普通的系统管理员来兼任安全管理，这本身就是隐患。不同的单位对安全的要求也是不一样的，有些怕数据丢失，就买了带库来备份数据，有些怕敏感数据被窃，就增加各种防火墙。其实安全的关键还是防范意识和责任心，技术上差别不大。防范意识强了，随时会增加安全方面的投资，责任心强了，随时会关注漏洞和补丁。不要以为花大价钱买了当前最好的防火墙就可以高枕无忧了，有可能一个月之后，防火墙就漏洞百出了。还有就是制度的完善和监督，很多安全事件都是内部人员有意或无意造成的，这是技术防范管不了的。
3、说说您对Linux自动化运维的理解和实际的应用案例？
目前正在研发的无人驾驶汽车，据说是未来的发展趋势，其实我一直在想，开车经常遇到修路，需要从旁边的烂路上绕过去，或者到了草原和沙漠里面，没有路，只能依稀看到车辙，这个时候，还是靠司机来驾驶稳妥。自动化运维跟无人驾驶汽车有点类似。自动化也是维护人员的工具，只是减轻了系统员的负担，也离不开系统员的的参与。如果维护人员水平高，就可以自己写自动化运维工具，如果没能力，就会买别人的自动化维护产品。一旦发现问题的话，还得需要系统员来解决。当然，如果维护服务外包的话，就另说了。自动化运维用在多节点的系统安装、应用软件部署、系统监控、开关机等方面还是提高了很多工作效率。维护100个节点，突然发现几个节点看不到了，只能放弃自动化，一台台去机房解决了。
4、谈谈您公司的分布式监控报警平台是如何搭建的，并说说你认为比较好的监控报警平台？
对于上千个节点的集群来说，包括了服务器、存储和交换机等主要的设备，它们的品牌不同，购置的日期不同，要做到很好的监控，在有能力的条件下，开源监控软件是最后的选择了，Ganglia、zabbix和Cacti都是不错的选择，功能都差不多，关键在于对监控软件的熟悉程度和应用程度了，例如，GPU集群安装之后，如何在原来的监控软件里面监控GPU的运行状态？一个服务器两个GPU卡，他们是同时工作，还是一个负载到100%之后，再启动另一个？这都需要通过监控来了解，才能进一步了解应用软件是如何工作的。监控也是有重点的，对于硬件经常出现故障的部位，例如内存、硬盘等，需要重点监控；对于高性能计算服务器就需要密切监控CPU利用率、网络和存储，这是影响整体运算速度的关键。数据库敏感型的应用，对数据库的监控就是首要任务了。

laputa73 发表于 2014-10-07 12:41

读了一下样张，感觉收获不小。
关于ntop/ntopng,有个疑问
理论上，他应该只能看见本机网卡的流量，应该不能用来监控局域网多台主机流量的吧

页: 1 2 3 4 5 6 7 [8] 9 10

Chinaunix's Archiver