免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: send_linux
打印 上一主题 下一主题

[其他] IT运维技术讨论之一:如何构建高性能Linux服务器(获奖名单已公布-2014-11-10) [复制链接]

论坛徽章:
0
71 [报告]
发表于 2014-10-05 12:35 |只看该作者
laputa73 发表于 2014-10-05 09:13
从功能看Zabbix,可以支持agent,snmp,ipmi,也可以支持短信,邮件告警。agent还支持跨平台。
和Ganglia+Nag ...


ganglia+nagios,支持分布式构建,插件nagios的够多了吧,支持nagios的插件都支持这个构架。

性能问题,绝对优秀,几千台服务器监控非常稳定和轻松

论坛徽章:
154
2022北京冬奥会纪念版徽章
日期:2015-08-07 17:10:5720周年集字徽章-年
日期:2022-10-26 16:44:2015-16赛季CBA联赛之深圳
日期:2022-11-02 14:02:4515-16赛季CBA联赛之八一
日期:2022-11-28 12:07:4820周年集字徽章-20	
日期:2023-07-19 08:49:4515-16赛季CBA联赛之八一
日期:2023-11-04 19:23:5115-16赛季CBA联赛之广夏
日期:2023-12-13 18:09:34
72 [报告]
发表于 2014-10-06 05:26 |只看该作者
ganglia+nagios,支持分布式构建,插件nagios的够多了吧,支持nagios的插件都支持这个构架。


这些都是监控用途的吧

论坛徽章:
0
73 [报告]
发表于 2014-10-06 21:28 |只看该作者
本人正在研究在centos 7上搭建高可用集群,之前从未接触过这方面,都不知道从哪里开始着手,在网上找一些资料看,但缺少系统的学习方法,求赠书!
目前我通过一些琐碎的资料可以实现pacemaker+corosync双集热备集群,即可以通过命令行配置,也可以通过UI界面管理。它是从heartbeat衍生出来的项目,pacemaker功能相当的强大。
corosync+pacemaker成了高可用集群中的最佳组合,正在成为一种流行的趋势。
稍后为会整理一下资料分享给大家,供大家参考
下面这个连接,就是本人杰作:、
http://linux.cn/forum.php?mod=vi ... amp;extra=#pid49390

论坛徽章:
9
寅虎
日期:2014-06-03 14:10:05午马
日期:2015-01-08 16:49:52白羊座
日期:2015-01-16 12:58:182015年迎新春徽章
日期:2015-03-04 09:57:092015元宵节徽章
日期:2015-03-06 15:51:33NBA常规赛纪念章
日期:2015-05-04 22:32:03IT运维版块每日发帖之星
日期:2015-08-04 06:20:0015-16赛季CBA联赛之北京
日期:2015-12-14 09:40:0315-16赛季CBA联赛之青岛
日期:2016-07-25 11:23:07
74 [报告]
发表于 2014-10-06 22:01 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
0
75 [报告]
发表于 2014-10-07 09:41 |只看该作者
在开发和运维完全断层的企业工作的表示,运维其实就是背黑锅的

论坛徽章:
0
76 [报告]
发表于 2014-10-07 10:34 |只看该作者
1、说说您在Linux服务器维护工作中遇到哪些困难?
遇到最多的问题是:
(1)考虑不同OS(除了linux还有部分IBM的Unix)和硬件设备(存储设备、共享文件系统)的管理。
(2)不同软件系统及服务程序的配置管理
(3)对软件系统、OS、硬件设备的监控

2、谈谈您对Linux安全运维要关注的有哪些方面?
Linux安全运维涉及比较少,主要配置开放的端口,利用iptables的功能而已。
我们的安全设防主要在硬件入口完成,到了内部主要靠制度、物理隔离及DMZ区管理,所有的服务器都在DMZ区域内部。

3、说说您对Linux自动化运维的理解和实际的应用案例?
自动化运维:主要就是将重复劳动自动化,一般我们自动化都是通过定制脚本做特殊应用的自动化管理;
应用案例:常规通用的运维工作采用Zabbix来完成,功能齐全,易用性比较好,容易上手。
常规监控有:
CPU负荷
内存使用
磁盘使用
网络状况
端口监视
日志监视

4、谈谈您公司的分布式监控报警平台是如何搭建的,并说说你认为比较好的监控报警平台?
ganglia+nagios
插件nagios很多,扩展性很好。

论坛徽章:
0
77 [报告]
发表于 2014-10-07 11:13 |只看该作者
本帖最后由 race 于 2014-10-07 11:15 编辑

1、说说您在Linux服务器维护工作中遇到哪些困难?
作为一个有20年维护经验的人来说,每天都会遇到问题或者困难,困难是相对的,已经解决的问题再次遇到的话,就不叫困难了。只有不断地学习,不断地熟悉自己维护的设备,困难是越来越少的。技术上的问题,最终都是可以解决的。非技术问题,对于维护人员来说,就是最大的困难了。例如服务器出保之后,遇到硬件损坏,必须更换,需要给领导说明白必须花这么多钱买这个配件,领导批准之后,还得催着采购人员赶紧买,到货之后赶紧安装测试。在这段时间里面,别人看到的就是设备不正常,不管其中的原因。还有就是压力,维护人员都会遇到这样的情况:单位关键的工作需要在某个关键的服务器上运行,该服务器又突然不正常了,各方面的人都在不停地催,这个时候,困难也不是技术因素,而是别人人为造成的压力。还有就是协调的问题,例如检查发现,服务器发热严重,需要降低环境温度,而空调又是别人负责的,他说以前都这个温度,就没问题,为什么到你这里就得降低温度?
2、谈谈您对Linux安全运维要关注的有哪些方面?
   安全运维的关键就是安全的标准,不同的标准需要的投入是不一样的,这个投入就包括了技术、设备和人员。实际上我们经常遇到的就是没有什么投入情况下,来强调安全,让一个普通的系统管理员来兼任安全管理,这本身就是隐患。不同的单位对安全的要求也是不一样的,有些怕数据丢失,就买了带库来备份数据,有些怕敏感数据被窃,就增加各种防火墙。其实安全的关键还是防范意识和责任心,技术上差别不大。防范意识强了,随时会增加安全方面的投资,责任心强了,随时会关注漏洞和补丁。不要以为花大价钱买了当前最好的防火墙就可以高枕无忧了,有可能一个月之后,防火墙就漏洞百出了。还有就是制度的完善和监督,很多安全事件都是内部人员有意或无意造成的,这是技术防范管不了的。
3、说说您对Linux自动化运维的理解和实际的应用案例?
   目前正在研发的无人驾驶汽车,据说是未来的发展趋势,其实我一直在想,开车经常遇到修路,需要从旁边的烂路上绕过去,或者到了草原和沙漠里面,没有路,只能依稀看到车辙,这个时候,还是靠司机来驾驶稳妥。自动化运维跟无人驾驶汽车有点类似。自动化也是维护人员的工具,只是减轻了系统员的负担,也离不开系统员的的参与。如果维护人员水平高,就可以自己写自动化运维工具,如果没能力,就会买别人的自动化维护产品。一旦发现问题的话,还得需要系统员来解决。当然,如果维护服务外包的话,就另说了。自动化运维用在多节点的系统安装、应用软件部署、系统监控、开关机等方面还是提高了很多工作效率。维护100个节点,突然发现几个节点看不到了,只能放弃自动化,一台台去机房解决了。
4、谈谈您公司的分布式监控报警平台是如何搭建的,并说说你认为比较好的监控报警平台?
     对于上千个节点的集群来说,包括了服务器、存储和交换机等主要的设备,它们的品牌不同,购置的日期不同,要做到很好的监控,在有能力的条件下,开源监控软件是最后的选择了,Ganglia、zabbix和Cacti都是不错的选择,功能都差不多,关键在于对监控软件的熟悉程度和应用程度了,例如,GPU集群安装之后,如何在原来的监控软件里面监控GPU的运行状态?一个服务器两个GPU卡,他们是同时工作,还是一个负载到100%之后,再启动另一个?这都需要通过监控来了解,才能进一步了解应用软件是如何工作的。监控也是有重点的,对于硬件经常出现故障的部位,例如内存、硬盘等,需要重点监控;对于高性能计算服务器就需要密切监控CPU利用率、网络和存储,这是影响整体运算速度的关键。数据库敏感型的应用,对数据库的监控就是首要任务了。

论坛徽章:
42
19周年集字徽章-周
日期:2019-10-14 14:35:31平安夜徽章
日期:2015-12-26 00:06:30数据库技术版块每日发帖之星
日期:2015-12-01 06:20:002015亚冠之首尔
日期:2015-11-04 22:25:43IT运维版块每日发帖之星
日期:2015-08-17 06:20:00寅虎
日期:2014-06-04 16:25:27狮子座
日期:2014-05-12 11:00:00辰龙
日期:2013-12-20 17:07:19射手座
日期:2013-10-24 21:01:23CU十二周年纪念徽章
日期:2013-10-24 15:41:34IT运维版块每日发帖之星
日期:2016-01-27 06:20:0015-16赛季CBA联赛之新疆
日期:2016-06-07 14:10:01
78 [报告]
发表于 2014-10-07 12:41 |只看该作者
读了一下样张,感觉收获不小。
关于ntop/ntopng,有个疑问
理论上,他应该只能看见本机网卡的流量,应该不能用来监控局域网多台主机流量的吧

论坛徽章:
0
79 [报告]
发表于 2014-10-07 20:34 |只看该作者
运维这块,唯一头痛的就是断电重启后,硬盘检查不过去,然后需要拯救模式。还是esxi远程方式进行fsck还算是挺方便。
服务器都是在客户单位里,NND也没配置UPS啥的。最容易出现这样的问题。
网络管理我多采用zabbix管理。

论坛徽章:
0
80 [报告]
发表于 2014-10-07 21:52 |只看该作者
火速下载学习
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP