免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: cbhfxy
打印 上一主题 下一主题

目前最好用Linux集群监控软件是什么,哪位大侠有整理的ganglia软件的安装文档 [复制链接]

论坛徽章:
0
1 [报告]
发表于 2006-01-08 22:54 |显示全部楼层
原帖由 cbhfxy 于 2006-1-8 22:03 发表
目前集群监控有很多免费软件来监视,在HPC高性能计算中用到大量的集群,用什么免费软件做监控最好呢。
顺便问问,哪个大侠有ganglia软件的安装文档呢,我照着官方文档配完,确什么都没有显示



ganglia 你要裸安装的话,主要是rrdtools和一大串关联包的安装(如果你从tar.gz安装的话).

我第一次安装的时候也花了很长的时间。我建议你仔细的看ganglia得文档,有一点我可以给你确认,就是按照官方文档和你下载的tar.gz的包中的README/INSTALL文件
你可以100%的装出一个裸的ganglia. 这点我可以给你确认.

不能显示的原因很多,我看还是你的rrdtools那部分有问题. 你要严格按照那一系列压缩包的要求来做. (建议在redhat下作). 我在SLES上裸安装ganglia,第一次安装的时候,因为包之间的差异,苦透苦透,但是的确安装出来正常工作了.

如果你是HPC系统,我建议你用ROCKS,(请注意我以前的发言).  ROCKS的ganglia 和集群的其他部分预设计的非常好,基本上是 out of box.

hpc 中ganglia 是number one的系统,另外也有用nagios+plugin,但是我觉得还是ganglia好.

论坛徽章:
0
2 [报告]
发表于 2006-01-09 23:02 |显示全部楼层
原帖由 cbhfxy 于 2006-1-9 14:25 发表
非常感谢nntp,再问问老大是否用过IBM的RDM远程管理软件吗,该软件是否能远程分发OS,实现xcat的功能。



我用的HP RDP, 性质和RDM一样的,也是Altiris based. 不过IBM RDM出来才没有多少时间,hp RDP从compaq的时代就存在了.

不过hpc 集群,我不喜欢用RDP之类的,不是技术原因,就是个人工作习惯。如果一个这个事情我直接用ROCKS 内置的pxe+dhcp+kickstart+inser-ether 搞得定定的,我就不愿意在整个部署中再引入另外一种方案。

但是不管你是RDM还是RDP, 如果你用来做OS deploy都是非常方便的,但是有一点要注意,就是RDM或RDP会在分发好node OS之后,默认附带安装上support pack, 基本上是一些utilities, drivers, agents(snmp based)。 RDM/RDP/Altiris 都是针对企业环境的服务器群的部署的,所以这些东西对企业应用是有很好的帮助的,特别是有一些技术人员的技术路线很野,安装部署服务器的时候完全凭自己的经验来做,总是会埋下这样或者那样的问题,用RDM/RDP就可以一定程度上克服掉这些问题。

但是hpc 除了头节点/存储节点/登陆节点之外,计算节点上OS要尽可能的保持干净,避免所有不需要的service起来,还有不要启动任何和计算没有关系的agent之类的东西,port也是越少开越好。所以上面提到的那个默认安装方式显然是不符合这种要求的。虽然在管理和使用上RDM/RDP比大部分的大规模科学计算集群管理系统有分发管理上的优势,但是就是这个原因,我不愿意在hpc中用.

我看你还是try try ROCKS吧,这里有朋友曾经写了自己的观点觉得ROCKS比较容易使用,但是适合初学者,并且只能一个管理node对一批compute node 等等,我对这样的观点表示理解,但是我是完全不认可的. 原因你仔细的看rocks的官方站点或者和他们圣地亚哥超级计算中心的人沟通一下就知道了.

如果你们现在的系统已近部署好了,节点也很多,不适宜干掉重新来。我建议你研究一下RDM/RDP,修改默认安装的rule set,不要把support pack安装上,基本上只要update 磁盘控制器/raid controller driver, firmware, SYSROM, 还有 NIC firmware, NIC driver就好了,其他的什么乱七八糟的东西在compute node上都不要安装.

如果你是x86或em64t的机器,不要忘记把hypertheading关掉. amd64的机器不要忘记确认NuMA kernel起来了.

有空读一下曙光的曹振南写的hpc/linkpack 性能调优,写的还是相当不错的

论坛徽章:
0
3 [报告]
发表于 2006-01-10 22:46 |显示全部楼层
原帖由 cbhfxy 于 2006-1-9 14:56 发表
配完了,上图,cpu、memory信息都出来了,咋一张曲线图都看不见呢。下面附配置文件,server和client在一台机器上
globals {                    
  setuid = yes              
  user = nobody               ...



看你的ganglia 截图好像是rrdtool工作不正常, 你确认你的rrdtool工作正常了么?

论坛徽章:
0
4 [报告]
发表于 2006-01-11 19:36 |显示全部楼层
原帖由 ljhb 于 2006-1-11 13:32 发表
bz用了那么多的suse,怎么抛弃了suse最精彩的东东autoyast啊,呵呵



知道autoyast的问题所在么? :">

论坛徽章:
0
5 [报告]
发表于 2006-08-02 20:19 |显示全部楼层
原帖由 leaper 于 2006-6-1 12:14 发表
建议使用 cacti

这个比ganglai好多了


hpc 集群很少用cacti的.

ganglia 的footprint比较小.  你去看看top500的集群,有多少是用cacti的?

最近三个月落成的亚洲的几个hpc cluster,我去看了看他们的monitoring site,也都是一色清的ganglia, 要是cacti 真的比ganglia有整体优势,恐怕早在linux hpc集群中铺开用了.
每一个大型linux hpc集群项目的前期调研和方案讨论都非常复杂,规划和实施单位会对每个细节反复梳理和比较. 依我的愚见,集群管理类的系统的优劣比较,只有一个指标就是典型用户的使用数量,前人吃过的亏,做过的考虑,都可以作为后来者的重要参考依据.

论坛徽章:
0
6 [报告]
发表于 2006-08-05 10:39 |显示全部楼层
原帖由 yeslan 于 2006-8-5 10:34 发表


没想到领导还挺出名的


哦?已经升领导了????
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP