免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
1234
最近访问板块 发新帖
楼主: phonan
打印 上一主题 下一主题

HPCC方案咨询 [复制链接]

论坛徽章:
0
31 [报告]
发表于 2008-12-11 19:06 |只看该作者
原帖由 godmoney 于 2008-12-10 10:15 发表
楼主不知道用的什么软件做的计算。我这里一共有3套集群,其中有一套是用来计算固体物理方面的集群,主要是用vasp和win2k,用的就是dell的2950服务器,一共25台机器。整个系统都是我自己构建,已经运行1年半的时 ...

说在前面,请接受nntp斑竹的建议,不要购买dell的2950服务器。它用来做计算用真的不合适。第一它的硬件问题非常的多,而且莫名奇妙。它的网卡有时会自动重启,造成提交的作业死掉,浪费时候,影响心情。此外,它的主板和内存问题也很多。这套机器运行1年半的时间里我换掉了4块主板,3台机器的内存,2台电源。我快疯了,恨不得要杀了购买这套机器的人了。第二,它采用的芯片不合适,相同的CPU总比别的慢一些。第三,dell的售后很不这么样。我们做计算的主要 任务是研究而不不是整天摆弄这些机器,你说是不是。


呵呵,godmoney讲的事情听着挺恐怖的,希望自己不要碰到。
我们这里有两个老师去年上半年买的DELL,一个老师买了20个节点,另一个老师买了10个节点,放在一个机房。到现在也差不多一年半了,不过都还好,基本上没有出过问题。
不知道godmoney的机器怎么会出这么多毛病。会不会是机房散热问题?按理讲都这么出问题的话DELL的东西就没有人敢买了。

3. 作业管理软件可以考虑采用SGE,基本上能满足你要求。话说回来你的20台机器不多,用不到SGE这些大型的咚咚。从作业上来说,串行和并行混合使用调度本来有困难,要在使用中不断的调试;从你们组内来说,只有20台机器,使用的人也不会太多。要是组内关系不错的话,我的建议是不用SGE,用clusterssh之类管理机器,作业调度不如组内按需调节,这样更方便实用一些。当然这个方法取决于你们自己的情况。


谢谢建议,我会都去尝试一下。

4. 正如nntp版大所说的厚节点才是我们计算所需要的,如果来得急,赶紧换。当你做MPI计算的时候,你会发现千兆的交换机效率也不是那么理想。两台节点的计算速度,有时甚至还不一台节点算得快。


来不及换了,呵呵。厚节点已经深入我心了。千兆网的确是不行,只能看单节点内8core并行效率怎么样了。希望不要太令人失望。


5.就我们这里做凝聚态物理的状况来说,IO不是很大,计算的瓶颈还是在通讯上。在节点上作计算的时候,把文件拷贝到一个临时目录下运行时很好的。不建议用/tmp目录,可以在别的目录下建立一个work的目录,可以预防一些误操作。这个work目录所在的分区建议越大越好,有些软件所产生的临时文件真的很大的。


不用/tmp而重建一个work目录的话,是不是要人工定期清理?有什么好的解决办法?我这里有几台塔式服务器就是因为用户编程不当,写入数据太多占满磁盘空间导致系统崩溃的。

论坛徽章:
0
32 [报告]
发表于 2008-12-11 19:08 |只看该作者
原帖由 wshun 于 2008-12-10 12:44 发表
找几家供应商,按预算让他们提供解决方案,然后提供你的计算实例,跑出来那个好用那个呗
最好是让他们提供远程登入,自己编译调试自己测结果。


政府采购好像几乎没有供应商能做到这一点的,再说项目比较小,供应商也不一定愿意啊。只有自己积累经验了。

论坛徽章:
0
33 [报告]
发表于 2008-12-11 21:06 |只看该作者
原帖由 phonan 于 2008-12-11 19:06 发表 不用/tmp而重建一个work目录的话,是不是要人工定期清理?有什么好的解决办法?我这里有几台塔式服务器就是因为用户编程不当,写入数据太多占满磁盘空间导致系统崩溃的。


当交换环境不理想,没有IB交换机的集群;或者过渡频繁读写小文件的时候,如autodock这些程序的时候,我一般这样做:
让学生尽量在节点内并行,然后把相关文件拷贝节点work目录下,这样子就相当于单机运行了。算完再拷贝回到主节点或者盘阵上。这个不失为没有条件下的一个办法。虽然有点麻烦,做为老师这时候就应该拿出点行政手段强行推行了。

[quote]呵呵,godmoney讲的事情听着挺恐怖的,希望自己不要碰到。
我们这里有两个老师去年上半年买的DELL,一个老师买了20个节点,另一个老师买了10个节点,放在一个机房。到现在也差不多一年半了,不过都还好,基本上没有出过问题。
不知道godmoney的机器怎么会出这么多毛病。会不会是机房散热问题?按理讲都这么出问题的话DELL的东西就没有人敢买了。[quote]

机房没有问题。我有3套集群。同一个机房的的曙光的就没什么问题。也许是RP。

论坛徽章:
0
34 [报告]
发表于 2008-12-14 20:15 |只看该作者
楼主可以参考一下这里
http://my.platform.com/producuits/platform-ocs

论坛徽章:
0
35 [报告]
发表于 2008-12-14 21:28 |只看该作者

回复 #34 terax 的帖子

这个platform-ocs早看过了啊,以前还是免费的,现在最新版成收费的了

论坛徽章:
0
36 [报告]
发表于 2008-12-15 16:13 |只看该作者
Dell有基于Intel和AMD cpu的刀片服务器M1000e/M600/M605,管理起来很方便的。如果节点数量在20个以上推荐采用刀片。

我最近一个实施案例是北京的1个PE2950+2组刀片的计算节点(20个)+rocks5.0。

NNTP如果有redhat的HPC资料不妨给我也共享一下。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP