免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: phonan
打印 上一主题 下一主题

HPCC方案咨询 [复制链接]

论坛徽章:
0
11 [报告]
发表于 2008-12-08 20:57 |只看该作者

回复 #10 nntp 的帖子

给你我的看法和建议:

1. 你们做凝态物理选择Dell的服务器来做hpc cluster,真的亏大了。 如果是基础研究还好,如果是你们学校老板接项目的话,那些破机器的效率真的是...

re:
还好是基础研究,用DELL的服务器,主要是因为它的价格相对有优势,同样的钱可以多买几个节点,由于用的人比较多(十几个人),所以节点数量越多越好。此外身边的人用DELL的也比较多,更熟悉一些。

2. 用Intel架构多核的平台,对你们这种类型的计算一点好处都没有.
以上是马后炮,不过是大实话,等你们以后有预算了,买两台4core的AMD64跑跑就知道我说的对不对了。

re:
用intel的CPU,主要是因为我们用的很多软件在开发的时候都是在INTEL平台编译测试的,在AMD平台下的编译见得比较少,可能是我的见识面比较窄一点吧,呵呵,另外我也不太清楚AMD平台有些什么样的比较好的编译器(FORTRAN和C),大家是否可以推荐一下
   

3. 你知道为什么最后你们会考虑把计算搞到一个节点的8core上跑么? 就是我前面两点提到的,你们的计算类型不适合薄节点,你们要用厚节点,没有预算购置IB而只能用GbE的话,厚节点是第一优先考虑的。
   如果你选择 AMD64 4way4c, NuMA开. 你会发现性能boost.
   像你们现在这样,用计算脚本控制计算到一个节点上,呢么做集群还有什么意思呢?

re:
    因为是千兆网,并行线程多了效率降低太多,所以没办法,只好限制到一个节点来跑。有钱肯定要用InfiBand了。
    把计算控制在一个节点上还要做集群,主要是为了方便管理。以前也管理过几台塔式服务器,每个机器都要重新编译安装软件,提交任务和检查计算情况也要挨个机器登录,总之是管理和使用都比较麻烦。
    不知道我用集群来解决管理问题的思路是不是比较荒唐,大家有什么更简单的解决方案吗?

4.现在你们计算所处的类型和你们事实上构建的平台方案处于矛盾的状况,要做的是做性能检查,仔细检查延迟发生在哪里,发生在单节点不同cpu之间,还是cpu/memory之间,还是i/o上,还是节点和节点的通讯上?

re:
版主说得的确有道理,平台方案与计算类型是矛盾的。要是早一些来这里咨询意见就好了,呵呵。希望以后多来这里学习还来得及。

[ 本帖最后由 phonan 于 2008-12-8 21:47 编辑 ]

论坛徽章:
0
12 [报告]
发表于 2008-12-09 00:07 |只看该作者
1. dell 的服务器..... 如果你们要价格便宜,干嘛不用supermicro的呢? 是在不可理解.

用dell的服务器来跑hpc真的让我太不可理解了。跑跑什么财务软件也就算了。

2. 你说你们的开发都是在Intel平台 编译的,呢么编译器和编译环境呢? 有用专属的Intel CC和 Intel  并行计算库么? 如果没有用,仅仅是在一台dell Intel 机器上用gcc或者Gnu Fortran敲了几个编译指令,呢么这就完全算不上"所谓Intel平台编译"

3. AMD64平台和AMD平台是两码事.  Pathscale 编译器是全球最牛X的AMD64平台编译器,你可以去pathscale站点上看看他们的测试记录。而且pathscale编译器套件的价格也不贵,几千美刀而已,估计你们那里也出的起。 pathscale不想用的的话,在AMD64上还有PGI, 不过我不太喜欢.
无论是PGI还是Pathscale都有C/Fortran编译器.

4. IB有很多牌子,如果你买topspin 铜缆或Infinicon的,价格非常便宜的.

   我完全不认同你说的管理的问题, 管理的问题是人和工具的问题,和架构没有关系,我从来没有听说过用hpcc的架构来解决 isolated nodes管理的问题. 这个太....搞笑了.

你们可以找找SGI的人,与其买这些dell 超破性能的设备,放着浪费电,还不如去买SGI的计算工作站。 其实如果你们动手能力强的话,自己动手攒集群也可以的。我以前在南京某高校物理科学院做项目的时候,见过用户自己攒的集群,虽然外观不佳,但是实际上搭建的很科学,效率也很高.

最后还要说一句,你们配置在node上的阵列卡真的被dell sales 坑了.

论坛徽章:
0
13 [报告]
发表于 2008-12-09 09:01 |只看该作者
nntp说的不错,大多数的sales只会忽悠技术,真正懂的没几个,不过还是有牛X的.

论坛徽章:
0
14 [报告]
发表于 2008-12-09 09:35 |只看该作者
销售一般懂忽悠,再忽悠
架构问题,最好咨询架构师,及相关技术人员,千万别信销售的哈

论坛徽章:
0
15 [报告]
发表于 2008-12-09 10:04 |只看该作者
学习了。

论坛徽章:
0
16 [报告]
发表于 2008-12-09 15:59 |只看该作者

回复 #12 nntp 的帖子

1. dell 的服务器..... 如果你们要价格便宜,干嘛不用supermicro的呢? 是在不可理解.
用dell的服务器来跑hpc真的让我太不可理解了。跑跑什么财务软件也就算了。

re:
查了一下,supermicro看起来还不错,可是不在政府采购之列。在政府采购可选择范围内,DELL算性价比相对最高的了。
如果要做政府采购范围之外的产品,流程很复杂,以后有精力再考虑吧。


2. 你说你们的开发都是在Intel平台编译的,呢么编译器和编译环境呢? 有用专属的Intel CC和 Intel  并行计算库么? 如果没有用,仅仅是在一台dell Intel 机器上用gcc或者Gnu Fortran敲了几个编译指令,呢么这就完全算不上"所谓Intel平台编译"

re:
intel有免费的非商业版编译器啊,在网上注册了就可以下载的。我们用的很多程序都是物理专业的人自己编的免费开源程序,只给了一些编译的例子,如果我们因为硬件的不同编译不成功的话,没有人来帮助解决问题的,只能自己琢磨。所以尽量让硬件跟写程序的人的硬件一致,这样编译会顺利很多。

3. AMD64平台和AMD平台是两码事.  Pathscale 编译器是全球最牛X的AMD64平台编译器,你可以去pathscale站点上看看他们的测试记录。而且pathscale编译器套件的价格也不贵,几千美刀而已,估计你们那里也出的起。 pathscale不想用的的话,在AMD64上还有PGI, 不过我不太喜欢.
无论是PGI还是Pathscale都有C/Fortran编译器.

re:
以后多学习下Pathscale 编译器。

4. IB有很多牌子,如果你买topspin 铜缆或Infinicon的,价格非常便宜的.
   我完全不认同你说的管理的问题, 管理的问题是人和工具的问题,和架构没有关系,我从来没有听说过用hpcc的架构来解决 isolated nodes管理的问题. 这个太....搞笑了.

re:
是挺搞笑的,呵呵,我不是计算机专业的,所了解的有限,不怕大家笑。
我将计算限制在每个节点的8 cores上并行,用OSCAR或者ROCKS带的队列软件来提交任务和管理,是不是可以认为这算是cluster,但不算hpc cluster呢?我们有十多人要使用这个机器,一共只有20个计算节点,其实平均下来每个人的拥有的资源也不多。以前都是买PC做计算,不论是从稳定性,管理的方便还有占地空间上看,个人觉得现在这个方案总比买20台双CPU四核PC更好。
如果用这样的方式来管理机器比较可笑,各位能不能推荐一个比较好的方式来管理呢?


你们可以找找SGI的人,与其买这些dell 超破性能的设备,放着浪费电,还不如去买SGI的计算工作站。 其实如果你们动手能力强的话,自己动手攒集群也可以的。我以前在南京某高校物理科学院做项目的时候,见过用户自己攒的集群,虽然外观不佳,但是实际上搭建的很科学,效率也很高.

re:
呵呵,还好电费不用自己掏。SGI同样不在政府采购之列啊。
我们学校有自己攒集群的,我去看过,其实方案跟我这个本质上是一样的,只是相同的配置每个节点能便宜2000-3000元左右,
但散热,还有噪音都处理得不好。周围有一些用DELL的,效率/性能不知道好不好,但至少还很稳定。
如果要效率/性能的话,以我目前的认识,主要要解决两个问题,一是用厚节点,二是用InfiBand,不知道理解的对不对?

最后还要说一句,你们配置在node上的阵列卡真的被dell sales 坑了.

re:
其实那个只是raid卡,不是阵列卡。之前也考虑过阵列,出手就要好几万,另外我们的硬盘数量也不算多,所以就只用了RAID。价钱在那里摆着,这个跟dell sales没有什么关系。以后有经费了会考虑升级阵列。

呵呵,多谢nntp版主的建议,学到了很多东西。实际操作的时候总是有很多限制(比如政府采购),这个方案虽然比较搞笑,首先是因为自己知识有限,另外也是不得已啊。等机器来了测试了实际效率再报告大家。

论坛徽章:
0
17 [报告]
发表于 2008-12-09 16:13 |只看该作者
好像弄一个机柜的曙光4000A(5000A的变4core?)的价格和lz的也差不多吧

论坛徽章:
0
18 [报告]
发表于 2008-12-09 19:59 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
0
19 [报告]
发表于 2008-12-09 20:10 |只看该作者
原帖由 soway 于 2008-12-9 19:59 发表
nntp好像对dell服务器很有偏见,能说一下为何认为dell非常垃圾么?

我自己也测试过,其实dell某些型号的服务器还是不错的。比如2950就是
一台设计不错的服务器,当然不能跟IBM和HP比较。

目前intel的540 ...


应该是算偏见吧,反正没有仔细确认过的结论都应该算是偏见。呵呵

不过主要是自己以前的工程项目经验和从最终用户那里听的很多负面信息造成的。

我个人比较偏爱AMD64架构的系统,觉得性能超棒.

给所有要购置hpc系统的朋友一个建议,选型的时候一定要多调查,一定要搞清楚只要是一个IT产品,就有自己的定位和设计趋向。
在HP,IBM,Dell的全系列产品中,绝大多数都是针对普通商用计算的,如果只看CPU 频率,内存大家,I/O速度这些指标,是看不出任何太大的差别的。但是偏偏hpc又是密集型运算,任何一点点的硬件结构上的差别,都会造成一天,两天,一周的一个计算课题有很大的性能差异.
同样是2way2c的PC服务器,用刀片,用Dell,用Sun,用HP,性能上就是有不小的差别。

论坛徽章:
0
20 [报告]
发表于 2008-12-09 20:19 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP