免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3533 | 回复: 6
打印 上一主题 下一主题

GAMMA/MPI! 有了它,高带宽低延迟的集群专用网的命运从此就和传统超级计算机的一样? [复制链接]

论坛徽章:
0
1 [报告]
发表于 2006-05-09 18:21 |只看该作者
我在10年前大学还没有毕业的时候,就知道日本人在以太网上修改协议来提高beowulf 类型cluster的性能了.

我的同学在IBM日本公司做高性能计算,日本人大家也知道很喜欢搞专属的系统,小到手机大到卫星,高性能计算这块在日本一直是发展的特别超前的,日本科技厅仅仅在大规模计算模拟领域方面的投入就不是中国相同领域能够比的。最典型的就是日本处于地震和环太平洋带,据我同学说IBM参与了日本在海洋灾难和地震预警和模拟的项目,我相信很多人也有所耳闻.

中国也有人在搞通过修改tcp/ip协议专门针对beowulf 类型的集群的通信的,而且水准相当高,我的北方的一个同行参与了这个项目,当然中国目前也只有这个行业会有政府的大力度投入和支持了,嘿嘿,高手在哪儿?都在部队.

你的牢骚看来很多呀,你要么就去改变,要么就收声沉着面对,还能如何?

[ 本帖最后由 nntp 于 2006-5-9 18:24 编辑 ]

论坛徽章:
0
2 [报告]
发表于 2006-05-12 11:40 |只看该作者
版主,你的记忆恐怕有误!10年前,10M的ethernet,带宽是主要瓶颈,当时Sterling们主要设法用channel binding,还没有考虑到协议。

就是1995年订标准,1998年后才大规模上市的fast ethernet,主要也是带宽。而Gigabit ethernet虽然标准在1998年制订,但大规模产品要到2002年以后。现在的D-link之类的Gigabit ethernet switch根本不能算交换机。被我看来,只能算是Hub。

[ 本帖最后由 喜爱SuSE的boy 于 2006-5-12 11:42 编辑 ]

论坛徽章:
0
3 [报告]
发表于 2006-05-12 15:12 |只看该作者
高性能计算中,交换网络的带宽从来就不是讨论的中心点。MPI为主的计算,网络的延迟才是主要讨论的重点,调试过MPI程序的应该有体会. 带宽是商业计算的考虑的,我们做hpc的不会关注这个.
所以hpc应用中,不同类型和品牌的交换机的比较衡量的主要参数是 延迟指标!
如果真的要说带宽,呢么myrinet 的带宽还没有infiniband 高,可是Qurdrics的带宽还没有myrinet 高,为什么 性能上Qurdrics > myrient>infiniband呢?

我在做客户交流会的时候,很多不太熟悉的hpc计算的老师 都有类似的疑问,一开始交流的时候他们始终想不明白为什么千兆的光纤网络交换机还不如一个copper的topspin IB来得快?嘿嘿.

举个例子.
作中尺度气象预报的hpc应用很多都用MM5, MM5跑起来后,node之间有大量的交换,但是这个大量是指\"频繁度\"而不是数据量,即便是对一个10公里x10公里的区域进行天气预报的运算,也会产生一个很大的计算问题规模,MM5实现了一个很棒的问题分解的模型,充分利用了beowulf的特点,所以在天气预报的应用中,node的硬件配置根本就不需要很高,但是需要有大量的node, 也就是说整个MM5的计算的分布依赖度很高,这个时候,一个有着巨大带宽的千兆GbE交换机对这种计算根本一点用处都没有, 跑起来后,计算性能非常不理想。
但是用一个IB或者myrinet 的交换机和部署方案来做,效果就特别好.


你有兴趣的话,可以多看看 在top500上有好几个资源专门介绍这方面的信息的.

good luck,

[ 本帖最后由 nntp 于 2006-5-12 15:26 编辑 ]

论坛徽章:
0
4 [报告]
发表于 2006-05-12 15:24 |只看该作者
我又仔细的看了你第一个帖子,我再补充点.

我的看法是,如果能够引入硬件厂商的投入,不断的降低 高性能产品的价格,其实hpc计算中交换网络的部分多讨论并没有意义.

我刚开始做这个领域的时候, 一套32 node 的hpc cluster, 如果用myrinet 方案的话,把所有的费用平摊到每个node的价格非常昂贵,大概要40k一个node.(而且还是厂商的折扣价格)

今年呢?我刚刚开始另外一个项目,用infiniband 100%无阻塞cooper连接,平摊到每个node上,大概只有6k一个node了, 这种变化前后才不过5/6年而已.

所以我们应该对这个领域保持乐观,应用用户的增加就会导致厂商大量进入,然后成本就会降低,成本降低了,准入的门槛就会降低. 这样很多用户就可以把精力放在编写和部署更好的分布式计算程序,而不是整天倒腾硬件层面的东西了.

论坛徽章:
0
5 [报告]
发表于 2006-05-15 15:07 |只看该作者
我的意思是:10年前,以太网的带宽才10M,那时,延迟还不是主要问题,所以,sterling他们主要关心带宽。估计没有人去修改协议,以改善10M以太网的延迟问题。

可能我孤陋寡闻,我认为top500中主要是用作科学数值计算的(包括模拟,图形显示等),所以主要是MPI,所以延迟很重要。我的好几个帖都谈这个问题。

试图在以太网硬件上改协议就是不折腾硬件,而是通过软件的手段。目的很清楚,如果集群是节点+网络,那么,它的前途在标准节点+标准网络硬件。现在的以太网带宽已经可以达到1G甚至10G,但是tcp/ip协议的延迟是瓶颈,所以希望修改协议,就是折腾软件。这就是我的思路。我们如果看历史,就可以知道,这是个方向。传统超级计算机为什么死路一条,道理就在这里。我可以举出很多例子,最直接的就是IBM兼容机和苹果机的竞争。IBM公开兼容机标准,大家为它做产品,就形成微机的事实标准,以后的发展就不可同日而语。现在根本听不到比IBM兼容机早5年问世的苹果机。如果从市场占先这点说,IBM兼容机似乎根本没有机会。但事实却相反,原因就是标准。这次AMD和intel的64位之争也可看出。

当然,现在就是GAMMA/MPI也没有完全成功。假定,如果能够改协议,在以太网硬件上,成功地使MPI短消息延迟在平均6微秒(相比于myrinet的2微秒)左右,那myrinet等任何专用网的市场几乎可以说就是零,就相当于现在传统超级计算机的市场几乎是零一样。

顺便问一句:每个节点6k的规模有多大?有没有16个节点?如何定购?

[ 本帖最后由 喜爱SuSE的boy 于 2006-5-15 15:13 编辑 ]

论坛徽章:
0
6 [报告]
发表于 2006-05-15 15:32 |只看该作者
我对你的关于修改tcp/ip 协议优化延迟性能没有异议. 我也赞成如果有软件开发能够充分利用现有的GbE网络的硬件成本优势,并具备了低延迟,会对IB/myrinet 厂商造成很大的压力.

不过你说的myrient 等专用网络会因此导致市场为零,我觉得有点过了。myrinet/Qurdrics 设备具有非常大的硬件优势和稳定性,延迟是计算中非常重要的指标,但是影响这个指标的决非通讯协议层这一个因素,通过提高通信设备的硬件设计等级,对于那些有很高计算要求的客户来说,无疑是更加愿意接受的方式.

所以我认为修改协议层优化GbE网络的方式是有希望的,但是他的市场是局限在小型计算规模的里的(小型 < 64 node).  大于64 node的计算规模,即便是通过修改协议层提高了GbE的延迟指标,但是这种软方法本身还会引入其他影响性能和可靠性的因素进来,所以最终对于用户来说得到的效果并不乐观.

每个节点6K的规模在32node以上就可以拿到了.  topspin 的代理现在已经加入到cisco的代理中去了. 所以你可以很方便的从cisco 的销售渠道得到销售报价和支持.
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP