免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: 勇者威廉
打印 上一主题 下一主题

[FreeBSD] 如何将家里的旧电脑搞成个电脑集群? [复制链接]

论坛徽章:
0
1 [报告]
发表于 2007-09-09 00:54 |显示全部楼层
http://people.freebsd.org/~brooks/papers/bsdcon2003/fbsdcluster/

建设一个高性能计算集群采用了freebsd
布鲁斯戴维斯,迈克尔比如,加里绿,克雷格李
航天公司
el segundo的钙
(布鲁克斯,李, mauyeung ) aero.org时,在gary.b.green notes.aero.org
© 2003年航天工业总公司
摘要

本文讨论了设计和实施奖学金, 300 +处理器,一般使用计算集群基于freebsd的。我们处理的设计特点,包括配置管理,网络孕穗节点,并调度使这一独特的集群,以及如何在freebsd帮助(阻碍)的努力,使这一设计成为现实。

1引言

大部分过去十年主要推力高性能计算(高性能计算)的发展已走向商品集群,俗称beowulf集群[贝克尔] 。这些集群结合商业现成硬件制造系统的竞争对手或超过业绩传统超级计算机在许多应用,而成本高达因素十个少。并非所有申请都适合集群,但意义部分有趣科学应用可以适应他们。

2001年,带动了一些单独的用户需要超级计算机,航天工业总公司(一非营利,由联邦资助的研究和开发中心)决定建立一个企业计算集群(最终命名奖学金1 )作为替代继续购买小群和监测系统的一个特设的基础。这一决定是出于一种愿望使用计算资源更有效率以及降低行政成本。多种多样的用户要求,在我们的环境,使我们的一个设计大不相同最集群,我们看到别处。尤其是这样,在该地区作业系统选择( freebsd上)和配置管理(完全开机,网络节点) 。

金业务,并用来解决重大现实问题。我们的最佳基准运行至今已达到183 gflops的浮点性能会发生在我们百强对2002年的500强名单中集群。

在本文中,我们首先概述了集群的配置。我们涵盖的基本硬件和软件,物理和逻辑布局体系,基本业务。第二,我们详细讨论了主要设计问题,我们所面临的设计时集群,我们如何选择,以解决这些问题,并讨论这些结果选择。在这一节中,我们特别注重对相关问题,我们使用了freebsd 。第三,我们讨论教训以及教训,我们希望广大的并行计算社会学习。第四,我们谈未来的方向,为社会探索无论在增量改进或研究新范式集群计算。最后,我们总结我们所在的地方,我们都去。表2载列的url许多项目或产品,我们提。

2奖学金概况

形象四月- 2003
图1 :金circa 2003年4月

基本的逻辑和物理布局奖学金类似许多集群。有三个核心系统, 151个双处理器节点,网络交换机,各类远程管理硬件。所有节点和服务器freebsd的,目前4.8稳定。核心系统和远程管理硬件坐在航天企业网络。节点与核心系统共享一个私人,非路由网络( 10.5/16 ) 。这种设备是安装在一排七英尺,身高两衣架后居住在地下数据中心航天总部el segundo的加州。图1显示了金在2003年4月。布局结衣架列于图2 。

\开始(图) \小\开始(列表) (住宅\ vert三\ vert ) \ multicolumn ( 1 ) ( )的r ( \重点(联通... … … 3 & \ \ 2 & 5110五甲电路\ \ 1 & \ \ \克莱恩( 2-2 ) \ (年底表格) \结束(图)
图2 :布置节点机架1

核心系统是一个用户或壳服务器,服务器数据服务nfs的共享空间划痕,并没有备份,并管理该服务器运行调度,尼什服务,并管理节点。用户服务器,金,是通过网关,用户接入集群。用户登录到它和发射工作,从那里。主页目录存储金,并出口到nfs经向节点。数据服务器,嘎姆吉,主机271 gb的共享空间划痕用在用户计算机。它还违反了mysql数据库的结果存储和阿曼达备份关键的集群系统。管理服务器, frodo ,进行了各种各样的任务。其中包括出口到信息通过尼什,孕穗网络节点,用户调度工作。

节点是一种双处理器的x86系统,从1吉赫奔腾向所在的xeon的2.4ghz 1gb的内存安装。表1给出了一个完整的分型中央处理器使用金。所有奔腾三节点购置的40gb的ide硬盘。至强的节点购置+80硬盘和奔腾三盘正取代+ 80盘等,他们失败的。该节点连接千兆以太网通过催化剂思科6513交换机。奔腾三系统泰安打雷乐( 1ghz的系统)和泰安打雷乐笔与3com的千兆以太网适配器安装在其扩展槽。它们装在14个"深机架式案件都是由ixsystems 。该系统至强英特尔1u服务器平台双船上千兆以太网接口。我们购买他们从铁系统。


表1 :中央处理器,在金结点。
cpu类型节点中央处理器
奔腾三的1ghz 8月16日
奔腾三1.26ghz 40 80
奔腾三1.4ghz 39 78
至强(四至) 2.4ghz的64 128
共计151 302


虽然已结盘,我们的网络开机他们用pxe技术支持,其网络接口frodo提供的dhcp , tftp的, nfs的根磁盘和尼什用户帐户。开机时,硬盘自动检查,以核实它们妥善分割为我们的环境。如果他们不是,他们是自动百余。这意味着任何手工配置节点须超出确定其mac地址时,他们安装。

当地控制机集群是透过一个核查团交换机连接到一个1u的机架液晶键盘,监视器,并跟踪垫。远程接入可通过cyclades的ts系列终端服务器。所有节点和服务器以及网络设备都连接到这些终端服务器和控制台重定向是使所有freebsd的机器。我们的 bios控制台重定向使对至强系统,而不是基于奔腾三系统的一个漏洞,往往导致他们坑,甚至在非常低的利率波特。除了进入控制台,一切除终端服务器和交换机相连baytech rpc4 - 15系列远程电源控制器。这让我们可以进行远程开机,几乎任何系统的一部分,由连接到电源控制器透过适当终端服务器。

对回到这个基础,接入节点控制孙格引擎( sge ) ,调度实施超的posix一批环境服务规范。 sge允许用户提交双方互动和一批在职脚本运行的一个或多个处理器。用户可以免费使用他们的处理器分配在任何合理的方式。他们可以同时运行多个进程无关的或单一大规模并行工作。

为方便使用体验,我们提供了一个基本的unix编程环境,加上并行编程工具,并商业并行应用。并行编程工具,我们提供并行虚拟机和mpich林和实现信息传递接口[ mpi的] 。目前,我们唯一商业并行应用数学网,为我们所推出的客户。


表2 :资源集群
资源的url
大姐http://bigsister.graeff.com/
bproc http://bproc.sourceforge.net/
diskmark http://people.freebsd.org/ 〜布鲁克斯/ diskmark /
diskprep (扩大) http://people.freebsd.org/ 〜布鲁克斯/ diskprep /
diskprep (正本) http://people.freebsd.org/ 〜进出口/ diskprep.pl
宿舍http://www.scri.fsu.edu/ 〜 pasko的/ dqs.html
emulab http://www.emulab.net/
在freebsd http://www.freebsd.org/
节机群监测http://ganglia.sourceforge.net/
geom概况http://phk.freebsd.dk/geom/overview.txt
全球文件系统(飞行) http://www.sistina.com/products_gfs.htm
格数学http://www.wolfram.com/products/gridmathematica/
林- mpi的http://www.lam-mpi.org/
linuxbios http://www.linuxbios.org/
lsf的http://www.platform.com/products/wm/lsf/
毛伊调度http://www.supercluster.org/maui/
myrinet的http://www.myri.com/myrinet/
mpich http://www-unix.mcs.anl.gov/mpi/mpich/
nagios http://www.nagios.org/
openpbs http://www.openpbs.org/
并行虚拟机http://www.csm.ornl.gov/pvm/
岩群分布http://www.rocksclusters.org/
伸缩openpbs http://www.supercluster.org/projects/pbs/
孙格引擎( sge ) http://gridengine.sunsource.net/
集群@包揽http://clusters.top500.org/


3设计问题

最大的挑战之一,在建设金是多种多样的用户基础。各用户在初次会晤,讨论集群架构,我们已与用户松耦合和紧耦合应用,数据密集和非数据密集型应用,用户所做的工作,从日常批量生产高性能计算的研究。这种多样性的用户和应用,导致妥协,是我们目前的设计。在本节中我们着重主要设计决定了,我们虽然建立奖学金。

3.1操作系统

首个大型设计任何决定簇脸上通常选择操作系统。到目前为止,最受欢迎的是一些linux发行。当然 linux是阻力最小的方向和最广大人民的假定,如果它是一个集群,它可以运行linux系统。事实上,一组可以运行几乎所有的操作系统。集群存在运行 solaris [喷射] ,马力ux ,艾克斯, macos下,在freebsd [郑义,施] ,甚至窗户。 asci蓝山其实是一个簇48128处理器sgi系统运行irix [ sgi的] 。

对于一个组织,没有操作系统的偏见和直截了当的计算要求,运行linux是阻力最小的方向,由于免费集群工具等npaci的岩石群分布。在其他情况下,经营制度的选择是更复杂。重要的考虑因素,包括选择硬件平台,有经验丰富的本地系统管理人员,有需要申请,便于维修,系统性能,并强调有能力修改操作系统。

出于各种各样的原因,我们选择了freebsd为研究员。最务实这样做的理由是极好出箱支持无盘系统被轻易更改,以支持我们的网络节点启动模式。这部分工作进行得很好。

此外,金首席建筑师freebsd的用途几乎是一个在freebsd金瑛。这意味着我们有更多的经验,在freebsd比linux经验,我们可以把我们的一些更普遍的变化重返freebsd的简化操作系统升级。在实践中,我们试图改变推回基地操作系统已经见了成效不一。我们已经合并了一些小变化,但普遍适用的部分,我们的无盘启动脚本改变尚未合并,因缺乏时间去整理矛盾变化的主要来源树。

港口集也是一大优势利用freebsd的。它使我们安装和维护用户要求软件迅速和容易。在某些情况下,现有的港口不够灵活,为我们的需求,但对于大多数应用,它工作良好。有linux系统仿真意味着我们没有放弃,就像应用兼容性。我们已成功运行格对数学集群之后重新安装mathematica的文件在freebsd手册。

缺点 freebsd的,我们的宗旨都是不成熟smp和线程支持,并普遍认为内高性能计算社区,如果它不是一个商业巨型机,它必须是一个linux系统。 smp的支持并未出现重大问题,为我们的用户为止。我们大部分的工作是计算方向,使穷人的smp下的表现沉重的io是一个颇具争议的问题。绪已更是一个问题。我们的用户想用螺纹为smp的缩放。我们预期这个情况会有所改善时,我们转移到了freebsd如欲

linux的重点是高性能的社会造成了一些问题。尤其是,许多件软件要么缺乏freebsd的一个港口,或者只能有一个测试不佳其中并没有实际的工作。此外,有一个鲜明的短缺编译支持现代版本的fortran 。

3.2硬件结构

选择硬体架构是一般与操作系统作为两个相互交织。今天,大多数集群基于英特尔或amd的x86处理器,但许多其他的选择。 64位sparc和阿尔法集群都相当普遍,集群基于苹果平台的xserve流行于苹果店。主要要考虑的问题是价格,性能,功耗和操作系统兼容。举例来说,英特尔的安腾具有优良的性能,但昂贵的是电力和饥饿以及患有未成熟操作系统支持。一般来说,在x86系统,是目前阻力最小的方向,由于缺乏一个矛盾的操作系统要求。

当我们选择了硬件结构, 2001年,其主要角逐者alpha和英特尔或amd基于x86系统。我们很快被丢弃,从阿尔法考虑,因为以往的经验,经济过热问题,对一个小阿尔法航空机群。 alpha版本也不再有那种表现,带领他们享受,在1990年末的。我们看双方的奔腾三和速龙系统,但决定,而性能和价格并没有很大的差别,功率消耗太有问题就速龙系统。

过去的生活体验,我们已经调查其他类型的节点,包括新速龙系统,至强系统购买,我们在今年的扩张,苹果苹果,现在 amd皓系统。处理器都未能达到功率/性能比英特尔系统。同样,苹果有吸引力,但提供分杆表现和改善小功耗除了作为一种建筑格格不入。我们不会作出决定之前,我们知道硬件市场景观看起来今年底,但初步报告似乎表明了amd64港口freebsd上将使我们探索用系统大得多的系统记忆而保留的x86兼容,为用户谁不想想想哪些机器,他们正在运行。

3.3节点结构

大多数决定对硬件节点将其从选择硬件结构,集群外形和网络接口。最大的剩余选择,是单一或多重处理器系统。单处理机系统有更好的cpu使用率由于缺乏争夺内存,磁盘和网络接入。多处理器系统可以让混合式应用共享数据直接降低其通信开销。此外,多处理机系统往往有更高的性能,外部接口,那么单一处理器系统。

其他选择处理器速度,内存和磁盘空间。我们发现,瞄准,为膝关节的价格曲线一直行之有效,因为没有单一用户主宰我们的决定。在其它环境下,回到线处理器,非常大磁盘,或大量的内存,可正当尽管成倍增加成本。

金,我们选择了双处理器系统。我们的动机是想要做研究代码利用监测系统,在集群,高密度比单处理器系统,而实际上, 64位pci插槽,我们需要千兆以太网没有提供单一处理器系统。由于我们专注于膝关节的价格曲线,我们已买了稍低于市场表现山顶处理器速度,以2-4枝较小,然后最高内存,硬盘在同一尺寸范围为中档台式机。这导致在初始配置见表3 。最近节点配置见表4 。
表3 :配置首金的节点。
中央处理器2 ×奔腾三的1ghz
网络接口的3com 3c996b -笔
1gb的内存
磁盘的40gb 7200的ide



表4 :配置最新奖学金节点。
中央处理器2 ×至强的2.4ghz
网络接口船上千兆
2gb的内存
磁盘+80 7200的ide


3.4网络互连

像硬件结构,选择网络接口是一个关乎选择合适点在贸易空间价格和性能之间。表现的一般特点是带宽和时延。正确接口某一组在很大程度上取决于就业它将运行。对于松散耦合职位小的输入和输出数据,带宽小,需100mbps以太网是显而易见的选择。其他,紧密耦合工作, myrinet的与其低延迟和2千兆+2千兆带宽,是正确的解决方法。其他接口,例如即将infiniband的产品,提供替代高速接口。

选择千兆以太网金的互连是一个折衷便宜100 mbps以太网的松耦合应用宁愿(让我们多买节点)和myrinet的。我们计划,以提高效率的网络升级到使用jumboframes ( 9000字节单元),在不久的将来。当我们开始建立奖学金,千兆以太网是约有三分之一的费用,每个节点myrinet的,而将有超过一倍的费用。期待我们的扩张,明年千兆以太网标准是对主板,并与大型的交换机集群需要,其成本每端口小于20 %,高于100mbps以太网。我们正在考虑的构想创造分集群内团契更快的网络接口,如myrinet的。

3.5寻址和命名计划

有三种基本方式分配ip地址在集群。小集群,有很多建筑师只把所有的机器上的现有网络。这有其优点,无需额外布线,需要为节点交谈任意外部数据源。缺点是,它一般是指知识产权的地址不相符,以实物,所以很难区分机器。此外,没有子集群可以使它很容易跨节点通信影响到其余的网络。其他两种方式参与配售节点对自己的子网,无论公开或私下[ rfc1918 ]地址。使用公共地址,有优势,适当路由器,集群节点可以进行数据交换与任意外部数据源。一子庆-地址,可记忆,以帮助管理员记得其中机某一地址属于。主要缺点是使用公共地址是地址空间日益稀缺和分配的大都是困难或昂贵的取得。使用私人地址消除这种压力,允许使用224个地址,在10个/ 8地址空间。这使得记忆有用命名计划无任何压力,以有效地址。缺点是节点不能达成外部数据的直接来源。如果所有他们需要做的是获取http或ftp服务器,代理可以使用,但许多网格计算工具假定所有机器在计算上是完全路由网络。

关于奖学金,我们选用10.5/16私人网络。我们选择这种做法,因为我们需要我们自己的子网,以避免进食其他网络资源,我们将不得不花费至少/ 23分配,而不是发售时间。我们网络10.5.0/24预留核心设备。 10.5.255/24是供暂时的dhcp分配,使设备获得网络地址,然后他们mac地址录中的dhcp config文件。该10.5.x/24座配衣架节点编号从1 。本来, 10.5.x.0是终端服务器,机架和10.5.x.y ( 0 <肽y < 255 )对应节点肽y该机架。我们既然提出终端服务器上的网络公司,因为他们不会支持jumboframes 。这个分配方案并不可能与公共地址,由于地址分配的权力要求。

选择主机名称内联网面临的另一个问题是由一组建筑师。通常规则的主机命名[ rfc1178 ]申请命名核心的服务器。不过,除非是簇很小,并很可能继续如此,数值命名方案,例如node00 , node01等,可能是一个更好的想法,然后设法想出一个命名方案,可处理数百个独特的机器。

对于金,我们所选择的名字,我们的核心机器后,大家的金戒指[托尔金] 。在某个时候我们可能会一发不可收拾的姓名和要开始使用其它字符从魔戒,但主题应该轻易搁置的核心系统。我们选择节点名称后,其主机机架及其位置,机架。节点编号从底部(因为我们填补衣架从底层) 。因此,每个节点的名字看起来住宅# #氮# #与第一节点1机架被r01n01 。终端服务器原本命名的r # #的ts ,但至今已改为食用受体##与爱作为终端服务器为核心的系统。尼斯事命名设备节点衣架这种方式是转换之间的ip地址和主机名称可以用一个简单的表达式。

域名加上轻微并发症,以命名过程。往往是有益的,使集群纳入自己的区域名。与金,所有外部系统住内aero.org区和节点居住内部只使用fellow.aero.org区。不利的,这就是一些软件倾向于认为主持人在同一区。

3.6核心服务器和服务

关于奖学金,我们是指所有设备,然后其他节点和远程管理硬件为核心的服务器。对许多集群,单核心服务器足以提供一切必要的核心服务。事实上,一些集群根本好转的一个节点将名义头的集群。一些大型集群提供多种前端,负载平衡与容错支持,以改善存留时间。

核心服务是服务者,需要加以供用户使用集群。至少,用户需要账户和目录。他们还需要一个方式来配置工作,让他们的节点。惯常方式提供这些服务,是提供家庭共享和应用目录,通常是透过nfs和使用目录服务等尼什派发帐户资料。其他核心服务集群建筑师可能选择,包括有一批调度,数据库存储的结果,并查阅档案存储资源。数量如何分配核心服务器核心服务,几乎是无限的。

金有三个核心服务器:数据服务器,用户服务器和管理服务器。所有这些服务器目前1ghz的奔腾三系统的scsi raid5的阵列。数据服务器,嘎姆吉,服务于一个250gb共享刮量经nfs的,运行一个mysql数据库,为用户储存结果,并没有每夜备份20磁带库使用的阿曼达。我们正处于升级过程刮过部分数据服务器双至强箱含2.8tb的ide扫荡行动。备份和数据库仍将嘎姆吉。用户服务器,奖学金,为的nfs目录,使用户一个地方登录到编译和运行应用。管理服务器, frodo ,东道主调度,尼什,和我们共同应用层次摆放在/ usr /航空。此外,管理服务器使用的dhcp , tftp的,和nfs netboot向节点。我们正处于升级过程金和frodo双重的2.4ghz的xeon与285gb scsi的raid5的存储每翻一番,其以前的能力。

这些服务都互相隔离性能的原因。在我们的模型,命中划伤共享空间并不慢普通编辑和编译不慢划伤空间接入。我们发现,分离是否服务工作,但它是在成本上升的脆弱,因为该系统是相互依存的,当一个失败,他们都有问题。我们已制定解决这些问题,但这种分工的服务应该是经过精心策划和一般受益裁员时,是可行的。给予无限的资金,我们可能会提出最nfs的服务,电器设备类等netapp的文件服务器。

370节点配置管理

自节点一般多于其他一切,对系统效率的配置管理是必不可少的。许多系统安装作业系统,每个节点配置节点特定部分的手动安装。其他系统开机网络节点使用etherboot , pxe技术或linuxbios 。关键是用好权力集中和自动化。我们看到很多地方集群节点从来没有更新亟需因为建筑师穷人作出选择了升级节点不切实际的。

节点配置管理可能是最独特的部分院士的建筑。我们先从基本freebsd的无盘启动进程[ perlstein ] 。然后,我们使用无盘寂寞支持摩/等作为/ conf /基/等,并凌驾的ssh钥匙对节点。许多应用,这种配置就足够了。不过,我们已申请需要大量的本地空间划痕。因此,每个节点包含一个磁盘。通常的处理方式等磁盘将手动创建适当目录结构上的磁盘时,该系统是首次安装,然后让山节点和fsck盘每次开机了。我们认为这是不切实际的,因为节点通常安装在大群体。此外,我们希望能够重新磁盘随操作系统。代替手工磁盘配置,我们创造了一个程序( diskmark ),其中使用了一个无效的条目在mbr的分区表存放一个幻数和版本较目前分割计划。开机时,我们用一个脚本执行前体rc.diskless2审查这个条目看,如果当前布局磁盘,是一个需要。如果不是,无盘脚本自动使用华纳losh的diskprep脚本来初始化磁盘,根据我们的要求。


表5 :样本节点(又名r01n01 10.5.1.1 )摩结构
mountpoint源
/ frodo : / nodedata/roots/freebsd/4.8-stable
/ conf /基/等frodo : / nodedata/roots/freebsd/4.8-stable/etc
/等mfs
/ usr /航空frodo : / nodedata / usr.aero
/川芎嗪/ dev/ad0s2a
/无功/ dev/ad0s2d
/家庭团契: /首页
/刮嘎姆吉: /划痕
/分贝嘎姆吉: /分贝
/阿德瓦mfs


与此配置,加入节点是非常容易的。基本程序是锚杆成机架,其中钩起来,并把他们的。接着,我们获得mac地址从交换机的管理控制台和它添加到的dhcp配置,使每个节点分配一个众所周知ip地址。后运行一个脚本告诉约调度节点和重启等,他们都愿意使用。

维修的netboot形象是由交chrooting到根的安装及以下的标准程序,以提升作业系统和港口需要。为操作系统升级,我们拷贝整个根到一个新的定位,提升它,并测试了几个节点,然后修改dhcp来配置所有节点和重启它们利用新根。我们安装软件可通过收集港口经标准工艺和管理,它与 portupgrade 。软件所不具备的港口集装在单独/ usr /航空等级。

其中一部分网络孕穗金的节点尚未制定出计划,是 bios的支持pxe技术。 pxe技术是一个标准的功能服务器级主机板,但似乎是不善测试厂商。不止一次,我们的供应商不得不回到主机板制造到他们创造一个新的bios定pxe技术问题。我们已经找到pxe技术可有点靠不住几乎所有平台,偶尔开机,由网络没有明显的理由,然后回落到磁盘是配置不开机。其中一些问题,似乎应该引起互动网络交换机,特别是思科交换机。最近,我们一直在努力增强版diskprep这将使我们创造一个上freedos隔墙,将自动重新启动机器,并赋予了它无限retries在pxe技术孕穗。

3.8作业调度

调度是一个潜在的最复杂的和有争议的问题,所面临的一组建筑。主要调度方案运行无任何调度,调度手册,分批排队,并具体域调度。

在小环境中的用户有兼容的目标,不具有调度和公正,让用户运行他们想要什么时,他们想要沟通或与对方进行波段后备资源作为必要的,可以很好的解决办法。它很少行政开销,而且在许多情况下,它只是作品。

大集群,某种形式的调度通常要求。即使用户没有冲突的目标,很难试着找出节点上运行时,有数十或数百个数字。此外,许多集群有多种用途,必须平衡。在许多环境中,一批排队的答案。一些存在的,包括openpbs , pbspro ,孙格引擎( sge ),液体发酵,钙,宿舍。这些系统通常包括调度,但其中许多还支持运行毛伊回填日程之上。 openpbs sge和免费开放源码应用是最热门的选择,集群调度。

对于一些申请,分批排队,是不是一个好的答案。这通常是因为应用需要太多的职位大部分分批排队制度,以跟上或因运行职位太变是有益的。比如,我们听到一个计算生物学中的应用,其中贯穿着数以万计的测试用例一天哪里最需几秒钟,但有些可能采取分钟,小时,或几天内完成。在这些情况下,一个域的具体日程往往是必要的。一个共同的解决办法是商店个案数据库,并已申请对每个节点,查询数据库,为一个工作组,处理,存储,结果在数据库中,并重复。

关于奖学金,我们有一个广阔的组合应用不等太大scheduleable 任务申请未知运行时间。我们目前的策略是,实施一批排队的一个长远目标,发现一个处理方法很长的运行应用。我们最初打算开办热门openpbs调度,因为它已经有了一个以港口和freebsd的,它是一个开放源码的。不幸的是,我们发现了openpbs稳定的重大问题,下了freebsd (以及许多账户,大部分其他操作系统) 2 。约时间,我们都准备放弃openpbs , sun发布sge作为开源。在freebsd不支持最初的,但我们能够成功地完成一个港口基于一些补丁张贴到邮件列表。我们自认为有助于港口回主sge源树。

论坛徽章:
0
2 [报告]
发表于 2007-09-09 00:55 |显示全部楼层
-----------------------接前页-----------------------

3.9安全考虑

大部分集群,我们认为治疗集群作为一个单一的系统是最实用的方法安全。因此节点都不能办理到互联网一样对金,全部利用节点应考虑本地的。这是什么意思,某个集群的安全政策是一个地方问题。系统的路由节点,管理日益复杂,因为每个节点都成为一个会引起潜在的远端漏洞。在这种情况下可能有必要采取行动来保护成功攻击节点正在从杠杆变成全系统接入。在这种情况下,鼓励使用加密协议的内联网,可理想,但业绩的影响应该牢牢记住。

主要的例外情况是集群需要多层次的安全。我们有兴趣的问题,在这样一个制度,但在这一点上都没有做任何认真的调查。

我们选择了集中保护金从网络在逃。这主要包括保持核心系统到今天为止,并要求所有的通信必须通过加密协议如的ssh 。国内,我们鼓励使用的ssh连接节点,但允许rsh连接。太阳网发动机安装使用公匙基建为本的用户认证方案。我们发现,这是必要的,因为sge的默认权限模型其实比rsh在它甚至不要求保护暧昧一个较低的港口。跨节点通信加密性能的原因。

3.10系统监控

顺利运行一个集群可以辅助正确使用系统监测工具。最常见的监控工具,如nagios和大姐适用集群使用。一类监测工具并不好工作与集群,是那种定期发送电子邮件报告每个节点。甚至少数节点将产生更多的报告,然后最管理员有时间去阅读。除了标准的监测工具,还存在集群专用工具等节集群监控。最调度也含有监测功能。

关于奖学金,我们正在运行节集群监测系统和标准定期在freebsd脚本对核心系统。节被移植到了freebsd以前,但我们也创造了freebsd港口,使其更易于安装,使安装更开源等。一大优势是节,没有配置需添加节点。他们都是自动发现组播通过。我们也考虑用nagios 监测网点,但尚未成功部署。监测是一个方面,我们需要改进的奖学金。我们有磁盘失败后,开机无任何不知不觉,因为默认了freebsd无盘行为导致它无论如何开机。据尼斯表示节点保存工作,但我们惊奇地发现,一些机器已小存储器/川芎嗪目录而非36gb +基于磁盘的。

3.11物理系统管理

在某个时候,每个系统管理员认为他们需要获得主控台机或动力循环。只有少数机器,安装显示器对每台机器或安装一个开关式kvm所有机器和翻筋斗功率开关手动是一个合理的选择。一个大集群,安装串行终端服务器,让远程接入控制台及远程电源控制器可不可取。

中金的架构中,我们十分重视对远程管理。集群是住在我们控制进入数据中心,使身体进入累赘。此外,首席建筑师和生活管理员1000英里之外的数据中心,直接进入更困难。作为一个结果,我们都配置电脑,提供远程接入控制台通过终端服务器,并提供自己的力量,通过远程电源控制器。这使我们能够可靠地启动系统,将大大艾滋病复苏和远程故障诊断。并非所有问题都可以解决,这样,但许多人可以。我们能诊断开机造成失控的网络资源,但并非车祸所致raid控制器死亡。我们有不同的结果,通过bios进入控制台。对英特尔至强系统运作良好,但泰安奔腾三主板往往杭开机,如果bios的控制台重定向启用。在这两种情况下,我们能够获得freebsd的控制台,它已证明是有益的。

3.12外形

选择系统外形是一个普遍的选择之间的桌面系统在货架上与机架伺服器。货架台式共同为小簇,他们通常便宜不太可能有冷却问题。其缺点包括事实,他们采取了更多的空间,缺乏电缆管理导致较难维修,并普遍较差,美学。此外,大多数这类系统违反地震安全性法规。

机架系统通常较为昂贵,由于元件所产生的低得多,体积以及较高的利润率是在服务器市场。此外,衣架或柜子成本,然后更便宜的金属架。换取这项新增费用,机架系统提供高密度,综合线缆管理,并通常,提高审美。

密度较高,是一柄双刃剑。低端案件往往不佳设计和测试环境欠佳,导致经济过热,由于宿舍拥挤和恶劣的电缆线。此外,单一机架可以产生惊人的数额热量。我们估计是有20-30度(六)区别的前方与后方金的衣架上的xeon的,尽管正处于一个良好空调井下数据中心。这些衣架上有一个高峰期用电量超过6000w 每。

一个小问题项相关机架式系统机柜与开放,电信风格衣架。柜子看多擦拭,并在理论上可以提出各地。其缺点是成本提高,空间不足,使他们很难在工作,并容易过热,是由于气流限制。电信衣架并不像是整齐,而且一般螺栓到地上,但他们可以轻易进入电缆和无限制气流。在我们的情况,我们利用垂直线缆管理车门使得金外观十分整齐,无需柜子。

预计规模奖学金,我们驱车到一个机架配置。我们计划从一开始到最后都至少有 300个中央处理器,是推动合理范围与货架。唯一的一件事,不顺利,我们衣架是,我们选择了6英寸宽的垂直线缆管理,其中获得拥挤时。我们计划用10英寸宽屏垂直线缆管理时,我们扩大到第二排衣架下一财政年度。

4教训

最大的教训,我们学到的是硬件减员是一个真正的问题。虽然我们还没有看到很多硬-轨道不稳定问题,我们已失去了至少一台机器几乎每一次我们已经建立了一个全停电,预定或不定期。作为一个结果,我们了解到,这是重要的是有供应商谁来修复失败或失败的系统快。事实节点失败更频繁的话,我们原先预期还意味着布线整齐,是更关键的话,我们首先想到的。为了省钱,在最初部署时,我们遇到电缆直接从交换机到节点。这意味着我们有很多呆滞有线电视电缆管理,使拆除和重新安装节点困难。当我们扩大联网第二排衣架明年,我们计划把转经配线架上的首要每个机架连接面板旁边的开关。

我们还了解到,虽然多数高性能软件工程优良freebsd系统,高性能计算社区坚信世界是一个linux的盒子。人们常常难以确定,如果一个问题是,由于测试不足的代码或freebsd的东西。我们希望有更多的freebsd的用户会考虑聚类与freebsd 。

自动化系统,更重要的是,然后我们首先假设。举例来说,关闭系统停电,可以做远程的,但目前它需要采伐所有20远程电源控制器。我们目前正对这一自动化以及加入自动关机节点,在发生外部功率损耗。

5未来的方向与结论

金目前运作良好,但仍有改善了,特别是在以下领域和自动化调度。

我们计划为一个不断发展的制度,但我们没有可操作,以期取代旧硬件,所以我们不知道如何说是去工作,在实践中。显然,在某一点上,节点将浪费更多的权力的话,他们的价值,但我们不知道什么原因这一点。衡量拖鞋/瓦特将有助于确定这一点。我们也不知你的系统将开始拖欠刮板在未来或者如果他们会慢慢死在相当长的一段时间。

其他方向,我们必须继续在地区调度。我们需要更好地处理工作模式,不适合内分批范例,让用户有一个好的构思多久,他们的职位将运行。我们的一些用户已职位竞选星期或几个月的时间,所以这是一个紧迫的问题。我们正在搞内部研究经费探讨这个问题。

另一个感兴趣的领域是某种集群点播[摩尔]计划,让使用的节点以不同的方式在不同的时间。其中一项建议已经创造emulab [白色]分组可用于计算时,不被用于网络模拟。

分布式文件系统一样飞行并分发过程模型bproc就像是一个方面,我们希望看到进一步探讨在freebsd 。目前有大量工作,对linux ,但很少对freebsd的。

我们正致力于开发新的更高层次的并行编程工具,以支持特定的应用,如网格生成的计算流体动力学模型。我们目前正在部署的globus toolkit对航空网络将使得用户能够运行的应用系统跨多种计算资源,包括金,其他航空集群,并监测系统等sgi的起源。这种应用可以使用内置的编程工具,如gridrpc [西摩]正在开发由gridrpc工作组的全球网格论坛。

在中期,我们正朝着一个迁移到了freebsd 5.x改进smp的性能和线程支持。为改进线程单,这将是重要的一步。有一些重大的挑战,我们需要克服,其中最重要的就是要提升我们的网络基础设施车尾箱给netbsd的衍生rc.d启动脚本[ mewburn ]和geom磁盘子系统[坎普] 。

目前奖学金设置了广泛的混合工作所使用的用来作重大决策的空间系统。我们觉得在freebsd一直行之有效,在提供了坚实的基础,为我们的工作,并普遍支持,为高性能计算。我们鼓励其他国家考虑在freebsd为基础的高性能计算集群。



我们想感谢支持gps和学生车船津贴计划办公室。额外提供了支持,由航天计算机系统部。未经其经费的行政费用,奖学金将不会有什么令人吃惊的变化。

参考书目

贝克尔
    唐纳德j贝克尔,托马斯英镑,丹尼尔萨瓦雷塞约翰e. dorband ,帝甲ranawak查尔斯诉隔beowulf :工作站并行科学计算程序,在国际会议上并行处理, 1995 。

穆尔
    贾斯汀摩尔,大卫欧文,劳拉沙砾,萨拉sprenkle ,杰夫和追逐。总经理混合使用集群与集群点播。计算机科学系。杜克大学。
     http://issg.cs.duke.edu/cod-arch.pdf

坎普
    坎普, poul - henning 。 geom ( 4 ) 。 geom -模块化磁盘i / o请求转换架构。 freebsd的内核接口手册在freebsd 5.1 。

perlstein
     perlstein ,阿尔弗雷德。在freebsd引进指南。
     http://www.freebsd.org/doc/en_us.iso8859-1/articles/pxe/

mewburn
     mewburn ,卢克。设计与实现了netbsd的rc.d系统。
     http://www.mewburn.net/luke/papers/rc.d.pdf

mpi的
    消息传递界面论坛。 mpi的:一个消息传递接口标准。
     http://www.mpi-forum.org/docs/mpi-11.ps

在sgi
    硅图形公司能源部的蓝山超级达到破纪录的运行。
     http://www.sgi.com/newsroom/pres ... /blue_mountain.html

郑义
     garrett郑义,大卫moffett 。欢迎到顶点-先进的电脑基工程。
     http://acme.ecn.purdue.edu/

史怀
    答:施。该klingon猛禽集群。
     http://phoenix.physast.uga.edu/klingon/

喷射
    学院的威廉和玛丽。喷射集群项目。
     http://www.compsci.wm.edu/sciclone/

rfc1918
    信义rekhter ,乙moskowitz , d. karrenberg , g. j.德groot , e.尔。地址分配私人因特网。

rfc1178
     d.藨。选择一个名称为您的计算机。

托尔金
     j.r.r.托尔金。指环王1955 。


    白乙】 。综合实验环境,为分布式系统和网络。在第五届学术研讨会操作系统的设计和执行, 2002年12月。

西摩
    西摩,的k. , nakada , h. , matsuoka节, dongarra , j. ,李, c.在casanova我们, h. ,概述gridrpc :远程过程调用api的网格计算。第三届国际研讨会网格计算, 11 , 2002 。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP