免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: 勇者威廉
打印 上一主题 下一主题

[FreeBSD] 如何将家里的旧电脑搞成个电脑集群? [复制链接]

论坛徽章:
1
技术图书徽章
日期:2013-12-05 23:25:45
11 [报告]
发表于 2007-08-29 23:02 |只看该作者
还是硬着头皮看看为好。

论坛徽章:
0
12 [报告]
发表于 2007-08-31 23:17 |只看该作者
嗯,正在看。

论坛徽章:
0
13 [报告]
发表于 2007-09-01 08:41 |只看该作者
原帖由 harbinbeer 于 2007-8-29 18:42 发表
电费估计不少,哈哈



这个确实啊,呵呵

论坛徽章:
0
14 [报告]
发表于 2007-09-01 09:41 |只看该作者
没有做过 很感兴趣

论坛徽章:
0
15 [报告]
发表于 2007-09-02 20:26 |只看该作者
一起研究下子,各位觉得怎么样?

首先把乔老大给的那篇英文资源,翻译成中文。有人报名吗?

论坛徽章:
0
16 [报告]
发表于 2007-09-02 20:50 |只看该作者
原帖由 勇者威廉 于 2007-9-2 20:26 发表
一起研究下子,各位觉得怎么样?

首先把乔老大给的那篇英文资源,翻译成中文。有人报名吗?



逼良?

论坛徽章:
0
17 [报告]
发表于 2007-09-03 11:18 |只看该作者
楼上的,你什么意思?

论坛徽章:
0
18 [报告]
发表于 2007-09-08 21:52 |只看该作者
我也有2台老爷机,正琢磨着弄个防火墙用,集群就更带劲了,支持!另外,我这已经两年没收电费了

论坛徽章:
0
19 [报告]
发表于 2007-09-08 23:04 |只看该作者
好象英文水平要高才哦.

论坛徽章:
0
20 [报告]
发表于 2007-09-09 00:54 |只看该作者
http://people.freebsd.org/~brooks/papers/bsdcon2003/fbsdcluster/

建设一个高性能计算集群采用了freebsd
布鲁斯戴维斯,迈克尔比如,加里绿,克雷格李
航天公司
el segundo的钙
(布鲁克斯,李, mauyeung ) aero.org时,在gary.b.green notes.aero.org
© 2003年航天工业总公司
摘要

本文讨论了设计和实施奖学金, 300 +处理器,一般使用计算集群基于freebsd的。我们处理的设计特点,包括配置管理,网络孕穗节点,并调度使这一独特的集群,以及如何在freebsd帮助(阻碍)的努力,使这一设计成为现实。

1引言

大部分过去十年主要推力高性能计算(高性能计算)的发展已走向商品集群,俗称beowulf集群[贝克尔] 。这些集群结合商业现成硬件制造系统的竞争对手或超过业绩传统超级计算机在许多应用,而成本高达因素十个少。并非所有申请都适合集群,但意义部分有趣科学应用可以适应他们。

2001年,带动了一些单独的用户需要超级计算机,航天工业总公司(一非营利,由联邦资助的研究和开发中心)决定建立一个企业计算集群(最终命名奖学金1 )作为替代继续购买小群和监测系统的一个特设的基础。这一决定是出于一种愿望使用计算资源更有效率以及降低行政成本。多种多样的用户要求,在我们的环境,使我们的一个设计大不相同最集群,我们看到别处。尤其是这样,在该地区作业系统选择( freebsd上)和配置管理(完全开机,网络节点) 。

金业务,并用来解决重大现实问题。我们的最佳基准运行至今已达到183 gflops的浮点性能会发生在我们百强对2002年的500强名单中集群。

在本文中,我们首先概述了集群的配置。我们涵盖的基本硬件和软件,物理和逻辑布局体系,基本业务。第二,我们详细讨论了主要设计问题,我们所面临的设计时集群,我们如何选择,以解决这些问题,并讨论这些结果选择。在这一节中,我们特别注重对相关问题,我们使用了freebsd 。第三,我们讨论教训以及教训,我们希望广大的并行计算社会学习。第四,我们谈未来的方向,为社会探索无论在增量改进或研究新范式集群计算。最后,我们总结我们所在的地方,我们都去。表2载列的url许多项目或产品,我们提。

2奖学金概况

形象四月- 2003
图1 :金circa 2003年4月

基本的逻辑和物理布局奖学金类似许多集群。有三个核心系统, 151个双处理器节点,网络交换机,各类远程管理硬件。所有节点和服务器freebsd的,目前4.8稳定。核心系统和远程管理硬件坐在航天企业网络。节点与核心系统共享一个私人,非路由网络( 10.5/16 ) 。这种设备是安装在一排七英尺,身高两衣架后居住在地下数据中心航天总部el segundo的加州。图1显示了金在2003年4月。布局结衣架列于图2 。

\开始(图) \小\开始(列表) (住宅\ vert三\ vert ) \ multicolumn ( 1 ) ( )的r ( \重点(联通... … … 3 & \ \ 2 & 5110五甲电路\ \ 1 & \ \ \克莱恩( 2-2 ) \ (年底表格) \结束(图)
图2 :布置节点机架1

核心系统是一个用户或壳服务器,服务器数据服务nfs的共享空间划痕,并没有备份,并管理该服务器运行调度,尼什服务,并管理节点。用户服务器,金,是通过网关,用户接入集群。用户登录到它和发射工作,从那里。主页目录存储金,并出口到nfs经向节点。数据服务器,嘎姆吉,主机271 gb的共享空间划痕用在用户计算机。它还违反了mysql数据库的结果存储和阿曼达备份关键的集群系统。管理服务器, frodo ,进行了各种各样的任务。其中包括出口到信息通过尼什,孕穗网络节点,用户调度工作。

节点是一种双处理器的x86系统,从1吉赫奔腾向所在的xeon的2.4ghz 1gb的内存安装。表1给出了一个完整的分型中央处理器使用金。所有奔腾三节点购置的40gb的ide硬盘。至强的节点购置+80硬盘和奔腾三盘正取代+ 80盘等,他们失败的。该节点连接千兆以太网通过催化剂思科6513交换机。奔腾三系统泰安打雷乐( 1ghz的系统)和泰安打雷乐笔与3com的千兆以太网适配器安装在其扩展槽。它们装在14个"深机架式案件都是由ixsystems 。该系统至强英特尔1u服务器平台双船上千兆以太网接口。我们购买他们从铁系统。


表1 :中央处理器,在金结点。
cpu类型节点中央处理器
奔腾三的1ghz 8月16日
奔腾三1.26ghz 40 80
奔腾三1.4ghz 39 78
至强(四至) 2.4ghz的64 128
共计151 302


虽然已结盘,我们的网络开机他们用pxe技术支持,其网络接口frodo提供的dhcp , tftp的, nfs的根磁盘和尼什用户帐户。开机时,硬盘自动检查,以核实它们妥善分割为我们的环境。如果他们不是,他们是自动百余。这意味着任何手工配置节点须超出确定其mac地址时,他们安装。

当地控制机集群是透过一个核查团交换机连接到一个1u的机架液晶键盘,监视器,并跟踪垫。远程接入可通过cyclades的ts系列终端服务器。所有节点和服务器以及网络设备都连接到这些终端服务器和控制台重定向是使所有freebsd的机器。我们的 bios控制台重定向使对至强系统,而不是基于奔腾三系统的一个漏洞,往往导致他们坑,甚至在非常低的利率波特。除了进入控制台,一切除终端服务器和交换机相连baytech rpc4 - 15系列远程电源控制器。这让我们可以进行远程开机,几乎任何系统的一部分,由连接到电源控制器透过适当终端服务器。

对回到这个基础,接入节点控制孙格引擎( sge ) ,调度实施超的posix一批环境服务规范。 sge允许用户提交双方互动和一批在职脚本运行的一个或多个处理器。用户可以免费使用他们的处理器分配在任何合理的方式。他们可以同时运行多个进程无关的或单一大规模并行工作。

为方便使用体验,我们提供了一个基本的unix编程环境,加上并行编程工具,并商业并行应用。并行编程工具,我们提供并行虚拟机和mpich林和实现信息传递接口[ mpi的] 。目前,我们唯一商业并行应用数学网,为我们所推出的客户。


表2 :资源集群
资源的url
大姐http://bigsister.graeff.com/
bproc http://bproc.sourceforge.net/
diskmark http://people.freebsd.org/ 〜布鲁克斯/ diskmark /
diskprep (扩大) http://people.freebsd.org/ 〜布鲁克斯/ diskprep /
diskprep (正本) http://people.freebsd.org/ 〜进出口/ diskprep.pl
宿舍http://www.scri.fsu.edu/ 〜 pasko的/ dqs.html
emulab http://www.emulab.net/
在freebsd http://www.freebsd.org/
节机群监测http://ganglia.sourceforge.net/
geom概况http://phk.freebsd.dk/geom/overview.txt
全球文件系统(飞行) http://www.sistina.com/products_gfs.htm
格数学http://www.wolfram.com/products/gridmathematica/
林- mpi的http://www.lam-mpi.org/
linuxbios http://www.linuxbios.org/
lsf的http://www.platform.com/products/wm/lsf/
毛伊调度http://www.supercluster.org/maui/
myrinet的http://www.myri.com/myrinet/
mpich http://www-unix.mcs.anl.gov/mpi/mpich/
nagios http://www.nagios.org/
openpbs http://www.openpbs.org/
并行虚拟机http://www.csm.ornl.gov/pvm/
岩群分布http://www.rocksclusters.org/
伸缩openpbs http://www.supercluster.org/projects/pbs/
孙格引擎( sge ) http://gridengine.sunsource.net/
集群@包揽http://clusters.top500.org/


3设计问题

最大的挑战之一,在建设金是多种多样的用户基础。各用户在初次会晤,讨论集群架构,我们已与用户松耦合和紧耦合应用,数据密集和非数据密集型应用,用户所做的工作,从日常批量生产高性能计算的研究。这种多样性的用户和应用,导致妥协,是我们目前的设计。在本节中我们着重主要设计决定了,我们虽然建立奖学金。

3.1操作系统

首个大型设计任何决定簇脸上通常选择操作系统。到目前为止,最受欢迎的是一些linux发行。当然 linux是阻力最小的方向和最广大人民的假定,如果它是一个集群,它可以运行linux系统。事实上,一组可以运行几乎所有的操作系统。集群存在运行 solaris [喷射] ,马力ux ,艾克斯, macos下,在freebsd [郑义,施] ,甚至窗户。 asci蓝山其实是一个簇48128处理器sgi系统运行irix [ sgi的] 。

对于一个组织,没有操作系统的偏见和直截了当的计算要求,运行linux是阻力最小的方向,由于免费集群工具等npaci的岩石群分布。在其他情况下,经营制度的选择是更复杂。重要的考虑因素,包括选择硬件平台,有经验丰富的本地系统管理人员,有需要申请,便于维修,系统性能,并强调有能力修改操作系统。

出于各种各样的原因,我们选择了freebsd为研究员。最务实这样做的理由是极好出箱支持无盘系统被轻易更改,以支持我们的网络节点启动模式。这部分工作进行得很好。

此外,金首席建筑师freebsd的用途几乎是一个在freebsd金瑛。这意味着我们有更多的经验,在freebsd比linux经验,我们可以把我们的一些更普遍的变化重返freebsd的简化操作系统升级。在实践中,我们试图改变推回基地操作系统已经见了成效不一。我们已经合并了一些小变化,但普遍适用的部分,我们的无盘启动脚本改变尚未合并,因缺乏时间去整理矛盾变化的主要来源树。

港口集也是一大优势利用freebsd的。它使我们安装和维护用户要求软件迅速和容易。在某些情况下,现有的港口不够灵活,为我们的需求,但对于大多数应用,它工作良好。有linux系统仿真意味着我们没有放弃,就像应用兼容性。我们已成功运行格对数学集群之后重新安装mathematica的文件在freebsd手册。

缺点 freebsd的,我们的宗旨都是不成熟smp和线程支持,并普遍认为内高性能计算社区,如果它不是一个商业巨型机,它必须是一个linux系统。 smp的支持并未出现重大问题,为我们的用户为止。我们大部分的工作是计算方向,使穷人的smp下的表现沉重的io是一个颇具争议的问题。绪已更是一个问题。我们的用户想用螺纹为smp的缩放。我们预期这个情况会有所改善时,我们转移到了freebsd如欲

linux的重点是高性能的社会造成了一些问题。尤其是,许多件软件要么缺乏freebsd的一个港口,或者只能有一个测试不佳其中并没有实际的工作。此外,有一个鲜明的短缺编译支持现代版本的fortran 。

3.2硬件结构

选择硬体架构是一般与操作系统作为两个相互交织。今天,大多数集群基于英特尔或amd的x86处理器,但许多其他的选择。 64位sparc和阿尔法集群都相当普遍,集群基于苹果平台的xserve流行于苹果店。主要要考虑的问题是价格,性能,功耗和操作系统兼容。举例来说,英特尔的安腾具有优良的性能,但昂贵的是电力和饥饿以及患有未成熟操作系统支持。一般来说,在x86系统,是目前阻力最小的方向,由于缺乏一个矛盾的操作系统要求。

当我们选择了硬件结构, 2001年,其主要角逐者alpha和英特尔或amd基于x86系统。我们很快被丢弃,从阿尔法考虑,因为以往的经验,经济过热问题,对一个小阿尔法航空机群。 alpha版本也不再有那种表现,带领他们享受,在1990年末的。我们看双方的奔腾三和速龙系统,但决定,而性能和价格并没有很大的差别,功率消耗太有问题就速龙系统。

过去的生活体验,我们已经调查其他类型的节点,包括新速龙系统,至强系统购买,我们在今年的扩张,苹果苹果,现在 amd皓系统。处理器都未能达到功率/性能比英特尔系统。同样,苹果有吸引力,但提供分杆表现和改善小功耗除了作为一种建筑格格不入。我们不会作出决定之前,我们知道硬件市场景观看起来今年底,但初步报告似乎表明了amd64港口freebsd上将使我们探索用系统大得多的系统记忆而保留的x86兼容,为用户谁不想想想哪些机器,他们正在运行。

3.3节点结构

大多数决定对硬件节点将其从选择硬件结构,集群外形和网络接口。最大的剩余选择,是单一或多重处理器系统。单处理机系统有更好的cpu使用率由于缺乏争夺内存,磁盘和网络接入。多处理器系统可以让混合式应用共享数据直接降低其通信开销。此外,多处理机系统往往有更高的性能,外部接口,那么单一处理器系统。

其他选择处理器速度,内存和磁盘空间。我们发现,瞄准,为膝关节的价格曲线一直行之有效,因为没有单一用户主宰我们的决定。在其它环境下,回到线处理器,非常大磁盘,或大量的内存,可正当尽管成倍增加成本。

金,我们选择了双处理器系统。我们的动机是想要做研究代码利用监测系统,在集群,高密度比单处理器系统,而实际上, 64位pci插槽,我们需要千兆以太网没有提供单一处理器系统。由于我们专注于膝关节的价格曲线,我们已买了稍低于市场表现山顶处理器速度,以2-4枝较小,然后最高内存,硬盘在同一尺寸范围为中档台式机。这导致在初始配置见表3 。最近节点配置见表4 。
表3 :配置首金的节点。
中央处理器2 ×奔腾三的1ghz
网络接口的3com 3c996b -笔
1gb的内存
磁盘的40gb 7200的ide



表4 :配置最新奖学金节点。
中央处理器2 ×至强的2.4ghz
网络接口船上千兆
2gb的内存
磁盘+80 7200的ide


3.4网络互连

像硬件结构,选择网络接口是一个关乎选择合适点在贸易空间价格和性能之间。表现的一般特点是带宽和时延。正确接口某一组在很大程度上取决于就业它将运行。对于松散耦合职位小的输入和输出数据,带宽小,需100mbps以太网是显而易见的选择。其他,紧密耦合工作, myrinet的与其低延迟和2千兆+2千兆带宽,是正确的解决方法。其他接口,例如即将infiniband的产品,提供替代高速接口。

选择千兆以太网金的互连是一个折衷便宜100 mbps以太网的松耦合应用宁愿(让我们多买节点)和myrinet的。我们计划,以提高效率的网络升级到使用jumboframes ( 9000字节单元),在不久的将来。当我们开始建立奖学金,千兆以太网是约有三分之一的费用,每个节点myrinet的,而将有超过一倍的费用。期待我们的扩张,明年千兆以太网标准是对主板,并与大型的交换机集群需要,其成本每端口小于20 %,高于100mbps以太网。我们正在考虑的构想创造分集群内团契更快的网络接口,如myrinet的。

3.5寻址和命名计划

有三种基本方式分配ip地址在集群。小集群,有很多建筑师只把所有的机器上的现有网络。这有其优点,无需额外布线,需要为节点交谈任意外部数据源。缺点是,它一般是指知识产权的地址不相符,以实物,所以很难区分机器。此外,没有子集群可以使它很容易跨节点通信影响到其余的网络。其他两种方式参与配售节点对自己的子网,无论公开或私下[ rfc1918 ]地址。使用公共地址,有优势,适当路由器,集群节点可以进行数据交换与任意外部数据源。一子庆-地址,可记忆,以帮助管理员记得其中机某一地址属于。主要缺点是使用公共地址是地址空间日益稀缺和分配的大都是困难或昂贵的取得。使用私人地址消除这种压力,允许使用224个地址,在10个/ 8地址空间。这使得记忆有用命名计划无任何压力,以有效地址。缺点是节点不能达成外部数据的直接来源。如果所有他们需要做的是获取http或ftp服务器,代理可以使用,但许多网格计算工具假定所有机器在计算上是完全路由网络。

关于奖学金,我们选用10.5/16私人网络。我们选择这种做法,因为我们需要我们自己的子网,以避免进食其他网络资源,我们将不得不花费至少/ 23分配,而不是发售时间。我们网络10.5.0/24预留核心设备。 10.5.255/24是供暂时的dhcp分配,使设备获得网络地址,然后他们mac地址录中的dhcp config文件。该10.5.x/24座配衣架节点编号从1 。本来, 10.5.x.0是终端服务器,机架和10.5.x.y ( 0 <肽y < 255 )对应节点肽y该机架。我们既然提出终端服务器上的网络公司,因为他们不会支持jumboframes 。这个分配方案并不可能与公共地址,由于地址分配的权力要求。

选择主机名称内联网面临的另一个问题是由一组建筑师。通常规则的主机命名[ rfc1178 ]申请命名核心的服务器。不过,除非是簇很小,并很可能继续如此,数值命名方案,例如node00 , node01等,可能是一个更好的想法,然后设法想出一个命名方案,可处理数百个独特的机器。

对于金,我们所选择的名字,我们的核心机器后,大家的金戒指[托尔金] 。在某个时候我们可能会一发不可收拾的姓名和要开始使用其它字符从魔戒,但主题应该轻易搁置的核心系统。我们选择节点名称后,其主机机架及其位置,机架。节点编号从底部(因为我们填补衣架从底层) 。因此,每个节点的名字看起来住宅# #氮# #与第一节点1机架被r01n01 。终端服务器原本命名的r # #的ts ,但至今已改为食用受体##与爱作为终端服务器为核心的系统。尼斯事命名设备节点衣架这种方式是转换之间的ip地址和主机名称可以用一个简单的表达式。

域名加上轻微并发症,以命名过程。往往是有益的,使集群纳入自己的区域名。与金,所有外部系统住内aero.org区和节点居住内部只使用fellow.aero.org区。不利的,这就是一些软件倾向于认为主持人在同一区。

3.6核心服务器和服务

关于奖学金,我们是指所有设备,然后其他节点和远程管理硬件为核心的服务器。对许多集群,单核心服务器足以提供一切必要的核心服务。事实上,一些集群根本好转的一个节点将名义头的集群。一些大型集群提供多种前端,负载平衡与容错支持,以改善存留时间。

核心服务是服务者,需要加以供用户使用集群。至少,用户需要账户和目录。他们还需要一个方式来配置工作,让他们的节点。惯常方式提供这些服务,是提供家庭共享和应用目录,通常是透过nfs和使用目录服务等尼什派发帐户资料。其他核心服务集群建筑师可能选择,包括有一批调度,数据库存储的结果,并查阅档案存储资源。数量如何分配核心服务器核心服务,几乎是无限的。

金有三个核心服务器:数据服务器,用户服务器和管理服务器。所有这些服务器目前1ghz的奔腾三系统的scsi raid5的阵列。数据服务器,嘎姆吉,服务于一个250gb共享刮量经nfs的,运行一个mysql数据库,为用户储存结果,并没有每夜备份20磁带库使用的阿曼达。我们正处于升级过程刮过部分数据服务器双至强箱含2.8tb的ide扫荡行动。备份和数据库仍将嘎姆吉。用户服务器,奖学金,为的nfs目录,使用户一个地方登录到编译和运行应用。管理服务器, frodo ,东道主调度,尼什,和我们共同应用层次摆放在/ usr /航空。此外,管理服务器使用的dhcp , tftp的,和nfs netboot向节点。我们正处于升级过程金和frodo双重的2.4ghz的xeon与285gb scsi的raid5的存储每翻一番,其以前的能力。

这些服务都互相隔离性能的原因。在我们的模型,命中划伤共享空间并不慢普通编辑和编译不慢划伤空间接入。我们发现,分离是否服务工作,但它是在成本上升的脆弱,因为该系统是相互依存的,当一个失败,他们都有问题。我们已制定解决这些问题,但这种分工的服务应该是经过精心策划和一般受益裁员时,是可行的。给予无限的资金,我们可能会提出最nfs的服务,电器设备类等netapp的文件服务器。

370节点配置管理

自节点一般多于其他一切,对系统效率的配置管理是必不可少的。许多系统安装作业系统,每个节点配置节点特定部分的手动安装。其他系统开机网络节点使用etherboot , pxe技术或linuxbios 。关键是用好权力集中和自动化。我们看到很多地方集群节点从来没有更新亟需因为建筑师穷人作出选择了升级节点不切实际的。

节点配置管理可能是最独特的部分院士的建筑。我们先从基本freebsd的无盘启动进程[ perlstein ] 。然后,我们使用无盘寂寞支持摩/等作为/ conf /基/等,并凌驾的ssh钥匙对节点。许多应用,这种配置就足够了。不过,我们已申请需要大量的本地空间划痕。因此,每个节点包含一个磁盘。通常的处理方式等磁盘将手动创建适当目录结构上的磁盘时,该系统是首次安装,然后让山节点和fsck盘每次开机了。我们认为这是不切实际的,因为节点通常安装在大群体。此外,我们希望能够重新磁盘随操作系统。代替手工磁盘配置,我们创造了一个程序( diskmark ),其中使用了一个无效的条目在mbr的分区表存放一个幻数和版本较目前分割计划。开机时,我们用一个脚本执行前体rc.diskless2审查这个条目看,如果当前布局磁盘,是一个需要。如果不是,无盘脚本自动使用华纳losh的diskprep脚本来初始化磁盘,根据我们的要求。


表5 :样本节点(又名r01n01 10.5.1.1 )摩结构
mountpoint源
/ frodo : / nodedata/roots/freebsd/4.8-stable
/ conf /基/等frodo : / nodedata/roots/freebsd/4.8-stable/etc
/等mfs
/ usr /航空frodo : / nodedata / usr.aero
/川芎嗪/ dev/ad0s2a
/无功/ dev/ad0s2d
/家庭团契: /首页
/刮嘎姆吉: /划痕
/分贝嘎姆吉: /分贝
/阿德瓦mfs


与此配置,加入节点是非常容易的。基本程序是锚杆成机架,其中钩起来,并把他们的。接着,我们获得mac地址从交换机的管理控制台和它添加到的dhcp配置,使每个节点分配一个众所周知ip地址。后运行一个脚本告诉约调度节点和重启等,他们都愿意使用。

维修的netboot形象是由交chrooting到根的安装及以下的标准程序,以提升作业系统和港口需要。为操作系统升级,我们拷贝整个根到一个新的定位,提升它,并测试了几个节点,然后修改dhcp来配置所有节点和重启它们利用新根。我们安装软件可通过收集港口经标准工艺和管理,它与 portupgrade 。软件所不具备的港口集装在单独/ usr /航空等级。

其中一部分网络孕穗金的节点尚未制定出计划,是 bios的支持pxe技术。 pxe技术是一个标准的功能服务器级主机板,但似乎是不善测试厂商。不止一次,我们的供应商不得不回到主机板制造到他们创造一个新的bios定pxe技术问题。我们已经找到pxe技术可有点靠不住几乎所有平台,偶尔开机,由网络没有明显的理由,然后回落到磁盘是配置不开机。其中一些问题,似乎应该引起互动网络交换机,特别是思科交换机。最近,我们一直在努力增强版diskprep这将使我们创造一个上freedos隔墙,将自动重新启动机器,并赋予了它无限retries在pxe技术孕穗。

3.8作业调度

调度是一个潜在的最复杂的和有争议的问题,所面临的一组建筑。主要调度方案运行无任何调度,调度手册,分批排队,并具体域调度。

在小环境中的用户有兼容的目标,不具有调度和公正,让用户运行他们想要什么时,他们想要沟通或与对方进行波段后备资源作为必要的,可以很好的解决办法。它很少行政开销,而且在许多情况下,它只是作品。

大集群,某种形式的调度通常要求。即使用户没有冲突的目标,很难试着找出节点上运行时,有数十或数百个数字。此外,许多集群有多种用途,必须平衡。在许多环境中,一批排队的答案。一些存在的,包括openpbs , pbspro ,孙格引擎( sge ),液体发酵,钙,宿舍。这些系统通常包括调度,但其中许多还支持运行毛伊回填日程之上。 openpbs sge和免费开放源码应用是最热门的选择,集群调度。

对于一些申请,分批排队,是不是一个好的答案。这通常是因为应用需要太多的职位大部分分批排队制度,以跟上或因运行职位太变是有益的。比如,我们听到一个计算生物学中的应用,其中贯穿着数以万计的测试用例一天哪里最需几秒钟,但有些可能采取分钟,小时,或几天内完成。在这些情况下,一个域的具体日程往往是必要的。一个共同的解决办法是商店个案数据库,并已申请对每个节点,查询数据库,为一个工作组,处理,存储,结果在数据库中,并重复。

关于奖学金,我们有一个广阔的组合应用不等太大scheduleable 任务申请未知运行时间。我们目前的策略是,实施一批排队的一个长远目标,发现一个处理方法很长的运行应用。我们最初打算开办热门openpbs调度,因为它已经有了一个以港口和freebsd的,它是一个开放源码的。不幸的是,我们发现了openpbs稳定的重大问题,下了freebsd (以及许多账户,大部分其他操作系统) 2 。约时间,我们都准备放弃openpbs , sun发布sge作为开源。在freebsd不支持最初的,但我们能够成功地完成一个港口基于一些补丁张贴到邮件列表。我们自认为有助于港口回主sge源树。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP