免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: komi
打印 上一主题 下一主题

在AS4下安装过OSCAR的朋友请进 [复制链接]

论坛徽章:
0
11 [报告]
发表于 2006-04-29 21:37 |只看该作者
看你的图, 这几个肯定有问题

1. nfs.  你最好不要把 head node的 /home  export出去,我从来从来没有做过这样的配置,这样做是否会有问题?

一般head node 为了给compute node提供一个 统一的home, 一般是  mkdir -p /exports/home 然后 把这个目录share出去的

另外,你可以把compute node boot起来,然后手工 mount -t nfs 你的headnode, 至少你  exportfs  headnode:/path 测试一下吧

2. 你的ssh肯定没有配置正确.

你看script跑的时候,明显是去ssh  oscartst这个用户的 node01 node02.

所以你要确认

a.  所有node的/etc/hosts 里面 写的是正确的配置比如这样

127.0.0.1   localhost   

192.168.0.21  node01
192.168.0.22  node02

192.168.0.33  head

一定要保持 /etc/hosts文件的干净,不需要的条目都删除干净.

b. 你要login 系统的使用用 oscartst,然后确认你在你的 export出去的 home目录了(这就要求你的nis首先配置正确), 然后你用这个用户 ssk-keygen的时候,不要输passphase
生成完了后,你的这个用户应该从compute node上login之后,也能够看到刚刚生成的那个.ssh和下面的配置.
这种配置和我们做HA集群的时候设置 ssh的方式是很不一样的.   你要习惯hpc集群中“大家有一个共同的家"  :">>>>

ssh 配置完成后,你要么作ssh 等效性操作,要么就手工从任何一个节点向自己以及其他node ssh 一次,这样knowhost就会有记录了.

3. 你看你的图,ganglia 也pass失败了,这个也是对第二点的佐证

4.  看你后面MPI的提示, 真的可怜.  

加油.

论坛徽章:
0
12 [报告]
发表于 2006-05-07 20:17 |只看该作者
五一假期结束 回来继续做论文
回nntp老师的问题

1. nfs.  我  mkdir -p /exports/home 然后 把这个目录share出去的
使用开机自动挂载 这个测试了 没问题 似乎前面要挂载的/home 并非是这个
这个是疑问之一

2. 疑问之二 我的ssh肯定是配置正确了的 要不然安装过程中安装server的时候会不断的提示要输密码的 root的没有问题 我重做了系统 设置了用户oscartst 也设置好ssh了 但是 我完成了cluster的client的安装后 那个oscartst的帐户 居然不能正常登陆 说他的/home目录不存在让我试着用root的home目录登陆 紧接着就是失败  没安装前 我试着用此帐户来回ssh head与node之间毫无问题的

我已经确认

所有node的/etc/hosts 里面 写的是正确的配置
类似如下的 均由安装oscar时系统自动填写的
127.0.0.1   localhost   

192.168.0.21  node01
192.168.0.22  node02

192.168.0.33  head



b login的问题 oscartst这个帐户都不能登陆了 login就无从说起了
另外 moniter的那个工具还是扫不出来节点机的系统信息
搜集mac地址的时候非要自己手动去扫描下所要搜寻节点机的端口 才会立刻显示出其mac地址

我现在怀疑不是设置问题 而是系统问题了 是不是和ia64有关 还是别的什么

望nntp老师指点

论坛徽章:
0
13 [报告]
发表于 2006-05-08 02:47 |只看该作者
Hi,

home这里我感觉好像还是不太清楚.

head node 上的一个local dir, 比如 /exports/home 需要用nfs export 出去

所有其他的comput node的 /etc/fstab 需要有一条把  head:/exports/home  /home  的配置

所有的MPI操作的过程是这样的

user login head node -> 从head node上运行scheduler或者直接mpirun -> scheduler/mpirun 会用这个用户的账户,通过NIS认证,访问compute node -> compute node得到这个来自这个用户帐户的访问请求后,通过yp(nis)到head node上去验证,验证通过后,就放他进来,进来后,就好比一个本地账户-> 既然是当作一个本地账户,这个用户就会有自己的家目录-->这个时候comput node的 /home 实际上是 head node的/exports/home, 所以这个账户环境其实还是在head上.

一般我们会从head node上放出去2个nfs share
head:/exports/home    /home
head:/opt/hpc      /opt/hpc

前面一个是必备的,后面一个共享的目的是把所有的需要的软件比如mpich, compiler, utility, tuning program, demo codes都放到这个目录下面共享出去
这样你在写scheduler(PBS/SGE)的作业脚本的时候,就比较容易了.

你的ssh 配置以及第一次的从head到compute node的访问,一定要在 home目录都mount上的前提下作,否则的话你的ssh key/know_hosts 就会被保存到mount之前的compute node的/home目录下面,等到你nis/nfs起来后,shared fs 一旦挂上,之前作的就被掩盖了.自然就会出现你的ssh 之前ok,之后不通的状况.

论坛徽章:
0
14 [报告]
发表于 2006-05-08 11:01 |只看该作者
nntp 老师
我刚把head的/home/oscartst share到node上去了
这样ssh的问题是解决了 密码提示都消失了 可是那个可恶的/home mount怎么还是失败
我按照你讲的方式在客户端上挂载起home之后在node使用ssh 登陆head了能直接使用oscartst帐户登陆不输密码 但是测试的时候ssh server->node 还是不行  只是先前的那种需要输密码来回验证的东西消失了 这个应该是ssh已经成功的建立了吧 yp我在节点上test过了也是用的tst帐户 没有问题的
ganglia还是继续出错 不知道还要挂载上那些 我晕头转向了~~
PS:head上面的那个systemimage是不是也需要共享出去 好像node上面没有相关的东西的


[ 本帖最后由 komi 于 2006-5-8 11:50 编辑 ]

1.png (32.19 KB, 下载次数: 28)

1.png

论坛徽章:
0
15 [报告]
发表于 2006-05-08 12:41 |只看该作者
仔细阅读 nfs和nis 配置, 先不要管ganglia之类的东西.

/home一定要mount上的.

你准备一共弄多少节点? 节点数不超过 32个的话,就用rocks吧,我看你linux不是很熟悉,这样搞下去太浪费时间了.

论坛徽章:
0
16 [报告]
发表于 2006-05-10 11:02 |只看该作者
用不了rocks  555555555      安装完rocks的时候提示 rocks distribution is not ready google了一下只有提问没有回答  还是回头来继续oscar吧 nntp大人 谢谢你这么久以来提供的帮助

论坛徽章:
0
17 [报告]
发表于 2006-05-10 14:34 |只看该作者
我的testing server们 都在跑测试,好几天了还没有结束,所以暂时不能腾开帮你。不过我觉得问题的根源应该很清楚了,nfs/nis.

mpich跑的时候,不管是运行程序还是ssh login,前提是每个node的home已经yp 都配置正确了,否则mpirun的时候,过去的那个执行操作找不到自己的家,也就找不到任何运行环境.

换Rocks吧.(个人建议)

论坛徽章:
0
18 [报告]
发表于 2006-05-10 16:54 |只看该作者
我安装rocks 还是装不上去呢 安装进行到insert-ethers 显示rocks distribution is not ready
能试的法子都试了 还是不能跳过这个错误的
我还是回头把oscar搞定吧 但愿时间来的及
我现在花时间弄弄nfs/nis  个人觉得nis设定应该是过关了吧 关键是nfs的问题
主机做镜像完毕之后节点机并没有像手册上说的那样自动拷镜像文件 这个应该就是那些错误的根源吧
还是感谢 nntp 大人在百忙之中抽时间出来解决我这个愚笨的学生的问题
我继续努力 争取能把oscar搞定

论坛徽章:
0
19 [报告]
发表于 2006-05-11 00:16 |只看该作者
你rocks  在head node安装的时候,roll你加入了几个?嘿嘿, 你不会是漏掉了 os1 os2两个roll吧?

论坛徽章:
0
20 [报告]
发表于 2006-05-11 09:52 |只看该作者

回复 19楼 nntp 的帖子

我都roll了 没有露掉任何一个 我用google搜索了 那个错误 有几个人都有类似的提问 都是装不成功 但都没有人回答解决办法 看来是rp问题了 所以我才回头继续oscar的
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP