免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3974 | 回复: 1
打印 上一主题 下一主题

rocks cluster下mpich2的配置问题,急!!!! [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2010-10-29 19:24 |只看该作者 |倒序浏览
学校新买的服务器,安装rocks5.3,
在设置方面我是个菜鸟,在安装MPICH2的时候找个一个安装方法如下:
一、创建SSH信任连接(在root目录下)

1、更改/etc/hosts文件
#vi /etc/hosts 打开hosts文件,更改如下:

127.0.0.1 localhost.localdomain localhost
node01的IP scc-m
node01的IP node01
node02的IP node02
node03的IP node03
node04的IP node04

2、在node01生成SSH秘钥对.
#ssh-keygen -t rsa 一路回车即可
产生.ssh文件,
#ls -a 查看是否有.ssh文件夹

3、进入.ssh目录
#cd .ssh

4、生成authorized_keys文件
#cp id_rsa.pub authorized_keys

5、退出到root目录
#cd ..

6、建立本身的信任连接
#ssh node01 按提示输入yes(三个字母要打全)

7、设置node02(node02的root目录下)
#ssh-keygen -t rsa 生成.ssh文件夹
#scp node01的IP:/root/.ssh/* /root/.ssh 拷贝node01上的.ssh文件夹覆盖本地的
#scp node01的IP:/etc/hosts /etc/hosts  拷贝node01上的hosts文件覆盖本地的
#ssh node01 提示处输入yes回车

设置node03,node04的方法与node02相同

8、确认四台机器的信任连接已建立
对每个节点执行:
#ssh node01
#ssh node02
#ssh node03
#ssh node04
在提示处输入yes回车,最后确定无需输入密码并且没有任何提示信息即可登陆("Last login:时间日期"提示信息除外)


二、安装MPICH2(在节点root目录下)

1、解压缩
#tar -zxvf mpich2-1.0.1.tar.gz
或者 #gunzip -c mpich2-1.0.1.tar.gz|tar xf mpich2-1.0.1.tar

2、创建安装目录
#mkdir /usr/MPICH-instsll

3、进入mpich2解压目录
#cd mpich2-1.0.1

4、设置安装目录
#./configure --prefix=/usr/MPICH-install

5、编译
#make

6、安装
#make install

7、退出到root目录
#cd ..

8、通过编辑.bashrc文件修改环境变量
#vi .bashrc
修改后的.bashrc文件如下:

# .bashrc

# User specific aliases and functions

alias rm='rm -i'
alias cp='cp -i'
alias mv='mv -i'

PATH="$PATH:/usr/MPICH-install/bin" 新增加的

#Source global definitions
if [ -f /etc/bashrc ]; then
. /etc/bashrc
fi

9、测试环境变量设置
#which mpd
#which mpicc
#which mpiexec
#which mpirun

10、修改/etc/mpd.conf文件,内容为secretword=myword
#vi /etc/mpd.conf

设置文件读取权限和修改时间
#touch /etc/mpd.conf
#chmod 600 /etc/mpd.conf

11、创建主机名称集合文件/root/mpd.hosts
#vi mpd.hosts

文件内容如下:
node01
node02
node03
node04

三、测试

1、本地测试
#mpd & 启动
#mpdtrace 观看启动机器
#mpdallexit 退出

2、通过mpd.hosts运行集群系统
#mpdboot -n number -f mpd.hosts number为要起动的机器个数
#mpdtrace
#mpdallexit

在运行mpdboot -n 3 -f mpd.hosts(机器上有9个节点)出了问题如下:
mpdboot_cluster.bjtu.edu (handle_mpd_output 420): from mpd on compute-0-1, invalid port info:
no_port

[1]+  Done                    mpd     

请高手帮帮忙看看是哪出问题了,小弟不胜感激.

论坛徽章:
0
2 [报告]
发表于 2010-10-29 22:23 |只看该作者
1。 可能是SSH在HEADNODE 和节点之间没通
2。 关闭IPTABLES: service iptables stop
3.   Please use normal user to launch mpdboot -n 3 -f mpd.hosts:
  a. su - <normaluser>
  b. ssh can login to compute node without password.
  c. mpd.conf should be created in normal user home directory with 600 permission
  d. use full host name in mpd.hosts
  e. mpdboot -n <nodeNum> -f mpd.hosts &
  f. mpdtrace -l to test if it can list node
  g. then you can run job via mpich2.

Maybe these advices can help you.

-Qi
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP