- 论坛徽章:
- 0
|
尝试组建一个集群(系统centos6.5),按照网上的安装过程http://blog.csdn.net/educast/article/details/7168467,安装了Torque2.5.13和Maui3.3.1,并且参考了南开大学张鋆的集群构建教程,安了了mpiexec 0.84替代pbs_sched.
在主机root下将pbs_server,pbs_mom,maui都正常启动了,子节点上pbs_mon也正常启动了。 pbsnodes可以看到各个节点的情况。
但是测试一个任务时$ qsub submit.pbs, terminal下没有出错信息,但是result文件是空的。查看了first_task.o0,发现里面有出错信息
/usr/local/sbin/pbs_iff: error while loading shared libraries: libimf.so: cannot open shared object file: No such file or directory
mpiexec: Error: get_hosts: pbs_connect: Unauthorized Request .
查找libimf.so,发现在/opt/intel/composer_xe_2013.3.163/compiler/lib/intel64,/opt/intel/composer_xe_2013.3.163/compiler/lib/ia32,/opt/intel/composer_xe_2013.3.163/compiler/lib/mic里面都有,尝试将他们都在/etc/profile和/etc/bashrc里面添到到LD_LIBRARY_PATH,并且source了一下。但是仍然没决决问题。
其实这 个libimf.so找到到,还发生在$sudo /etc/init.d/pbs_server start时。只有在su登录后,才能正常启动。
[root@magnetics weitong]# /etc/init.d/pbs_server start
/var/spool/torque/server_priv/serverdb
Starting TORQUE Server: [确定]
[weitong@magnetics ~]$ sudo /etc/init.d/pbs_server start
[sudo] password for weitong:
/var/spool/torque/server_priv/serverdb
Starting TORQUE Server: /usr/local/sbin/pbs_server: error while loading shared libraries: libimf.so: cannot open shared object file: No such file or directory
[失败]
*附***submit.pbs*****
#!/bin/sh
#PBS -l nodes=mag02:ppn=8+magnetics:ppn=8 (使用mag02上8个CPU和magnetics上8个CPU)
#PBS -q batch
#PBS -j oe
#PBS -N first_task (任务名字,随便取)
cd /home/weitong
/usr/local/mpitorque/bin/mpiexec ./Work/Computing/hellocluster > result |
|