<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=Windows-1252">
<style type="text/css">html {-webkit-touch-callout: none;-webkit-text-size-adjust: none;}body {overflow: hidden;font-family: sans-serif;font-size: 15px;line-height: 21px;margin: 8px;word-wrap: break-word;}</style>
</head>
<body style="margin-top: 8px;">
<div style="font-size:11.0pt;font-family:Calibri,Tahoma,Arial,Helvetica,sans-serif;color:black;" dir="ltr">
<br>
Hi there Slurm-experts! </div>
<div style="font-size:11.0pt;font-family:Calibri,Tahoma,Arial,Helvetica,sans-serif;color:black;" dir="ltr">
I am  trouble using or running a python-mpi program involving more than one node. The pythom-mpi program is very simple, it only lists the number of ranks that is available in its environment. I have a munge-daemon running prior to starting the slurm-service
 and the program works when using a single node (so I suppose munge is working). </div>
<div style="font-size:11.0pt;font-family:Calibri,Tahoma,Arial,Helvetica,sans-serif;color:black;" dir="ltr">
In addition, I have tested to run a simple sbatch-script where each available node (four nodes) states its hostname and returns.
</div>
<div style="font-size:11.0pt;font-family:Calibri,Tahoma,Arial,Helvetica,sans-serif;color:black;" dir="ltr">
Since authentication with Slurm is used via munge, do I need a passwordless SSH communication between the slurmctl and the nodes? (I found a guide,probably outdated stating that passwordless SSH communication is a neccessity for slurm, HTTP://admin-magazine.com/HPC/Articles/Resource-Management-with-Slurm).
</div>
<div style="font-size:11.0pt;font-family:Calibri,Tahoma,Arial,Helvetica,sans-serif;color:black;" dir="ltr">
<br>
</div>
<div style="font-size:11.0pt;font-family:Calibri,Tahoma,Arial,Helvetica,sans-serif;color:black;" dir="ltr">
I run the python-mpi program via a sbatch-script,invoking a srun-command. Each node has 8 CPUs.
</div>
<div style="font-size:11.0pt;font-family:Calibri,Tahoma,Arial,Helvetica,sans-serif;color:black;" dir="ltr">
The srun-command is : </div>
<div style="font-size:11.0pt;font-family:Calibri,Tahoma,Arial,Helvetica,sans-serif;color:black;" dir="ltr">
”srun -N2 -n8 python3 python-mpi.py” , </div>
<div style="font-size:11.0pt;font-family:Calibri,Tahoma,Arial,Helvetica,sans-serif;color:black;" dir="ltr">
when tested on two nodes.  </div>
<div style="font-size:11.0pt;font-family:Calibri,Tahoma,Arial,Helvetica,sans-serif;color:black;" dir="ltr">
It works fine running on a single node(with ”-N1” instead of ”-N2”), but it is aborted or stopped when running on two nodes.
</div>
<div style="font-size:11.0pt;font-family:Calibri,Tahoma,Arial,Helvetica,sans-serif;color:black;" dir="ltr">
Should I have ”-n16” when running on two nodes? (In order to allocate the complete number of CPUs available of the two nodes.)
</div>
<div style="font-size:11.0pt;font-family:Calibri,Tahoma,Arial,Helvetica,sans-serif;color:black;" dir="ltr">
Slurm is configured and built with pmix. </div>
<div style="font-size:11.0pt;font-family:Calibri,Tahoma,Arial,Helvetica,sans-serif;color:black;" dir="ltr">
I am running Slurm 19.05 on Ubuntu 18.04 as server and the nodes are running same slurm-version on Ubuntu 18.10.
</div>
<div style="font-size:11.0pt;font-family:Calibri,Tahoma,Arial,Helvetica,sans-serif;color:black;" dir="ltr">
<br>
</div>
<div style="font-size:11.0pt;font-family:Calibri,Tahoma,Arial,Helvetica,sans-serif;color:black;" dir="ltr">
Best rehards, </div>
<div style="font-size:11.0pt;font-family:Calibri,Tahoma,Arial,Helvetica,sans-serif;color:black;" dir="ltr">
<br>
</div>
<div style="font-size:11.0pt;font-family:Calibri,Tahoma,Arial,Helvetica,sans-serif;color:black;" dir="ltr">
Palle  </div>
</body>
</html>