<div dir="ltr">Hello slurm users,<br><div><br></div><div>I forgot to mention that an identical interactive job works successfully on the gpu partitions (in the same cluster). So this is really puzzling.</div><div><br></div><div>Best,</div><div><div style="color:rgb(0,0,0)">Durai Arasan</div><div style="color:rgb(0,0,0)">MPI Tuebingen</div></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Thu, Jan 20, 2022 at 3:40 PM Durai Arasan <<a href="mailto:arasan.durai@gmail.com">arasan.durai@gmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div>Hello Slurm users,<br></div><div><br></div><div>We are suddenly encountering strange errors while trying to launch interactive jobs on our cpu partitions. Have you encountered this problem before? Kindly let us know.</div><div><br></div>[darasan84@bg-slurmb-login1 ~]$ srun --job-name "admin_test231" --ntasks=1 --nodes=1 --cpus-per-task=1 --partition=cpu-short --mem=1G  --nodelist=slurm-cpu-hm-7 --time 1:00:00 --pty bash<br>srun: error: Task launch for StepId=1137134.0 failed on node slurm-cpu-hm-7: Communication connection failure<br>srun: error: Application launch failed: Communication connection failure<br>srun: Job step aborted: Waiting up to 32 seconds for job step to finish.<br>srun: error: Timed out waiting for job step to complete<br><div><br></div><div>Best regards,</div><div>Durai Arasan</div><div>MPI Tuebingen</div></div>
</blockquote></div>