<div dir="ltr">I went through the exercise of making the other user the same on the slurmctld as on the slurmd nodes, but that had no effect.  I still have 3 nodes that have connectivity and one node where slurmd cannot contact slurmctld.  That node has ssh connectivity to and from slurmctld node, but no slurm communication.<div><br></div><div>It's time to reformat the drive and start over.<br><div><br></div></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Thu, Apr 23, 2020 at 12:34 AM Gennaro Oliva <<a href="mailto:oliva.g@na.icar.cnr.it">oliva.g@na.icar.cnr.it</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Hi Dean,<br>
<br>
On Wed, Apr 22, 2020 at 07:28:15PM -0600, <a href="mailto:dean.w.schulze@gmail.com" target="_blank">dean.w.schulze@gmail.com</a> wrote:<br>
> Even for users other than slurm and munge?  It seems strange that 3 of<br>
> 4 worker nodes work with the same UIDs/GIDs as the non-working nodes.<br>
<br>
As in:<br>
<br>
<a href="https://slurm.schedmd.com/quickstart_admin.html" rel="noreferrer" target="_blank">https://slurm.schedmd.com/quickstart_admin.html</a><br>
<br>
Super Quick Start 1st step:<br>
<br>
Make sure the clocks, users and groups (UIDs and GIDs) are synchronized<br>
across the cluster.<br>
<br>
This is true for the slum user and the regular users running jobs.<br>
<br>
The munge user doesn't need to be the same on all the cluster:<br>
<br>
<a href="https://bugs.schedmd.com/show_bug.cgi?id=4209" rel="noreferrer" target="_blank">https://bugs.schedmd.com/show_bug.cgi?id=4209</a><br>
<br>
Best regards,<br>
-- <br>
Gennaro Oliva<br>
<br>
</blockquote></div>