<div dir="ltr"><div>Hi,</div><div><br></div><div>Does scontrol ping from the node show the slurm server up?  If so munge is fine.  Betting it is not this but it is such an easy check.</div><div>Ensure you have the same slurm.conf on master and client.</div><div>The fact you can restart the slurmd and all is well is really odd.  Suggests slurm is coming up too soon.  It is possible your system clock is not getting set to network time before slurmd starts.  I have seen this cause issues in the past.</div><div><br></div><div>Doug<br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Tue, Sep 8, 2020 at 7:13 AM Grant Campbell <<a href="mailto:grant.campbell@mythic-ai.com">grant.campbell@mythic-ai.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr">Hey,<br><br>I am running a Slurm cluster that I inherited from an employee who left, so you will have to forgive any ignorance on my part, I am still coming up to speed on some core concepts.<br><br>I have a vexing issue where one slurm node becomes unresponsive consistently. Network and DNS seem to be working fine, but the control node logs "Nodes node3 not responding, setting DOWN ". If I mark the node as RESUME it comes back up, but no jobs can be scheduled, I have to restart the slurmd process to get it to work.<br><br>I enabled debug logging on the troublesome node,  and I see it logging errors like the below near constantly:<br><br>[2020-09-08T09:02:35.189] [59921.0] error: Unable to establish controller machine<br>[2020-09-08T09:02:40.584] [59924.0] error: Unable to establish controller machine<br>[2020-09-08T09:03:02.550] [59923.extern] error: Unable to establish controller machine<br>[2020-09-08T09:03:04.537] [59921.extern] error: Unable to establish controller machine<br>[2020-09-08T09:03:09.474] [59924.extern] error: Unable to establish controller machine<div><br></div><div>This of course seems problematic, though it should be noted I do not see the logging of these errors correlate with the outage chronologically at all -- as I said, they log near constantly. <br><br>One final piece of context, this machine OOM'd last week, and this issue began after we brought it back up. As part of that process, I had to re-join it to IPA, so not sure if there is something there that could have caused this issue. <br><br>Any help or advice would be much appreciated, thanks! <br><br>Thanks!<br><br>-Grant </div></div>
</blockquote></div>