<div dir="ltr">The problem turned out to be that I had Gres=gpu:gp100:1 on the NodeName line for that node and it didn't have a gpu or a gres.conf.  Once I moved that to the correct NodeName line in slurm.conf that node came out of the drain state and became usable again.<div><br></div><div>Pretty strange that having a Gres= property on a node that doesn't have a gpu would get it stuck in the drain state.</div><div><br></div><div><br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Thu, Jan 23, 2020 at 2:34 PM Alex Chekholko <<a href="mailto:alex@calicolabs.com">alex@calicolabs.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr">Hey Dean,<div><br></div><div>Does 'scontrol show node <nodename' give any "Reason:"?  You can also look at 'sinfo -R'.</div><div><br></div><div>Make sure the relevant network ports are open:</div><div><a href="https://wiki.fysik.dtu.dk/niflheim/Slurm_configuration#configure-firewall-for-slurm-daemons" target="_blank">https://wiki.fysik.dtu.dk/niflheim/Slurm_configuration#configure-firewall-for-slurm-daemons</a><br></div><div><br></div><div>Also check that slurmd daemons on the compute nodes can talk to each other (not just to the master). e.g. bottom of <a href="https://slurm.schedmd.com/big_sys.html" target="_blank">https://slurm.schedmd.com/big_sys.html</a></div><div><br></div><div>Regards,</div><div>Alex</div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Thu, Jan 23, 2020 at 1:05 PM Dean Schulze <<a href="mailto:dean.w.schulze@gmail.com" target="_blank">dean.w.schulze@gmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr">I've tried the normal things with scontrol (<a href="https://blog.redbranch.net/2015/12/26/resetting-drained-slurm-node/" target="_blank">https://blog.redbranch.net/2015/12/26/resetting-drained-slurm-node/</a>), but I have a node that will not come out of the drain state.<div><br></div><div>I've also done a hard reboot and tried again.  Are there any other remedies?</div><div><br></div><div>Thanks.</div></div>
</blockquote></div>
</blockquote></div>