<div dir="ltr">Any time a node goes into DRAIN state you need to manually intervene and put it back into service.  <div>scontrol update nodename=ip-172-31-80-232 state=resume</div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Mon, May 11, 2020 at 11:40 AM Joakim Hove <<a href="mailto:joakim.hove@gmail.com">joakim.hove@gmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div class="gmail_quote"><br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div lang="EN-US"><div><p class="MsoNormal">You’re on the right track with the DRAIN state. The more specific answer is in the “Reason=” description on the last line. </p><p class="MsoNormal">It looks like your node has less memory than what you’ve defined for the node in slurm.conf</p></div></div></blockquote><div><br></div>Thank you; that sounded meaningful to me. My slurm.conf file had RealMemory=983 whereas "slurmd -C" showed "RealMemory=978" - so you are right; the actual node had less available memory than what I configured in slurm.conf - I guess the reason for the difference is slightly different AWS nodes? Anyay I updated the slurm.conf with "RealMemory=512" - i.e. with a wide margin less than the what the node actually has. After restarting slurmctld / slurmd I now get:<br></div><div class="gmail_quote"><br></div><div class="gmail_quote" style="margin-left:40px">ubuntu@ip-172-31-80-232:~/opm-portal/aws$ scontrol show node<br>NodeName=ip-172-31-80-232 Arch=x86_64 CoresPerSocket=1<br>   CPUAlloc=0 CPUErr=0 CPUTot=1 CPULoad=0.00<br>   AvailableFeatures=(null)<br>   ActiveFeatures=(null)<br>   Gres=(null)<br>   NodeAddr=ip-172-31-80-232 NodeHostName=ip-172-31-80-232 Version=17.11<br>   OS=Linux 5.3.0-1017-aws #18~18.04.1-Ubuntu SMP Wed Apr 8 15:12:16 UTC 2020 <br>   RealMemory=512 AllocMem=0 FreeMem=254 Sockets=1 Boards=1<br>   State=IDLE+DRAIN ThreadsPerCore=1 TmpDisk=0 Weight=1 Owner=N/A MCS_label=N/A<br>   Partitions=debug <br>   BootTime=2020-05-11T17:02:15 SlurmdStartTime=2020-05-11T18:29:30<br>   CfgTRES=cpu=1,mem=512M,billing=1<br>   AllocTRES=<br>   CapWatts=n/a<br>   CurrentWatts=0 LowestJoules=0 ConsumedJoules=0<br>   ExtSensorsJoules=n/s ExtSensorsWatts=0 ExtSensorsTemp=n/s<br>   Reason=Low RealMemory [root@2020-05-11T16:20:02]</div><div class="gmail_quote"><br></div><div class="gmail_quote">I.e. slurm has recognized the new memory setting, but the state is still "IDLE+DRAIN" - and no jobs start running :-(</div><div class="gmail_quote"><br></div><div class="gmail_quote"><br></div><div class="gmail_quote"><br></div><div class="gmail_quote"><br></div><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
</blockquote></div></div>
</blockquote></div>