<div dir="ltr">Can you ssh into the node and check the actual availability of memory? Maybe there is a zombie process (or a healthy one with a memory leak bug) that's hogging all the memory?</div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Thu, May 25, 2023 at 7:31 AM Roger Mason <<a href="mailto:rmason@mun.ca">rmason@mun.ca</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Hello,<br>
<br>
Doug Meyer <<a href="mailto:dameyer99@gmail.com" target="_blank">dameyer99@gmail.com</a>> writes:<br>
<br>
> Could also review the node log in /varlog/slurm/ .  Often sinfo -lR will tell you the cause, fro example mem not matching the config.<br>
><br>
REASON               USER         TIMESTAMP           STATE  NODELIST <br>
Low RealMemory       slurm(468)   2023-05-25T09:26:59 drain* node012 <br>
Not responding       slurm(468)   2023-05-25T09:30:31 down*<br>
node[001-003,008]<br>
<br>
But, as I sail in my response to Ole, the memory in slurm.conf and in<br>
the 'show node' output match.<br>
<br>
Many thanks for the help.<br>
<br>
Roger<br>
<br>
</blockquote></div>