<html xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40"><head><meta http-equiv=Content-Type content="text/html; charset=utf-8"><meta name=Generator content="Microsoft Word 15 (filtered medium)"><style><!--
/* Font Definitions */
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        margin-bottom:.0001pt;
        font-size:11.0pt;
        font-family:"Calibri",sans-serif;}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
span.EmailStyle18
        {mso-style-type:personal-reply;
        font-family:"Calibri",sans-serif;
        color:windowtext;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-size:10.0pt;}
@page WordSection1
        {size:8.5in 11.0in;
        margin:1.0in 1.0in 1.0in 1.0in;}
div.WordSection1
        {page:WordSection1;}
--></style></head><body lang=EN-US link=blue vlink=purple><div class=WordSection1><p class=MsoNormal>You’re on the right track with the DRAIN state. The more specific answer is in the “Reason=” description on the last line. <o:p></o:p></p><p class=MsoNormal>It looks like your node has less memory than what you’ve defined for the node in slurm.conf<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>Mike<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><div style='border:none;border-top:solid #B5C4DF 1.0pt;padding:3.0pt 0in 0in 0in'><p class=MsoNormal><b><span style='font-size:12.0pt;color:black'>From: </span></b><span style='font-size:12.0pt;color:black'>slurm-users <slurm-users-bounces@lists.schedmd.com> on behalf of Joakim Hove <joakim.hove@gmail.com><br><b>Reply-To: </b>Slurm User Community List <slurm-users@lists.schedmd.com><br><b>Date: </b>Monday, May 11, 2020 at 11:25<br><b>To: </b>Slurm User Community List <slurm-users@lists.schedmd.com><br><b>Subject: </b>[External] Re: [slurm-users] Slurm queue seems to be completely blocked<o:p></o:p></span></p></div><div><p class=MsoNormal><o:p> </o:p></p></div><div style='border:solid #9C6500 1.0pt;padding:2.0pt 2.0pt 2.0pt 2.0pt'><p class=MsoNormal style='line-height:12.0pt;background:#FFEB9C'><b><span style='font-size:10.0pt;color:#9C6500'>CAUTION:</span></b><span style='font-size:10.0pt;color:black'> This email originated from outside of the Colorado School of Mines organization. Do not click on links or open attachments unless you recognize the sender and know the content is safe.<o:p></o:p></span></p></div><p class=MsoNormal><o:p> </o:p></p><div><div><p class=MsoNormal><o:p> </o:p></p><div><p class=MsoNormal>ubuntu@ip-172-31-80-232:/var/run/slurm-llnl$ scontrol show node<br>NodeName=ip-172-31-80-232 Arch=x86_64 CoresPerSocket=1<br>   CPUAlloc=0 CPUErr=0 CPUTot=1 CPULoad=0.00<br>   AvailableFeatures=(null)<br>   ActiveFeatures=(null)<br>   Gres=(null)<br>   NodeAddr=ip-172-31-80-232 NodeHostName=ip-172-31-80-232 Version=17.11<br>   OS=Linux 5.3.0-1017-aws #18~18.04.1-Ubuntu SMP Wed Apr 8 15:12:16 UTC 2020 <br>   RealMemory=983 AllocMem=0 FreeMem=355 Sockets=1 Boards=1<br>   State=IDLE+DRAIN ThreadsPerCore=1 TmpDisk=0 Weight=1 Owner=N/A MCS_label=N/A<br>   Partitions=debug <br>   BootTime=2020-05-11T17:02:15 SlurmdStartTime=2020-05-11T17:02:27<br>   CfgTRES=cpu=1,mem=983M,billing=1<br>   AllocTRES=<br>   CapWatts=n/a<br>   CurrentWatts=0 LowestJoules=0 ConsumedJoules=0<br>   ExtSensorsJoules=n/s ExtSensorsWatts=0 ExtSensorsTemp=n/s<br>   Reason=Low RealMemory [root@2020-05-11T16:20:02]<o:p></o:p></p></div><div><p class=MsoNormal><o:p> </o:p></p></div><div><p class=MsoNormal>The "State=IDLE+DRAIN" looks a bit suspicious?<o:p></o:p></p></div><div><p class=MsoNormal><o:p> </o:p></p></div><div><p class=MsoNormal><o:p> </o:p></p></div><div><p class=MsoNormal><o:p> </o:p></p></div></div><p class=MsoNormal><o:p> </o:p></p><div><div><p class=MsoNormal>On Mon, May 11, 2020 at 7:16 PM Alex Chekholko <<a href="mailto:alex@calicolabs.com">alex@calicolabs.com</a>> wrote:<o:p></o:p></p></div><blockquote style='border:none;border-left:solid #CCCCCC 1.0pt;padding:0in 0in 0in 6.0pt;margin-left:4.8pt;margin-right:0in'><div><p class=MsoNormal>You will want to look at the output of 'sinfo' and 'scontrol show node' to see what slurmctld thinks about your compute nodes; then on the compute nodes you will want to check the status of the slurmd service ('systemctl status -l slurmd') and possibly read through the slurmd logs as well.<o:p></o:p></p></div><p class=MsoNormal><o:p> </o:p></p><div><div><p class=MsoNormal>On Mon, May 11, 2020 at 10:11 AM Joakim Hove <<a href="mailto:joakim.hove@gmail.com" target="_blank">joakim.hove@gmail.com</a>> wrote:<o:p></o:p></p></div><blockquote style='border:none;border-left:solid #CCCCCC 1.0pt;padding:0in 0in 0in 6.0pt;margin-left:4.8pt;margin-right:0in'><div><div><p class=MsoNormal>Hello;<o:p></o:p></p></div><div><p class=MsoNormal><o:p> </o:p></p></div><div><p class=MsoNormal>I am in the process of familiarizing myself with slurm - I will write a piece of software which will submit jobs to a slurm cluster. Right now I have just made my own "cluster" consisting of one Amazon AWS node and use that to familiarize myself with the sxxx commands - has worked nicely.<o:p></o:p></p></div><div><p class=MsoNormal><o:p> </o:p></p></div><div><p class=MsoNormal>Now I just brought this AWS node completely to it's knees (not slurm related) and had to stop and start the node from the AWS console - during that process a job managed by slurm was killed hard. Now when the node is back up again slurm refuses to start up jobs - the queue looks like this:<o:p></o:p></p></div><div><p class=MsoNormal><o:p> </o:p></p></div><div><p class=MsoNormal>ubuntu@ip-172-31-80-232:~$ squeue<br>             JOBID PARTITION     NAME     USER ST       TIME  NODES NODELIST(REASON)<br>               186     debug tmp-file www-data PD       0:00      1 (Resources)<br>               187     debug tmp-file www-data PD       0:00      1 (Resources)<br>               188     debug tmp-file www-data PD       0:00      1 (Resources)<br>               189     debug tmp-file www-data PD       0:00      1 (Resources)<o:p></o:p></p></div><div><p class=MsoNormal><o:p> </o:p></p></div><div><p class=MsoNormal>I.e. the jobs are pending due to Resource reasons, but no jobs are running? I have tried scancel all jobs, but when I add new jobs they again just stay pending. It should be said that when the node/slurm came back up again the offending job which initially created the havoc was still in "Running" state, but the filesystem of that job had been completely wiped so it was not in a sane state. scancel of this job worked fine - but no new jobs will start. Seems like there is "ghost job" blocking the other jobs from starting? I even tried to reinstall slurm using the package manager, but the new slurm installation would still not start jobs. Any tips on how I can proceed to debug this?<o:p></o:p></p></div><div><p class=MsoNormal><o:p> </o:p></p></div><div><p class=MsoNormal>Regards<o:p></o:p></p></div><div><p class=MsoNormal><o:p> </o:p></p></div><div><p class=MsoNormal>Joakim<o:p></o:p></p></div></div></blockquote></div></blockquote></div></div></div></body></html>