<div dir="ltr">I've got a node running on CentOS 7.7 build from the recent 20.02.0pre1 code base.  It's behavior is strange to say the least.<div><br></div><div>The controller was built from the same code base, but on Ubuntu 19.10.  The controller reports the nodes state with sinfo, but can't run a simple job with srun because it thinks the node isn't available, even when it is idle.  (And squeue shows an empty queue.)</div><div><br></div><div>On the controller:</div><div>$ srun -N 1 hostname<br>srun: Required node not available (down, drained or reserved)<br>srun: job 30 queued and waiting for resources<br>^Csrun: Job allocation 30 has been revoked<br>srun: Force Terminated job 30<br>$ sinfo<br>PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST <br>debug*       up   infinite      1  idle* liqidos-dean-node1 <br><div>$ squeue<br>             JOBID  PARTITION      USER  ST        TIME   NODES NODELIST(REASON) <br></div><div><br></div><div><br></div><div>When I try to run the simple job on the node I get:</div><div><br></div><div>[liqid@liqidos-dean-node1 ~]$ sinfo<br>PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST <br>debug*       up   infinite      1  idle* liqidos-dean-node1 <br>[liqid@liqidos-dean-node1 ~]$ srun -N 1 hostname<br>srun: Required node not available (down, drained or reserved)<br>srun: job 27 queued and waiting for resources<br>^Csrun: Job allocation 27 has been revoked<br>[liqid@liqidos-dean-node1 ~]$ squeue<br>             JOBID  PARTITION      USER  ST        TIME   NODES NODELIST(REASON) <br>[liqid@liqidos-dean-node1 ~]$ srun -N 1 hostname<br>srun: Required node not available (down, drained or reserved)<br>srun: job 28 queued and waiting for resources<br>^Csrun: Job allocation 28 has been revoked<br>[liqid@liqidos-dean-node1 ~]$ sinfo<br>PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST <br>debug*       up   infinite      1  idle* liqidos-dean-node1 <br></div></div><div><br></div><div>Apparently slurm thinks there are a bunch of jobs queued, but shows an empty queue.  How do I get rid of these?</div><div><br></div><div>If these zombie jobs aren't the problem what else could be keeping this from running?</div><div><br></div><div>Thanks.</div></div>