<div dir="ltr">I moved two nodes to another controller and the two nodes will not come out of the drain state now.  I've rebooted the hosts but they are still stuck in the drain state.  There is nothing in the location given for saving state so I can't understand why a reboot doesn't clear this.<div><br></div><div>Here's the node state:</div><div><br></div><div>$ scontrol show node slurmnode1<br></div><div>NodeName=slurmnode1 Arch=x86_64 CoresPerSocket=8 <br>   CPUAlloc=0 CPUTot=16 CPULoad=0.58<br>   AvailableFeatures=(null)<br>   ActiveFeatures=(null)<br>   Gres=gpu:gp100:4<br>   NodeAddr=slurmnode1 NodeHostName=slurmnode1 Version=19.05.4<br>   OS=Linux 5.3.0-28-generic #30~18.04.1-Ubuntu SMP Fri Jan 17 06:14:09 UTC 2020 <br>   RealMemory=47671 AllocMem=0 FreeMem=46385 Sockets=1 Boards=1<br>   State=DOWN*+DRAIN ThreadsPerCore=2 TmpDisk=0 Weight=1 Owner=N/A MCS_label=N/A<br>   Partitions=debug <br>   BootTime=2020-02-06T13:48:25 SlurmdStartTime=2020-02-06T13:48:31<br>   CfgTRES=cpu=16,mem=47671M,billing=16<br>   AllocTRES=<br>   CapWatts=n/a<br>   CurrentWatts=0 AveWatts=0<br>   ExtSensorsJoules=n/s ExtSensorsWatts=0 ExtSensorsTemp=n/s<br>   Reason=none [dean@2020-02-06T13:38:13]<br><br></div><div><br></div><div>The nodes are also sending the controller an error nearly every second while the slurmds are running:</div><div><br></div><div>error: _slurm_rpc_node_registration node=slurmnode2: Invalid argument<br></div><div><br></div><div>I did have to open up the slurm ports on the network after moving these two nodes to the new controller since the nodes are wired while the controller is wireless, but there seems to be two way communication.</div><div><br></div><div>Any ideas what the problem is?</div></div>