<div dir="ltr"><div>We're running slurm-17.11.12 on Bright Cluster 8.1 and our node002 keeps going into a draining state:</div><div> sinfo -a<br>PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST<br>defq*        up   infinite      1   drng node002<br></div><div><br></div><div><font face="monospace">info -N -o "%.20N %.15C %.10t %.10m %.15P %.15G %.35E"<br>            NODELIST   CPUS(A/I/O/T)      STATE     MEMORY       PARTITION            GRES                              REASON<br>             node001       9/15/0/24        mix     191800           defq*           gpu:1                                none<br>             node002       1/0/23/24       drng     191800           defq*           gpu:1 gres/gpu count changed and jobs are<br>             node003       1/23/0/24        mix     191800           defq*           gpu:1                                none<br></font></div><div><br></div><div>Node of the nodes have a separate slurm.conf file, it's all shared from the head node. What else could be causing this?</div><div><br></div><div><span style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px">[2020-03-13T07:14:28.590] gres/gpu: count changed for node node002 from 0 </span><span style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px">to 1</span><br style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px"><span style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px">[2020-03-13T07:14:28.590] error: _slurm_rpc_node_registration node=node002: </span><span style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px">Invalid argument</span><br style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px"><span style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px">[2020-03-13T07:14:28.590] error: Node node001 appears to have a different </span><span style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px">slurm.conf than the slurmctld. This could cause issues with communication </span><span style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px">and functionality. Please review both files and make sure they are the </span><span style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px">same. If this is expected ignore, and set  DebugFlags=NO_CONF_HASH in your</span><br style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px"><span style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px">slurm.conf.</span><br style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px"><span style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px">[2020-03-13T07:14:28.590] error: Node node003 appears to have a different </span><span style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px">slurm.conf than the slurmctld. This could cause issues with communication </span><span style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px">and functionality. Please review both files and make sure they are the </span><span style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px">same. If this is expected ignore, and set DebugFlags=NO_CONF_HASH in your </span><span style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px">slurm.conf.</span><br style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px"><span style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px">[2020-03-13T07:47:48.787] error: Node node001 appears to have a different </span><span style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px">slurm.conf than the slurmctld. This could cause issues with communication </span><span style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px">and functionality. Please review both files and make sure they are the </span><span style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px">same. If this is expected ignore, and set DebugFlags=NO_CONF_HASH in your </span><span style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px">slurm.conf.</span><br style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px"><span style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px">[2020-03-13T07:47:48.787] error: Node node003 appears to have a different </span><span style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px">slurm.conf than the slurmctld. This could cause issues with communication </span><span style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px">and functionality. Please review both files and make sure they are the </span><span style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px">same. If this is expected ignore, and set DebugFlags=NO_CONF_HASH in your </span><span style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px">slurm.conf.</span><br style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px"><span style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px">[2020-03-13T07:47:48.788] gres/gpu: count changed for node node002 from 0 </span><span style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px">to 1</span><br style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px"><span style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px">[2020-03-13T07:47:48.788] error: _slurm_rpc_node_registration node=node002:</span><br style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px"><span style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px">Invalid argument </span><span style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px">[2020-03-13T08:21:08.057] error: Node node001 appears to have a different </span><span style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px">slurm.conf than the slurmctld. This could cause issues with communication </span><span style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px">and functionality. Please review both files and make sure they are the </span><span style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px">same. If this is expected ignore, and set DebugFlags=NO_CONF_HASH in your </span><span style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px">slurm.conf.</span><br style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px"><span style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px">[2020-03-13T08:21:08.058] error: Node node003 appears to have a different </span><span style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px">slurm.conf than the slurmctld. This could cause issues with communication </span><span style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px">and functionality. Please review both files and make sure they are the </span><span style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px">same. If this is expected ignore, and set DebugFlags=NO_CONF_HASH in your </span><span style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px">slurm.conf.</span><br style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px"><span style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px">[2020-03-13T08:21:08.058] gres/gpu: count changed for node node002 from 0 </span><span style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px">to 1</span><br style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px"><span style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px">[2020-03-13T08:21:08.058] error: _slurm_rpc_node_registration node=node002: </span><span style="color:rgb(102,102,102);font-family:Roboto,RobotoDraft,Helvetica,Arial,sans-serif;font-size:14px">Invalid argument</span>  <br></div></div>