<div dir="ltr"><div dir="ltr"><div><div>Yes, dynamic DNS.<br></div></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Tue, Oct 25, 2022 at 2:17 PM Meaden, Xand <<a href="mailto:xand.meaden@kcl.ac.uk">xand.meaden@kcl.ac.uk</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">



<div>
<div style="color:rgb(33,33,33);background-color:rgb(255,255,255)" dir="auto">
The nodes are being removed as they aren't resolving in DNS anymore; are you using a dynamic system where only active hosts' names resolve?</div>
<div style="color:rgb(33,33,33);background-color:rgb(255,255,255)" dir="auto">
<br>
</div>
<div style="color:rgb(33,33,33);background-color:rgb(255,255,255)" dir="auto">
Xand</div>
<div id="m_2282697107995948050ms-outlook-mobile-signature" dir="auto">
<div dir="auto"><br>
</div>
</div>
<hr style="display:inline-block;width:98%">
<div id="m_2282697107995948050divRplyFwdMsg" dir="ltr"><font face="Calibri, sans-serif" style="font-size:11pt" color="#000000"><b>From:</b> slurm-users <<a href="mailto:slurm-users-bounces@lists.schedmd.com" target="_blank">slurm-users-bounces@lists.schedmd.com</a>> on behalf of Joe Teumer <<a href="mailto:joe.teumer@gmail.com" target="_blank">joe.teumer@gmail.com</a>><br>
<b>Sent:</b> Tuesday, October 25, 2022 7:42:16 PM<br>
<b>To:</b> <a href="mailto:slurm-users@schedmd.com" target="_blank">slurm-users@schedmd.com</a> <<a href="mailto:slurm-users@schedmd.com" target="_blank">slurm-users@schedmd.com</a>><br>
<b>Subject:</b> [slurm-users] slurmctld removing offline nodes</font>
<div> </div>
</div>
<div>
<div dir="ltr">
<div dir="ltr">
<div dir="ltr">
<div dir="ltr">
<div dir="ltr">
<div dir="ltr">
<div dir="ltr">
<div dir="ltr">
<div dir="ltr">
<div>We noticed that the slurm controller will remove nodes that it cannot reach.</div>
<div>How can this be disabled?</div>
<div>We would like to see the nodes marked down/drain instead of the controller removing the nodes from sinfo.</div>
<div><br>
</div>
<div>/var/log/slurm/slurmctld.log<br>
</div>
<div>[2022-10-25T13:10:01.500] debug:  Log file re-opened<br>
</div>
<div>[2022-10-25T13:10:01.589] error: get_addr_info: getaddrinfo() failed: Temporary failure in name resolution</div>
<div>[2022-10-25T13:10:01.589] error: slurm_set_addr: Unable to resolve "spg-ethx-f4ce"</div>
<div>[2022-10-25T13:10:01.589] error: slurm_get_port: Address family '0' not supported</div>
<div>[2022-10-25T13:10:01.589] error: _set_slurmd_addr: failure on spg-ethx-f4ce</div>
<div><br>
</div>
<div>
<div>cat /etc/slurm/slurm.conf | grep -i f4ce</div>
<div>NodeName=spg-ethx-f4ce ...<br>
</div>
</div>
<div>PartitionName=debug spg-ethx-f4ce ...<br>
</div>
<div><br>
</div>
<div>No output in sinfo:</div>
<div>sinfo -N | grep f4ce<br>
</div>
<div>sinfo -R | grep f4ce<br>
</div>
<div><br>
</div>
<div>
<div>slurmd -V</div>
<div>slurm 21.08.0</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>

</blockquote></div></div>