<meta http-equiv="Content-Type" content="text/html; charset=utf-8"><div dir="ltr"><div>You showed that firewalld is off, but that doesn't really prove on Centos7/RHEL7 that there is no firewall.</div><div><br></div><div>What is the output of <br></div><div><br></div><div>iptables -S</div><div><br></div><div>I'd also try doing</div><div><br></div><div># scontrol show config | grep -i SlurmdPort<br>SlurmdPort              = 6818</div><div><br></div><div>And whatever port is shown, from the compute nodes, try communicating with the other Slurmd's<br></div><div><br></div><div>e.g. from SRVGRIDSLURM01 do</div><div><br></div><div>nc -z SRVGRIDSLURM02 6818 || echo Cannot communicate</div><div>nc -z srvgridslurm03 6818 ||  echo Cannot communicate</div><div><br></div><div>Replace 6818 with the port you get from the scontrol show config command earlier</div><div><br></div><div>Sean<br></div><div><br></div><div><div><div dir="ltr" class="gmail_signature" data-smartmail="gmail_signature">--<br>Sean Crosby | Senior DevOpsHPC Engineer and HPC Team Lead<br>Research Computing Services | Business Services<br>The University of Melbourne, Victoria 3010 Australia<br><br></div></div><br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Tue, 1 Dec 2020 at 02:37, Steve Bland <<a href="mailto:sbland@rossvideo.com">sbland@rossvideo.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">




<div style="overflow-wrap: break-word;" lang="EN-US"><div><div style="color:rgb(0,0,0);font-size:12px;text-align:left;font-family:Helvetica,Arial,sans-serif"><strong><table style="width:100%;float:left;background-color:lemonchiffon" cellspacing="0" cellpadding="5" border="1">
<tbody>
<tr>
<td><b>UoM notice: </b>External email. Be cautious of links, attachments, or impersonation attempts</td>
</tr>
</tbody>
</table></strong><br></div><hr></div>
<div class="gmail-m_2189913199811480885WordSection1">
<p class="MsoNormal">Although, in testing, even with ReturnToService set to ‘1’, on a restart the system sees the node has come back in the logs, but it is still classified as down so will not take jobs until manually told otherwise<u></u><u></u></p>
<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal">[2020-11-30T10:33:05.402] debug2: node_did_resp SRVGRIDSLURM01<u></u><u></u></p>
<p class="MsoNormal">[2020-11-30T10:33:05.402] debug2: node_did_resp srvgridslurm03<u></u><u></u></p>
<p class="MsoNormal">[2020-11-30T10:33:05.402] debug2: node_did_resp SRVGRIDSLURM02<u></u><u></u></p>
<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal">There has to be a way around this manual intervention<u></u><u></u></p>
<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal">thanks<u></u><u></u></p>
<p class="MsoNormal"><u></u> <u></u></p>
<div>
<div style="border-color:rgb(225,225,225) currentcolor currentcolor;border-style:solid none none;border-width:1pt medium medium;padding:3pt 0in 0in">
<p class="MsoNormal"><b>From:</b> slurm-users <<a href="mailto:slurm-users-bounces@lists.schedmd.com" target="_blank">slurm-users-bounces@lists.schedmd.com</a>>
<b>On Behalf Of </b>Steve Bland<br>
<b>Sent:</b> Monday, November 30, 2020 08:12<br>
<b>To:</b> <a href="mailto:slurm-users@lists.schedmd.com" target="_blank">slurm-users@lists.schedmd.com</a><br>
<b>Subject:</b> Re: [slurm-users] [EXTERNAL] Re: trying to diagnose a connectivity issue between the slurmctld process and the slurmd nodes<u></u><u></u></p>
</div>
</div>
<p class="MsoNormal"><u></u> <u></u></p>
<div>
<p class="MsoNormal"><span style="font-size:12pt;color:black">Thanks Chris<u></u><u></u></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:12pt;color:black"><u></u> <u></u></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:12pt;color:black">When I did that, they all came back.<u></u><u></u></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:12pt;color:black"><u></u> <u></u></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:12pt;color:black">Also found that in slurm.conf<i>,
</i>ReturnToService was set to 0, so modified that for now. May turn it back to 0 to see if any nodes are lost, but I assume that will be in the log<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:12pt;color:black"><u></u> <u></u></span></p>
<p class="MsoNormal"><span style="font-size:12pt;color:black">Interestingly I had this in slurm.conf, thought that would make the initial state up for all<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:12pt;color:black"><u></u> <u></u></span></p>
<p class="MsoNormal"><span style="font-size:12pt;color:black">PartitionName=debug Nodes=ALL Default=YES MaxTime=INFINITE State=UP<u></u><u></u></span></p>
</div>
<div>
<div>
<p class="MsoNormal"><span style="font-size:12pt;color:black"><u></u> <u></u></span></p>
</div>
<div id="gmail-m_2189913199811480885Signature">
<div>
<div>
<div>
<div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:"Tahoma",sans-serif"><u></u> <u></u></span></p>
<p class="MsoNormal"><b><span style="font-size:10pt;font-family:"Arial",sans-serif;color:rgb(31,73,125)">Steve Bland</span></b><span style="font-size:10pt;font-family:"Arial",sans-serif;color:rgb(31,73,125)"><br>
<i>Technical Product Manager</i></span><u></u><u></u></p>
<p class="MsoNormal"><i><span style="font-size:10pt;font-family:"Arial",sans-serif;color:rgb(31,73,125)">Third Party Products</span></i><span style="font-size:10pt;font-family:"Arial",sans-serif;color:rgb(31,73,125)"><br>
Ross Video | Production Technology Experts<br>
T: +1 (613) 228-0688 ext.4219<br>
<a href="https://can01.safelinks.protection.outlook.com/?url=http%3A%2F%2Fwww.rossvideo.com%2F&data=04%7C01%7Csbland%40rossvideo.com%7Cb8ed1faa8a834674670308d89531f492%7C5d1f9dedbb98418c9ad2e1d24a9152a1%7C1%7C0%7C637423389078612061%7CUnknown%7CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0%3D%7C1000&sdata=BZowNlheVAOKYa7cpTFi6VJx5Gf6iJ2T9n5Ug4kjxwk%3D&reserved=0" target="_blank">www.rossvideo.com</a></span><u></u><u></u></p>
</div>
</div>
</div>
</div>
</div>
</div>
<div class="MsoNormal" style="text-align:center" align="center">
<hr width="98%" size="2" align="center">
</div>
<div id="gmail-m_2189913199811480885divRplyFwdMsg">
<p class="MsoNormal"><b><span style="color:black">From:</span></b><span style="color:black"> slurm-users <<a href="mailto:slurm-users-bounces@lists.schedmd.com" target="_blank">slurm-users-bounces@lists.schedmd.com</a>> on behalf of Chris Samuel <<a href="mailto:chris@csamuel.org" target="_blank">chris@csamuel.org</a>><br>
<b>Sent:</b> 27 November 2020 15:02<br>
<b>To:</b> <a href="mailto:slurm-users@lists.schedmd.com" target="_blank">slurm-users@lists.schedmd.com</a> <<a href="mailto:slurm-users@lists.schedmd.com" target="_blank">slurm-users@lists.schedmd.com</a>><br>
<b>Subject:</b> [EXTERNAL] Re: [slurm-users] trying to diagnose a connectivity issue between the slurmctld process and the slurmd nodes</span>
<u></u><u></u></p>
<div>
<p class="MsoNormal"> <u></u><u></u></p>
</div>
</div>
<div>
<div>
<p class="MsoNormal" style="margin-bottom:12pt">On 26/11/20 9:21 am, Steve Bland wrote:<br>
<br>
> Sinfo always returns nodes not responding<br>
<br>
One thing - do the nodes return to this state when you resume them with <br>
"scontrol update node=srvgridslurm[01-03] state=resume" ?<br>
<br>
If they do then what does your slurmctld logs say for the reason for this?<br>
<br>
You can bump up the log level on your slurmctld with (for instance <br>
"scontrol setdebug debug" for more info (we run ours at debug all the <br>
time anyway).<br>
<br>
All the best,<br>
Chris<br>
-- <br>
Chris Samuel  :  <a href="https://can01.safelinks.protection.outlook.com/?url=http%3A%2F%2Fwww.csamuel.org%2F&data=04%7C01%7Csbland%40rossvideo.com%7Cb8ed1faa8a834674670308d89531f492%7C5d1f9dedbb98418c9ad2e1d24a9152a1%7C1%7C0%7C637423389078622059%7CUnknown%7CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0%3D%7C1000&sdata=QPAEm%2FzaZg%2FNKzwzRI4EqHRVHv%2FtQ3V3M4DwK%2B2R5Ck%3D&reserved=0" target="_blank">
https://can01.safelinks.protection.outlook.com/?url=http%3A%2F%2Fwww.csamuel.org%2F&amp;data=04%7C01%7Csbland%40rossvideo.com%7Cd08447ff5072423ef86f08d8930fa82d%7C5d1f9dedbb98418c9ad2e1d24a9152a1%7C1%7C1%7C637421042744008756%7CUnknown%7CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0%3D%7C3000&amp;sdata=x5GjoV0mij7cMOciZv7w3wBH%2FEGONoV3i0fUDqoeRlI%3D&amp;reserved=0</a> 
 :  Berkeley, CA, USA<u></u><u></u></p>
</div>
</div>
<p class="MsoNormal">---------------------------------------------- <br>
<br>
This e-mail and any attachments may contain information that is confidential to Ross Video.
<br>
<br>
If you are not the intended recipient, please notify me immediately by replying to this message. Please also delete all copies. Thank you.
<u></u><u></u></p>
</div>
---------------------------------------------- <br>
<br>
This e-mail and any attachments may contain information that is confidential to Ross Video.
<br>
<br>
If you are not the intended recipient, please notify me immediately by replying to this message. Please also delete all copies. Thank you.
</div>

</blockquote></div>