<div dir="ltr"><div>we checked the slurmd.log,and found "error: service_connection: slurm_receive_msg: Socket timed out on send/recv operation"  when job failed, so maybe this is the reason?</div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">Sarlo, Jeffrey S <<a href="mailto:JSarlo@central.uh.edu">JSarlo@central.uh.edu</a>> 于2020年7月22日周三 下午9:52写道:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">




<div dir="ltr">
<div style="font-family:"Courier New",monospace;font-size:12pt;color:rgb(0,0,0)">
OK.</div>
<div style="font-family:"Courier New",monospace;font-size:12pt;color:rgb(0,0,0)">
<br>
</div>
<div style="font-family:"Courier New",monospace;font-size:12pt;color:rgb(0,0,0)">
Though it does look like both were down for around 5 minutes</div>
<div style="font-family:"Courier New",monospace;font-size:12pt;color:rgb(0,0,0)">
<br>
</div>
<div style="font-family:"Courier New",monospace;font-size:12pt;color:rgb(0,0,0)">
[2020-07-20T<span style="background-color:rgb(255,255,128)">00:21</span>:23.306] error: Nodes j[1608,<span style="background-color:rgb(255,255,128)">1802</span>] not responding<br>
[2020-07-20T00:26:46.602] Node j1608 now responding</div>
<div style="font-family:"Courier New",monospace;font-size:12pt;color:rgb(0,0,0)">
[<span style="color:rgb(0,0,0);font-family:"Courier New",monospace;font-size:12pt">2020-07-20T</span><span style="color:rgb(0,0,0);font-family:"Courier New",monospace;font-size:12pt;background-color:rgb(255,255,128)">00:26</span><span style="color:rgb(0,0,0);font-family:"Courier New",monospace;font-size:12pt">:49.449]
 Node j</span><span style="color:rgb(0,0,0);font-family:"Courier New",monospace;font-size:12pt;background-color:rgb(255,255,128)">1802</span><span style="color:rgb(0,0,0);font-family:"Courier New",monospace;font-size:12pt"> now responding</span></div>
<div style="font-family:"Courier New",monospace;font-size:12pt;color:rgb(0,0,0)">
<span style="color:rgb(0,0,0);font-family:"Courier New",monospace;font-size:12pt"><br>
</span></div>
<div style="font-family:"Courier New",monospace;font-size:12pt;color:rgb(0,0,0)">
<span style="color:rgb(0,0,0);font-family:"Courier New",monospace;font-size:12pt"><br>
</span></div>
<div style="font-family:"Courier New",monospace;font-size:12pt;color:rgb(0,0,0)">
<span style="color:rgb(0,0,0);font-family:"Courier New",monospace;font-size:12pt">You might want to check the slurmd.log file on the compute nodes themselves and see if there is more information there.</span></div>
<div>
<div id="gmail-m_-1277522294765357738appendonsend"></div>
<div style="font-family:"Courier New",monospace;font-size:12pt;color:rgb(0,0,0)">
<br>
</div>
<hr style="display:inline-block;width:98%">
<div id="gmail-m_-1277522294765357738divRplyFwdMsg" dir="ltr"><font face="Calibri, sans-serif" color="#000000" style="font-size:11pt"><b>From:</b> 肖正刚 <<a href="mailto:guru.novice@gmail.com" target="_blank">guru.novice@gmail.com</a>><br>
<b>Sent:</b> Wednesday, July 22, 2020 8:46 AM<br>
<b>To:</b> Sarlo, Jeffrey S <<a href="mailto:JSarlo@Central.UH.EDU" target="_blank">JSarlo@Central.UH.EDU</a>><br>
<b>Subject:</b> Re: [slurm-users] lots of job failed due to node failure</font>
<div> </div>
</div>
<div>
<div dir="ltr">
<div>nodes not rebooted/crashed.</div>
<div>and from the log you can see node j1802 status resumed within one minutes.</div>
<br>
<div>
<div dir="ltr">Sarlo, Jeffrey S <<a href="mailto:JSarlo@central.uh.edu" target="_blank">JSarlo@central.uh.edu</a>> 于2020年7月22日周三 下午7:58写道:<br>
</div>
<blockquote style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
<div dir="ltr">
<div style="font-family:"Courier New",monospace;font-size:12pt;color:rgb(0,0,0)">
If you log into a node after you see that, had the node rebooted/crashed?  Maybe a job is crashing the node or there is a hardware issue with the node.</div>
<div style="font-family:"Courier New",monospace;font-size:12pt;color:rgb(0,0,0)">
<br>
</div>
<div style="font-family:"Courier New",monospace;font-size:12pt;color:rgb(0,0,0)">
Jeff</div>
<div>
<div id="gmail-m_-1277522294765357738x_gmail-m_5055145433851076179appendonsend"></div>
<div style="font-family:"Courier New",monospace;font-size:12pt;color:rgb(0,0,0)">
<br>
</div>
<hr style="display:inline-block;width:98%">
<div id="gmail-m_-1277522294765357738x_gmail-m_5055145433851076179divRplyFwdMsg" dir="ltr"><font face="Calibri, sans-serif" color="#000000" style="font-size:11pt"><b>From:</b> slurm-users <<a href="mailto:slurm-users-bounces@lists.schedmd.com" target="_blank">slurm-users-bounces@lists.schedmd.com</a>>
 on behalf of 肖正刚 <<a href="mailto:guru.novice@gmail.com" target="_blank">guru.novice@gmail.com</a>><br>
<b>Sent:</b> Tuesday, July 21, 2020 7:40 PM<br>
<b>To:</b> <a href="mailto:slurm-users@lists.schedmd.com" target="_blank">slurm-users@lists.schedmd.com</a> <<a href="mailto:slurm-users@lists.schedmd.com" target="_blank">slurm-users@lists.schedmd.com</a>><br>
<b>Subject:</b> [slurm-users] lots of job failed due to node failure</font>
<div> </div>
</div>
<div>
<div dir="ltr">Hi,all
<div>We run slurm 19.05 on a cluster about 1k nodes,recently, we found lots of job failed due to node failure; check slumctld.log we found  nodes are set to down stat then resumed quikly.</div>
<div>some log info:</div>
<div>[2020-07-20T00:21:23.306] error: Nodes j[1608,1802] not responding<br>
[2020-07-20T00:22:27.486] error: Nodes j1608 not responding, setting DOWN<br>
[2020-07-20T00:26:23.725] error: Nodes j1802 not responding<br>
[2020-07-20T00:26:27.323] error: Nodes j1802 not responding, setting DOWN<br>
[2020-07-20T00:26:46.602] Node j1608 now responding<br>
[2020-07-20T00:26:49.449] Node j1802 now responding<br>
</div>
<div><br>
</div>
<div>Anyone hit this issue beforce ?</div>
<div>Any suggestions will help.</div>
<div><br>
</div>
<div>Regards.</div>
</div>
</div>
</div>
</div>
</blockquote>
</div>
</div>
</div>
</div>
</div>

</blockquote></div></div>