<div dir="ltr">Hi,all<div>We run slurm 19.05 on a cluster about 1k nodes,recently, we found lots of job failed due to node failure; check slumctld.log we found  nodes are set to down stat then resumed quikly.</div><div>some log info:</div><div>[2020-07-20T00:21:23.306] error: Nodes j[1608,1802] not responding<br>[2020-07-20T00:22:27.486] error: Nodes j1608 not responding, setting DOWN<br>[2020-07-20T00:26:23.725] error: Nodes j1802 not responding<br>[2020-07-20T00:26:27.323] error: Nodes j1802 not responding, setting DOWN<br>[2020-07-20T00:26:46.602] Node j1608 now responding<br>[2020-07-20T00:26:49.449] Node j1802 now responding<br></div><div><br></div><div>Anyone hit this issue beforce ?</div><div>Any suggestions will help.</div><div><br></div><div>Regards.</div></div>