<div dir="ltr"><div>Hi Loris - about a second<br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Thu, Jul 28, 2022 at 2:47 PM Loris Bennett <<a href="mailto:loris.bennett@fu-berlin.de">loris.bennett@fu-berlin.de</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Hi Byron,<br>
<br>
byron <<a href="mailto:lbgpublic@gmail.com" target="_blank">lbgpublic@gmail.com</a>> writes:<br>
<br>
> Hi <br>
><br>
> We recently upgraded slurm from 19.05.7 to 20.11.9 and now we occasionally (3 times in 2 months) have slurmctld hanging so we get the following message when running sinfo<br>
><br>
> “slurm_load_jobs error: Socket timed out on send/recv operation”<br>
><br>
> It only seems to happen when one of our users runs a job that submits a short lived job every second for 5 days (up to 90,000 in a day).  Although that could be a red-herring.  <br>
<br>
What's your definition of a 'short lived job'?<br>
<br>
> There is nothing to be found in the slurmctld log.<br>
><br>
> Can anyone suggest how to even start troubleshooting this?  Without anything in the logs I dont know where to start.<br>
><br>
> Thanks<br>
<br>
Cheers,<br>
<br>
Loris<br>
<br>
-- <br>
Dr. Loris Bennett (Herr/Mr)<br>
ZEDAT, Freie Universität Berlin         Email <a href="mailto:loris.bennett@fu-berlin.de" target="_blank">loris.bennett@fu-berlin.de</a><br>
<br>
</blockquote></div>