<div dir="ltr"><div class="gmail_default" style="font-family:monospace,monospace;font-size:small">Why do you have?</div><div class="gmail_default" style="font-family:monospace,monospace;font-size:small"><pre class="gmail-aLF-aPX-K0-aPE">SchedulerParameters     = (null)</pre></div><div class="gmail_extra"><span style="font-family:monospace,monospace">Is that even allowed</span><div style="font-size:small;display:inline" class="gmail_default"><span style="font-family:monospace,monospace">​?​</span></div><div style="font-size:small;display:inline" class="gmail_default"><span style="font-family:monospace,monospace"><br></span></div><div style="font-size:small;display:inline" class="gmail_default"><span style="font-family:monospace,monospace"><br></span></div><div style="font-size:small;display:inline" class="gmail_default"><span style="font-family:monospace,monospace"><a href="https://slurm.schedmd.com/sched_config.html">https://slurm.schedmd.com/sched_config.html</a><br></span></div></div><div class="gmail_extra"><br><div class="gmail_quote">On Thu, Jan 11, 2018 at 1:39 PM, Colas Rivière <span dir="ltr"><<a href="mailto:riviere@umdgrb.umd.edu" target="_blank">riviere@umdgrb.umd.edu</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Hello,<br>
<br>
I'm managing a small cluster (one head node, 24 workers, 1160 total worker threads). The head node has two E5-2680 v3 CPUs (hyper-threaded), ~100 GB of memory and spinning disks.<br>
The head node becomes occasionally less responsive when there are more than 10k jobs in queue, and becomes really unmanageable when reaching 100k jobs in queue, with error messages such as:<br>
<blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
sbatch: error: Slurm temporarily unable to accept job, sleeping and retrying.<br>
</blockquote>
or<br>
<blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
Running: slurm_load_jobs error: Socket timed out on send/recv operation<br>
</blockquote>
Is that normal to experience slowdowns when the queue reaches this few 10k jobs? What limit should I expect? Would adding a SSD drive for SlurmdSpoolDir help? What can be done to push this limit?<br>
<br>
The cluster runs Slurm 17.02.4 on CentOS 6 and the config is attached (from `scontrol show config`).<br>
<br>
Thanks,<br>
Colas<br>
</blockquote></div><br><br clear="all"><br>-- <br><div class="gmail_signature"><div dir="ltr"><div style="font-size:12.8px">Nick Santucci</div><div style="font-size:12.8px"><a href="mailto:santucci@uci.edu" style="color:rgb(17,85,204)" target="_blank">santucci@uci.edu</a></div></div></div>
</div></div>