<div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div>No this happens without the "Oversubscribe" parameter being set. I'm using custom resources though:</div><div><br></div><div>GresTypes=some_resource</div><div><br></div><div>
NodeName=compute-[1-100] CPUs=10 Gres=some_resource:10 State=CLOUD</div><div><br></div><div>Submission uses:</div><div><br></div><div>
sbatch --nodes=1 --ntasks-per-node=1 --gres=some_resource:1</div><div><br></div><div>But I just tried it without requesting this custom resource. It shows the same behavior, i.e., SLURM spins N nodes when I submit N jobs to the queue regardless what the resource request of each job is.  <br></div><div><br></div><div><br></div><div><br>


</div></div></div></div></div><br><div class="gmail_quote"><div dir="ltr">Am Mo., 10. Sep. 2018 um 03:55 Uhr schrieb Brian Haymore <<a href="mailto:brian.haymore@utah.edu">brian.haymore@utah.edu</a>>:<br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">What do you have the OverSubscribe parameter set on the partition your using?<br>
<br>
<br>
--<br>
Brian D. Haymore<br>
University of Utah<br>
Center for High Performance Computing<br>
155 South 1452 East RM 405<br>
Salt Lake City, Ut 84112<br>
Phone: 801-558-1150, Fax: 801-585-5366<br>
<a href="http://bit.ly/1HO1N2C" rel="noreferrer" target="_blank">http://bit.ly/1HO1N2C</a><br>
<br>
________________________________________<br>
From: slurm-users [<a href="mailto:slurm-users-bounces@lists.schedmd.com" target="_blank">slurm-users-bounces@lists.schedmd.com</a>] on behalf of Felix Wolfheimer [<a href="mailto:f.wolfheimer@googlemail.com" target="_blank">f.wolfheimer@googlemail.com</a>]<br>
Sent: Sunday, September 09, 2018 1:35 PM<br>
To: <a href="mailto:slurm-users@lists.schedmd.com" target="_blank">slurm-users@lists.schedmd.com</a><br>
Subject: [slurm-users] Elastic Compute<br>
<br>
I'm using the SLURM Elastic Compute feature and it works great in<br>
general. However, I noticed that there's a bit of inefficiency in the<br>
decision about the number of nodes which SLURM creates. Let's say I've<br>
the following configuration<br>
<br>
NodeName=compute-[1-100] CPUs=10 State=CLOUD<br>
<br>
and there are none of these nodes up and running. Let's further say<br>
that I create 10 identical jobs and submit them at the same time using<br>
<br>
sbatch --nodes=1 --ntasks-per-node=1<br>
<br>
I expected that SLURM finds out that 10 CPUs are required in total to<br>
serve the requirements for all jobs and, thus, creates a single compute<br>
node. However, SLURM triggers the creation of one node per job, i.e.,<br>
10 nodes are created. When the first of these ten nodes is ready to<br>
accept jobs, SLURM assigns all of the 10 submitted jobs to this single<br>
node, though. The other nine nodes which were created are running idle<br>
and are terminated again after a while.<br>
<br>
I'm using "SelectType=select/cons_res" to schedule on the CPU level. Is<br>
there some knob which influences this behavior or is this behavior<br>
hard-coded?<br>
<br>
<br>
</blockquote></div>