<div dir="ltr">Hi Thomas.<div><br></div><div>The output you provided from sacctmgr doesn't look quite right to me. There is a field count mismatch between the header line and the rows, and I'm not seeing some fields that I would expect to see, particularly MaxTRESPU (MaxTRESPerUser) - I don't think this is a Slurm version difference, as I'm on 18.08.4. Apologies if I'm missing something obvious there!<br></div><div><br></div><div>Do you have AccountingStorageTRES (slurm.conf) set to track GPUs?</div><div><br></div><div>Killian</div><div><br></div><div><br></div><div><br></div><div><br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Thu, 7 May 2020 at 20:32, Theis, Thomas <<a href="mailto:Thomas.Theis@teledyne.com">Thomas.Theis@teledyne.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">





<div lang="EN-US">
<div class="gmail-m_-7618718551195700549WordSection1">
<p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">Hello Krillian,<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)"><u></u> <u></u></span></p>
<p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">Unfortunately after setting the configuration for the partition to include the qos, and restarting the service. Verifying with sacctmgr, I still have the same
 issue.. <u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)"><u></u> <u></u></span></p>
<p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)"><u></u> <u></u></span></p>
<p class="MsoNormal"><b><span style="font-size:14pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">Thomas Theis</span></b><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(46,116,181)"><u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)"><u></u> <u></u></span></p>
<p class="MsoNormal"><b><span style="font-size:11pt;font-family:Calibri,sans-serif">From:</span></b><span style="font-size:11pt;font-family:Calibri,sans-serif"> slurm-users <<a href="mailto:slurm-users-bounces@lists.schedmd.com" target="_blank">slurm-users-bounces@lists.schedmd.com</a>>
<b>On Behalf Of </b>Killian Murphy<br>
<b>Sent:</b> Thursday, May 7, 2020 1:41 PM<br>
<b>To:</b> Slurm User Community List <<a href="mailto:slurm-users@lists.schedmd.com" target="_blank">slurm-users@lists.schedmd.com</a>><br>
<b>Subject:</b> Re: [slurm-users] [EXT] Re: Limit the number of GPUS per user per partition<u></u><u></u></span></p>
<p class="MsoNormal"><u></u> <u></u></p>
<div align="center">
<table border="1" cellspacing="0" cellpadding="0" width="0" style="width:112.5pt;border:1pt outset rgb(137,137,137)">
<tbody>
<tr>
<td style="border:1pt inset rgb(137,137,137);background:rgb(253,255,178);padding:3.75pt">
<p class="MsoNormal" align="center" style="text-align:center"><span style="font-size:8pt">External Email<u></u><u></u></span></p>
</td>
</tr>
</tbody>
</table>
</div>
<div>
<div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif">Hi Thomas.<u></u><u></u></span></p>
<div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif"><u></u> <u></u></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif">With that partition configuration, I suspect jobs are going through the partition without the QoS 'normal' which restricts the number of GPUs per user.<u></u><u></u></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif"><u></u> <u></u></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif">You may find that reconfiguring the partition to have a QoS of 'normal' will result in the GPU limit being applied, as intended. This is set in the partition configuration
 in slurm.conf.<u></u><u></u></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif"><u></u> <u></u></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif">Killian<u></u><u></u></span></p>
</div>
</div>
<div>
<div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif">On Thu, 7 May 2020 at 18:25, Theis, Thomas <<a href="mailto:Thomas.Theis@teledyne.com" target="_blank">Thomas.Theis@teledyne.com</a>> wrote:<u></u><u></u></span></p>
</div>
<blockquote style="border-top:none;border-right:none;border-bottom:none;border-left:1pt solid rgb(204,204,204);padding:0in 0in 0in 6pt;margin-left:4.8pt;margin-right:0in">
<div>
<div>
<p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">Here is the outputs</span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">sacctmgr show qos –p</span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)"> </span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">Name|Priority|GraceTime|Preempt|PreemptMode|Flags|UsageThres|UsageFactor|GrpTRES|GrpTRESMins|GrpTRESRunMins|GrpJobs|GtPA|MinTRES|</span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">normal|10000|00:00:00||cluster|||1.000000|gres/gpu=2||||||||||gres/gpu=2|||||||</span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">now|1000000|00:00:00||cluster|||1.000000||||||||||||||||||</span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">high|100000|00:00:00||cluster|||1.000000||||||||||||||||||</span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)"> </span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif">scontrol show part</span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)"> </span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">PartitionName=PART1</span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">   AllowGroups=trace_unix_group AllowAccounts=ALL AllowQos=ALL</span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">   AllocNodes=ALL Default=NO QoS=N/A</span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">   DefaultTime=NONE DisableRootJobs=NO ExclusiveUser=NO GraceTime=0 Hidden=NO</span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">   MaxNodes=UNLIMITED MaxTime=UNLIMITED MinNodes=0 LLN=NO MaxCPUsPerNode=UNLIMITED</span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">   Nodes=node1,node2,node3,node4,….   PriorityJobFactor=1 PriorityTier=1 RootOnly=NO ReqResv=NO OverSubscribe=NO</span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">   OverTimeLimit=NONE PreemptMode=OFF</span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">   State=UP TotalCPUs=236 TotalNodes=11 SelectTypeParameters=NONE</span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">   JobDefaults=(null)</span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">   DefMemPerNode=UNLIMITED MaxMemPerNode=UNLIMITED</span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)"> </span><u></u><u></u></p>
<p class="MsoNormal"><b><span style="font-size:14pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">Thomas Theis</span></b><u></u><u></u></p>
<p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)"> </span><u></u><u></u></p>
<p class="MsoNormal"><b><span style="font-size:11pt;font-family:Calibri,sans-serif">From:</span></b><span style="font-size:11pt;font-family:Calibri,sans-serif"> slurm-users <<a href="mailto:slurm-users-bounces@lists.schedmd.com" target="_blank">slurm-users-bounces@lists.schedmd.com</a>>
<b>On Behalf Of </b>Sean Crosby<br>
<b>Sent:</b> Wednesday, May 6, 2020 6:22 PM<br>
<b>To:</b> Slurm User Community List <<a href="mailto:slurm-users@lists.schedmd.com" target="_blank">slurm-users@lists.schedmd.com</a>><br>
<b>Subject:</b> Re: [slurm-users] [EXT] Re: Limit the number of GPUS per user per partition</span><u></u><u></u></p>
<p class="MsoNormal"> <u></u><u></u></p>
<div align="center">
<table border="1" cellspacing="0" cellpadding="0" width="0" style="width:112.5pt;border:1pt outset rgb(137,137,137)">
<tbody>
<tr>
<td style="border:1pt inset rgb(137,137,137);background:rgb(253,255,178);padding:3.75pt">
<p class="MsoNormal" align="center" style="text-align:center">
<span style="font-size:8pt">External Email</span><u></u><u></u></p>
</td>
</tr>
</tbody>
</table>
</div>
<div>
<div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif">Do you have other limits set? The QoS is hierarchical, and especially partition QoS can override other QoS.</span><u></u><u></u></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif"> </span><u></u><u></u></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif">What's the output of</span><u></u><u></u></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif"> </span><u></u><u></u></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif">sacctmgr show qos -p</span><u></u><u></u></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif"> </span><u></u><u></u></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif">and</span><u></u><u></u></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif"> </span><u></u><u></u></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif">scontrol show part</span><u></u><u></u></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif"> </span><u></u><u></u></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif">Sean</span><u></u><u></u></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif"> </span><u></u><u></u></p>
</div>
<div>
<div>
<div>
<p class="MsoNormal" style="margin-bottom:12pt"><span style="font-size:10pt;font-family:Calibri,sans-serif">--<br>
Sean Crosby | Senior DevOpsHPC Engineer and HPC Team Lead<br>
Research Computing Services | Business Services<br>
The University of Melbourne, Victoria 3010 Australia</span><u></u><u></u></p>
</div>
</div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif"> </span><u></u><u></u></p>
</div>
</div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif"> </span><u></u><u></u></p>
<div>
<div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif">On Wed, 6 May 2020 at 23:44, Theis, Thomas <<a href="mailto:Thomas.Theis@teledyne.com" target="_blank">Thomas.Theis@teledyne.com</a>>
 wrote:</span><u></u><u></u></p>
</div>
<blockquote style="border-top:none;border-right:none;border-bottom:none;border-left:1pt solid rgb(204,204,204);padding:0in 0in 0in 6pt;margin:5pt 0in 5pt 4.8pt">
<div>
<div>
<p class="MsoNormal"><strong><span style="font-size:9pt;font-family:Helvetica,sans-serif;color:black">UoM notice: External email. Be cautious of links, attachments, or impersonation attempts.</span></strong><u></u><u></u></p>
<div class="MsoNormal" align="center" style="text-align:center"><span style="font-size:10pt;font-family:Calibri,sans-serif">
<hr size="2" width="100%" align="center">
</span></div>
</div>
<div>
<p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">Still have the same issue when I updated the user and qos..</span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">Command I am using.</span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">‘sacctmgr modify qos normal set MaxTRESPerUser=gres/gpu=2’</span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">I restarted the services. Unfortunately I am still have to saturate the cluster with jobs.</span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)"> </span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">We have a cluster of 10 nodes each with 4 gpus, for a total of 40 gpus. Each node is identical in the
 software, OS, SLURM. etc.. I am trying to limit each user to only be able to use 2 out of 40 gpus across the entire cluster or partition. A intended bottle neck so no one can saturate the cluster..
</span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)"> </span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">I.E. desired outcome would be. Person A submits 100 jobs, 2 would run , and 98 would be pending, 38
 gpus would be idle. Once the 2 running are finished, 2 more would run and 96 would be pending, still 38 gpus would be idle..</span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)"> </span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)"> </span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)"> </span><u></u><u></u></p>
<p class="MsoNormal"><b><span style="font-size:14pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">Thomas Theis</span></b><u></u><u></u></p>
<p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)"> </span><u></u><u></u></p>
<p class="MsoNormal"><b><span style="font-size:11pt;font-family:Calibri,sans-serif">From:</span></b><span style="font-size:11pt;font-family:Calibri,sans-serif"> slurm-users <<a href="mailto:slurm-users-bounces@lists.schedmd.com" target="_blank">slurm-users-bounces@lists.schedmd.com</a>>
<b>On Behalf Of </b>Sean Crosby<br>
<b>Sent:</b> Tuesday, May 5, 2020 6:48 PM<br>
<b>To:</b> Slurm User Community List <<a href="mailto:slurm-users@lists.schedmd.com" target="_blank">slurm-users@lists.schedmd.com</a>><br>
<b>Subject:</b> Re: [slurm-users] [EXT] Re: Limit the number of GPUS per user per partition</span><u></u><u></u></p>
<p class="MsoNormal"> <u></u><u></u></p>
<div align="center">
<table border="1" cellspacing="0" cellpadding="0" width="0" style="width:112.5pt;border:1pt outset rgb(137,137,137)">
<tbody>
<tr>
<td style="border:1pt inset rgb(137,137,137);background:rgb(253,255,178);padding:3.75pt">
<p class="MsoNormal" align="center" style="text-align:center">
<span style="font-size:8pt">External Email</span><u></u><u></u></p>
</td>
</tr>
</tbody>
</table>
</div>
<div>
<div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif">Hi Thomas,</span><u></u><u></u></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif"> </span><u></u><u></u></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif">That value should be</span><u></u><u></u></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif"> </span><u></u><u></u></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif">sacctmgr modify qos gpujobs set MaxTRESPerUser=gres/gpu=4</span><u></u><u></u></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif"> </span><u></u><u></u></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif">Sean</span><u></u><u></u></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif"> </span><u></u><u></u></p>
</div>
<div>
<div>
<div>
<p class="MsoNormal" style="margin-bottom:12pt"><span style="font-size:10pt;font-family:Calibri,sans-serif">--<br>
Sean Crosby | Senior DevOpsHPC Engineer and HPC Team Lead<br>
Research Computing Services | Business Services<br>
The University of Melbourne, Victoria 3010 Australia</span><u></u><u></u></p>
</div>
</div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif"> </span><u></u><u></u></p>
</div>
</div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif"> </span><u></u><u></u></p>
<div>
<div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif">On Wed, 6 May 2020 at 04:53, Theis, Thomas <<a href="mailto:Thomas.Theis@teledyne.com" target="_blank">Thomas.Theis@teledyne.com</a>>
 wrote:</span><u></u><u></u></p>
</div>
<blockquote style="border-left:1pt solid rgb(204,204,204);padding:0in 0in 0in 6pt;margin:5pt 0in 5pt 4.8pt;border-top:currentcolor;border-right:currentcolor;border-bottom:currentcolor">
<div>
<div>
<p class="MsoNormal"><strong><span style="font-size:9pt;font-family:Helvetica,sans-serif;color:black">UoM notice: External email. Be cautious of links, attachments, or impersonation attempts.</span></strong><u></u><u></u></p>
<div class="MsoNormal" align="center" style="text-align:center"><span style="font-size:10pt;font-family:Calibri,sans-serif">
<hr size="2" width="100%" align="center">
</span></div>
</div>
<div>
<p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">Hey Killian,</span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)"> </span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">I tried to limit the number of gpus a user can run on at a time by adding MaxTRESPerUser = gres:gpu4
 to both the user and the qos.. I restarted slurm control daemon and unfortunately I am still able to run on all the gpus in the partition. Any other ideas?
</span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)"> </span><u></u><u></u></p>
<p class="MsoNormal"><b><span style="font-size:14pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">Thomas Theis</span></b><u></u><u></u></p>
<p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)"> </span><u></u><u></u></p>
<p class="MsoNormal"><b><span style="font-size:11pt;font-family:Calibri,sans-serif">From:</span></b><span style="font-size:11pt;font-family:Calibri,sans-serif"> slurm-users <<a href="mailto:slurm-users-bounces@lists.schedmd.com" target="_blank">slurm-users-bounces@lists.schedmd.com</a>>
<b>On Behalf Of </b>Killian Murphy<br>
<b>Sent:</b> Thursday, April 23, 2020 1:33 PM<br>
<b>To:</b> Slurm User Community List <<a href="mailto:slurm-users@lists.schedmd.com" target="_blank">slurm-users@lists.schedmd.com</a>><br>
<b>Subject:</b> Re: [slurm-users] Limit the number of GPUS per user per partition</span><u></u><u></u></p>
<p class="MsoNormal"> <u></u><u></u></p>
<div align="center">
<table border="1" cellspacing="0" cellpadding="0" width="0" style="width:112.5pt;border:1pt outset rgb(137,137,137)">
<tbody>
<tr>
<td style="border:1pt inset rgb(137,137,137);background:rgb(253,255,178);padding:3.75pt">
<p class="MsoNormal" align="center" style="text-align:center">
<span style="font-size:8pt">External Email</span><u></u><u></u></p>
</td>
</tr>
</tbody>
</table>
</div>
<div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif">Hi Thomas.</span><u></u><u></u></p>
<div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif"> </span><u></u><u></u></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif">We limit the maximum number of GPUs a user can have allocated in a partition through the MaxTRESPerUser field of
 a QoS for GPU jobs, which is set as the partition QoS on our GPU partition. I.E:</span><u></u><u></u></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif"> </span><u></u><u></u></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif">We have a QOS `gpujobs` that sets MaxTRESPerUser => gres/gpu:4 to limit total number of allocated GPUs to 4, and
 set the GPU partition QoS to the `gpujobs` QoS.</span><u></u><u></u></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif"> </span><u></u><u></u></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif">There is a section in the Slurm documentation on the 'Resource Limits' page entitled 'QOS specific limits supported
 (<a href="https://slurm.schedmd.com/resource_limits.html" target="_blank">https://slurm.schedmd.com/resource_limits.html</a>) that details some care needed when using this kind of limit setting with typed GRES. Although it seems like you are trying to do something
 with generic GRES, it's worth a read!</span><u></u><u></u></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif"> </span><u></u><u></u></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif">Killian</span><u></u><u></u></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif"> </span><u></u><u></u></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif"> </span><u></u><u></u></p>
</div>
</div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif"> </span><u></u><u></u></p>
<div>
<div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif">On Thu, 23 Apr 2020 at 18:19, Theis, Thomas <<a href="mailto:Thomas.Theis@teledyne.com" target="_blank">Thomas.Theis@teledyne.com</a>>
 wrote:</span><u></u><u></u></p>
</div>
<blockquote style="border-left:1pt solid rgb(204,204,204);padding:0in 0in 0in 6pt;margin:5pt 0in 5pt 4.8pt;border-top:currentcolor;border-right:currentcolor;border-bottom:currentcolor">
<div>
<div>
<p class="MsoNormal">Hi everyone,<u></u><u></u></p>
<p class="MsoNormal">First message, I am trying find a good way or multiple ways to limit the usage of jobs per node or use of gpus per node, without blocking a user from submitting them.
<u></u><u></u></p>
<p class="MsoNormal"> <u></u><u></u></p>
<p class="MsoNormal">Example. We have 10 nodes each with 4 gpus in a partition. We allow a team of 6 people to submit jobs to any or all of the nodes. One job per gpu; thus we can hold a total of 40
 jobs concurrently in the partition.<u></u><u></u></p>
<p class="MsoNormal">At the moment: each user usually submit 50- 100 jobs at once. Taking up all gpus, and all other users have to wait in pending..<u></u><u></u></p>
<p class="MsoNormal"> <u></u><u></u></p>
<p class="MsoNormal">What I am trying to setup is allow all users to submit as many jobs as they wish but only run on 1 out of the 4 gpus per node, or some number out of the total 40 gpus across the
 entire partition. Using slurm 18.08.3..<u></u><u></u></p>
<p class="MsoNormal"> <u></u><u></u></p>
<p class="MsoNormal">This is roughly our slurm scripts.<u></u><u></u></p>
<p class="MsoNormal"> <u></u><u></u></p>
<p class="MsoNormal">#SBATCH --job-name=Name # Job name<u></u><u></u></p>
<p class="MsoNormal">#SBATCH --mem=5gb                     # Job memory request<u></u><u></u></p>
<p class="MsoNormal">#SBATCH --ntasks=1<u></u><u></u></p>
<p class="MsoNormal">#SBATCH --gres=gpu:1<u></u><u></u></p>
<p class="MsoNormal">#SBATCH --partition=PART1<u></u><u></u></p>
<p class="MsoNormal">#SBATCH --time=200:00:00               # Time limit hrs:min:sec<u></u><u></u></p>
<p class="MsoNormal">#SBATCH --output=job _%j.log         # Standard output and error log<u></u><u></u></p>
<p class="MsoNormal">#SBATCH --nodes=1<u></u><u></u></p>
<p class="MsoNormal">#SBATCH --qos=high<u></u><u></u></p>
<p class="MsoNormal"> <u></u><u></u></p>
<p class="MsoNormal">srun -n1 --gres=gpu:1 --exclusive --export=ALL bash -c "NV_GPU=$SLURM_JOB_GPUS nvidia-docker run --rm -e SLURM_JOB_ID=$SLURM_JOB_ID -e SLURM_OUTPUT=$SLURM_OUTPUT --name $SLURM_JOB_ID
 do_job.sh"<u></u><u></u></p>
<p class="MsoNormal"> <u></u><u></u></p>
<p class="MsoNormal"><b><span style="font-size:14pt;color:rgb(31,73,125)">Thomas Theis</span></b><u></u><u></u></p>
<p class="MsoNormal"> <u></u><u></u></p>
</div>
</div>
</blockquote>
</div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif"><br clear="all">
</span><u></u><u></u></p>
<div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif"> </span><u></u><u></u></p>
</div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif">--
</span><u></u><u></u></p>
<div>
<div>
<div>
<div>
<div>
<div>
<div>
<div>
<div>
<div>
<div>
<div>
<div>
<p class="MsoNormal"><span style="font-size:9.5pt;font-family:Calibri,sans-serif">Killian Murphy</span><u></u><u></u></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:9.5pt;font-family:Calibri,sans-serif">Research Software Engineer</span><u></u><u></u></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:9.5pt;font-family:Calibri,sans-serif"> </span><u></u><u></u></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:9.5pt;font-family:Calibri,sans-serif">Wolfson Atmospheric Chemistry Laboratories<br>
University of York<br>
Heslington<br>
York<br>
YO10 5DD<br>
+44 (0)1904 32 4753<br>
<br>
e-mail disclaimer: <a href="http://www.york.ac.uk/docs/disclaimer/email.htm" target="_blank"><span style="color:rgb(17,85,204)">http://www.york.ac.uk/docs/disclaimer/email.htm</span></a></span><u></u><u></u></p>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</blockquote>
</div>
</div>
</div>
</blockquote>
</div>
</div>
</div>
</blockquote>
</div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif"><br clear="all">
<u></u><u></u></span></p>
<div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif"><u></u> <u></u></span></p>
</div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:Calibri,sans-serif">--
<u></u><u></u></span></p>
<div>
<div>
<div>
<div>
<div>
<div>
<div>
<div>
<div>
<div>
<div>
<div>
<div>
<p class="MsoNormal"><span style="font-size:9.5pt;font-family:Calibri,sans-serif">Killian Murphy<u></u><u></u></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:9.5pt;font-family:Calibri,sans-serif">Research Software Engineer<u></u><u></u></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:9.5pt;font-family:Calibri,sans-serif"><u></u> <u></u></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:9.5pt;font-family:Calibri,sans-serif">Wolfson Atmospheric Chemistry Laboratories<br>
University of York<br>
Heslington<br>
York<br>
YO10 5DD<br>
+44 (0)1904 32 4753<br>
<br>
e-mail disclaimer: <a href="http://www.york.ac.uk/docs/disclaimer/email.htm" target="_blank"><span style="color:rgb(17,85,204)">http://www.york.ac.uk/docs/disclaimer/email.htm</span></a><u></u><u></u></span></p>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>

</blockquote></div><br clear="all"><div><br></div>-- <br><div dir="ltr" class="gmail_signature"><div dir="ltr"><div><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr" style="font-size:12.8px">Killian Murphy</div><div dir="ltr" style="font-size:12.8px">Research Software Engineer</div><div dir="ltr" style="font-size:12.8px"><br></div><div dir="ltr" style="font-size:12.8px">Wolfson Atmospheric Chemistry Laboratories<br>University of York<br>Heslington<br>York<br>YO10 5DD<br>+44 (0)1904 32 4753<br><br>e-mail disclaimer: <a href="http://www.york.ac.uk/docs/disclaimer/email.htm" style="color:rgb(17,85,204)" target="_blank">http://www.york.ac.uk/docs/disclaimer/email.htm</a></div></div></div></div></div></div></div></div></div></div></div></div></div>