<div dir="ltr">cgroups should work correctly _if_ you're not running with an old corrupted slurm database.<div><br></div><div>There was a bug in a much earlier version of slurm that corrupted the database in a way that the cgroups/accounting code could no longer fence GPUs. This was fixed in a later version, but the database corruption carries forward.</div><div><br></div><div>Apparently the db can be fixed manually, but we're just starting with a new install and fresh db.</div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Tue, Aug 25, 2020 at 11:03 AM Ryan Novosielski <<a href="mailto:novosirj@rutgers.edu">novosirj@rutgers.edu</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">



<div dir="auto">
Sorry about that. “NJT” should have read “but;” apparently my phone decided I was talking about our local transit authority. 😓
<div dir="ltr"><br>
<blockquote type="cite">On Aug 25, 2020, at 10:30, Ryan Novosielski <<a href="mailto:novosirj@rutgers.edu" target="_blank">novosirj@rutgers.edu</a>> wrote:<br>
<br>
</blockquote>
</div>
<blockquote type="cite">
<div dir="ltr"> I believe that’s done via a QoS on the partition. Have a look at the docs there, and I think “require” is a good key word to look for. 
<div><br>
</div>
<div>Cgroups should also help with this, NJT I’ve been troubleshooting a problem where that seems not to be working correctly. <br>
<br>
<div dir="ltr"><span style="background-color:rgba(255,255,255,0)">--<br>
____<br>
|| \\UTGERS,       |---------------------------*O*---------------------------<br>
||_// the State     |         Ryan Novosielski - <a href="mailto:novosirj@rutgers.edu" dir="ltr" target="_blank">novosirj@rutgers.edu</a><br>
|| \\ University | Sr. Technologist - 973/972.0922 (2x0922) ~*~ RBHS Campus<br>
||  \\    of NJ     | Office of Advanced Research Computing - MSB C630, Newark<br>
    `'</span></div>
<div dir="ltr"><br>
<blockquote type="cite">On Aug 25, 2020, at 10:13, Willy Markuske <<a href="mailto:wmarkuske@sdsc.edu" target="_blank">wmarkuske@sdsc.edu</a>> wrote:<br>
<br>
</blockquote>
</div>
<blockquote type="cite">
<div dir="ltr">
<p>Hello,</p>
<p>I'm trying to restrict access to gpu resources on a cluster I maintain for a research group. There are two nodes put into a partition with gres gpu resources defined. User can access these resources by submitting their job under the gpu partition and defining
 a gres=gpu. <br>
</p>
<p>When a user includes the flag --gres=gpu:# they are allocated the number of gpus and slurm properly allocates them. If a user requests only 1 gpu they only see CUDA_VISIBLE_DEVICES=1. However, if a user does not include the --gres=gpu:# flag they can still
 submit a job to the partition and are then able to see all the GPUs. This has led to some bad actors running jobs on all GPUs that other users have allocated and causing OOM errors on the gpus.</p>
<p>Is it possible, and where would I find the documentation on doing so, to require users to define a --gres=gpu:# to be able to submit to a partition? So far reading the gres documentation doesn't seem to have yielded any word on this issue specifically.</p>
<p>Regards,<br>
</p>
<div>-- <br>

<table cellspacing="0" cellpadding="0" border="0">
<tbody>
<tr>
<td width="150" valign="top" height="30" align="left">
<p style="font-size:14px">Willy Markuske</p>
</td>
</tr>
<tr>
<td style="border-right:1px solid rgb(0,0,0)" align="left">
<p style="font-size:12px">HPC Systems Engineer</p>
</td>
<td rowspan="3" width="180" valign="center" height="42" align="center"><tt>
<div><SDSClogo-plusname-red.jpg></div>
</tt></td>
</tr>
<tr>
<td style="border-right:1px solid rgb(0,0,0)" align="left">
<p style="font-size:12px">Research Data Services</p>
</td>
</tr>
<tr>
<td style="border-right:1px solid rgb(0,0,0)" align="left">
<p style="font-size:12px">P: (858) 246-5593</p>
</td>
</tr>
</tbody>
</table>
<p></p>
</div>
</div>
</blockquote>
</div>
</div>
</blockquote>
</div>

</blockquote></div>