<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
</head>
<body dir="auto">
Someone else may see another option, but NVIDIA MIG seems like the straightforward option. That would require both a Slurm upgrade and the purchase of MIG-capable cards.
<div><br>
</div>
<div><a href="https://slurm.schedmd.com/gres.html#MIG_Management">https://slurm.schedmd.com/gres.html#MIG_Management</a></div>
<div><br>
</div>
<div>Would be able to host 7 users per A100 card, IIRC.<br>
<div dir="ltr"><br>
<blockquote type="cite">On Apr 3, 2022, at 4:20 PM, Kamil Wilczek <kmwil@mimuw.edu.pl> wrote:<br>
<br>
</blockquote>
</div>
<blockquote type="cite">
<div dir="ltr"><span>Hello!</span><br>
<span></span><br>
<span>I am an administrator of a GPU cluster (Slurm version 19.05.5).</span><br>
<span></span><br>
<span>Could someone help me a little bit and explain if a single</span><br>
<span>GPU can be shared between multiple users? My experience and</span><br>
<span>documentation tells me that it is not possible. But even after</span><br>
<span>some time Slurm is still a beast to me and I find myself</span><br>
<span>struggling :)</span><br>
<span></span><br>
<span>* I setup the cluster to assign GPUs on multi-GPU servers</span><br>
<span> to different users using GRES. This works fine and several</span><br>
<span> users can work on a multi-GPU machine (--gres=gpu:N/--gpu:N).</span><br>
<span></span><br>
<span>* But sometimes I have requests to allow a group of students</span><br>
<span> to work simultaneously, interactively on a small partition,</span><br>
<span> where there is more users than GPUs. So I thought that maybe</span><br>
<span> an MPS is a solutions, but the docs says that MPS is a way</span><br>
<span> to run multiple jobs of *the same* user on a single GPU.</span><br>
<span> When another user is requesting a GPU by MPS, the job is enqueued</span><br>
<span> and waiting for the first users' MPS server to finish.</span><br>
<span> So, this is not a solution for a multi-user, simultaneous/parallel</span><br>
<span> environment, right?</span><br>
<span></span><br>
<span>Is there a way to share a GPU between multiple users?</span><br>
<span>The requirement is, say:</span><br>
<span></span><br>
<span>* 16 users working interactively, simultaneously</span><br>
<span>* 4 GPUs partition</span><br>
<span></span><br>
<span>Kind Regards</span><br>
<span>-- </span><br>
<span>Kamil Wilczek  [https://keys.openpgp.org/]</span><br>
<span>[D415917E84B8DA5A60E853B6E676ED061316B69B]</span><br>
</div>
</blockquote>
</div>
</body>
</html>