<div dir="ltr"><div dir="ltr">Thanks Kilian!  I'll look at this today.</div><div dir="ltr"><br></div><div>-Randy</div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Wed, Apr 10, 2019 at 3:59 PM Kilian Cavalotti <<a href="mailto:kilian.cavalotti.work@gmail.com">kilian.cavalotti.work@gmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Hi Randy!<br>
<br>
> We have a slurm cluster with a number of nodes, some of which have more than one GPU.  Users select how many or which GPUs they want with srun's "--gres" option.  Nothing fancy here, and in general this works as expected.  But starting a few days ago we've had problems on one machine.  A specific user started a single-gpu session with srun, and nvidia-smi reported one GPU, as expected.  But about two hours later, he suddenly could see all GPUs with nvidia-smi.  To be clear, this is all from the iterative session provided by Slurm.  He did not ssh to the machine.  He's not running Docker.  Nothing odd as far as we can tell.<br>
><br>
> A big problem is I've been unable to reproduce the problem.  I have confidence that what this user is telling me is correct, but I can't do much until/unless I can reproduce it.<br>
<br>
I think this kind of behavior has already been reported a few times:<br>
<a href="https://lists.schedmd.com/pipermail/slurm-users/2018-April/000885.html" rel="noreferrer" target="_blank">https://lists.schedmd.com/pipermail/slurm-users/2018-April/000885.html</a><br>
<a href="https://bugs.schedmd.com/show_bug.cgi?id=5300" rel="noreferrer" target="_blank">https://bugs.schedmd.com/show_bug.cgi?id=5300</a><br>
<br>
As far as I can tell, it looks like this is probably systemd messing<br>
up with cgroups and deciding it's the king of cgroups on the host.<br>
<br>
You'll find more context and details in<br>
<a href="https://bugs.schedmd.com/show_bug.cgi?id=5292" rel="noreferrer" target="_blank">https://bugs.schedmd.com/show_bug.cgi?id=5292</a><br>
<br>
Cheers,<br>
-- <br>
Kilian<br>
<br>
</blockquote></div>