<div dir="ltr"><div>Hi Tim and community,</div><div>We are currently having the same issue (cgroups not working it seems, showing all GPUs on jobs) on a GPU-compute node (DGX A100) a couple of days ago after a full update (apt upgrade). Now whenever we launch a job for that partition, we get the error message mentioned by Tim. As a note, we have another custom GPU-compute node with L40s, on a different partition, and that one works fine.<br></div><div>Before this error, we always had small differences in kernel version between nodes, so I am not sure if this can be the problem. Nevertheless, here is the info of our nodes as well.</div><div><br></div><div><b>[Problem node]</b> The DGX A100 node has this kernel<br><span style="background-color:rgb(255,255,0)">cnavarro@nodeGPU01:~$ uname -a<br>Linux nodeGPU01 5.15.0-1042-nvidia #42-Ubuntu SMP Wed Nov 15 20:28:30 UTC 2023 x86_64 x86_64 x86_64 GNU/Linux</span></div><div><span style="background-color:rgb(255,255,0)"><br></span></div><div><span style="background-color:rgb(255,255,255)"></span><span style="background-color:rgb(255,255,255)"><b>[Functioning node]</b> The Custom GPU node (L40s) has this kernel</span></div><div><span style="background-color:rgb(255,255,0)">cnavarro@nodeGPU02:~$ uname -a<br>Linux nodeGPU02 5.15.0-91-generic #101-Ubuntu SMP Tue Nov 14 13:30:08 UTC 2023 x86_64 x86_64 x86_64 GNU/Linux</span></div><div><span style="background-color:rgb(255,255,0)"><br></span></div><div><span style="background-color:rgb(255,255,255)"></span><span style="background-color:rgb(255,255,255)"><b>And the login node </b>(slurmctld)<br></span></div><div><span style="background-color:rgb(255,255,0)">➜  ~ uname -a<br>Linux patagon-master 5.15.0-91-generic #101-Ubuntu SMP Tue Nov 14 13:30:08 UTC 2023 x86_64 x86_64 x86_64 GNU/Linux</span></div><div><span style="background-color:rgb(255,255,0)"><br></span></div><div><span style="background-color:rgb(255,255,255)"></span><span style="background-color:rgb(255,255,255)">Any ideas what we should check?<br></span></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Thu, Jan 4, 2024 at 3:03 PM Tim Schneider <<a href="mailto:tim.schneider1@tu-darmstadt.de" target="_blank">tim.schneider1@tu-darmstadt.de</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Hi,<br>
<br>
I am using SLURM 22.05.9 on a small compute cluster. Since I reinstalled <br>
two of our nodes, I get the following error when launching a job:<br>
<br>
slurmstepd: error: load_ebpf_prog: BPF load error (No space left on <br>
device). Please check your system limits (MEMLOCK).<br>
<br>
Also the cgroups do not seem to work properly anymore, as I am able to <br>
see all GPUs even if I do not request them, which is not the case on the <br>
other nodes.<br>
<br>
One difference I found between the updated nodes and the original nodes <br>
(both are Ubuntu 22.04) is the kernel version, which is <br>
"5.15.0-89-generic #99-Ubuntu SMP" on the functioning nodes and <br>
"5.15.0-91-generic #101-Ubuntu SMP" on the updated nodes. I could not <br>
figure out how to install the exact first kernel version on the updated <br>
nodes, but I noticed that when I reinstall 5.15.0 with this tool: <br>
<a href="https://github.com/pimlie/ubuntu-mainline-kernel.sh" rel="noreferrer" target="_blank">https://github.com/pimlie/ubuntu-mainline-kernel.sh</a>, the error message <br>
disappears. However, once I do that, the network driver does not <br>
function properly anymore, so this does not seem to be a good solution.<br>
<br>
Has anyone seen this issue before or is there maybe something else I <br>
should take a look at? I am also happy to just find a workaround such <br>
that I can take these nodes back online.<br>
<br>
I appreciate any help!<br>
<br>
Thanks a lot in advance and best wishes,<br>
<br>
Tim<br>
<br>
<br>
</blockquote></div><br clear="all"><br><span class="gmail_signature_prefix">-- </span><br><div dir="ltr" class="gmail_signature"><div dir="ltr"><div>Cristóbal A. Navarro</div></div></div>