<div dir="ltr"><div>Many thanks<br></div><div>One question? Do we have to apply this patch (and recompile slurm i guess) only on the compute-node with problems?</div><div>Also, I noticed the patch now appears as "obsolete", is that ok?<br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Wed, Jan 24, 2024 at 9:52 AM Stefan Fleischmann <<a href="mailto:sfle@kth.se">sfle@kth.se</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Turns out I was wrong, this is not a problem in the kernel at all. It's<br>
a known bug that is triggered by long bpf logs, see here<br>
 <a href="https://bugs.schedmd.com/show_bug.cgi?id=17210" rel="noreferrer" target="_blank">https://bugs.schedmd.com/show_bug.cgi?id=17210</a><br>
<br>
There is a patch included there.<br>
<br>
Cheers,<br>
Stefan<br>
<br>
On Tue, 23 Jan 2024 15:28:59 +0100 Stefan Fleischmann <<a href="mailto:sfle@kth.se" target="_blank">sfle@kth.se</a>><br>
wrote:<br>
> I don't think there is much for SchedMD to do. As I said since it is<br>
> working fine with newer kernels there doesn't seem to be any breaking<br>
> change in cgroup2 in general, but only a regression introduced in one<br>
> of the latest updates in 5.15.<br>
> <br>
> If Slurm was doing something wrong with cgroup2, and it accidentally<br>
> worked until this recent change, then other kernel versions should<br>
> show the same behavior. But as far as I can tell it still works just<br>
> fine with newer kernels.<br>
> <br>
> Cheers,<br>
> Stefan<br>
> <br>
> On Tue, 23 Jan 2024 15:20:56 +0100<br>
> Tim Schneider <<a href="mailto:tim.schneider1@tu-darmstadt.de" target="_blank">tim.schneider1@tu-darmstadt.de</a>> wrote:<br>
> <br>
> > Hi,<br>
> > <br>
> > I have filed a bug report with SchedMD <br>
> > (<a href="https://bugs.schedmd.com/show_bug.cgi?id=18623" rel="noreferrer" target="_blank">https://bugs.schedmd.com/show_bug.cgi?id=18623</a>), but the support<br>
> > told me they cannot invest time in this issue since I don't have a<br>
> > support contract. Maybe they will look into it once it affects more<br>
> > people or someone important enough.<br>
> > <br>
> > So far, I have resorted to using 5.15.0-89-generic, but I am also a<br>
> > bit concerned about the security aspect of this choice.<br>
> > <br>
> > Best,<br>
> > <br>
> > Tim<br>
> > <br>
> > On 23.01.24 14:59, Stefan Fleischmann wrote:  <br>
> > > Hi!<br>
> > ><br>
> > > I'm seeing the same in our environment. My conclusion is that it<br>
> > > is a regression in the Ubuntu 5.15 kernel, introduced with<br>
> > > 5.15.0-90-generic. Last working kernel version is<br>
> > > 5.15.0-89-generic. I have filed a bug report here:<br>
> > > <a href="https://bugs.launchpad.net/bugs/2050098" rel="noreferrer" target="_blank">https://bugs.launchpad.net/bugs/2050098</a><br>
> > ><br>
> > > Please add yourself to the affected users in the bug report so it<br>
> > > hopefully gets more attention.<br>
> > ><br>
> > > I've tested with newer kernels (6.5, 6.6 and 6.7) and the problem<br>
> > > does not exist there. 6.5 is the latest hwe kernel for 22.04 and<br>
> > > would be an option for now. Reverting back to 5.15.0-89 would work<br>
> > > as well, but I haven't looked into the security aspects of that.<br>
> > ><br>
> > > Cheers,<br>
> > > Stefan<br>
> > ><br>
> > > On Mon, 22 Jan 2024 13:31:15 -0300<br>
> > > cristobal.navarro.g at <a href="http://gmail.com" rel="noreferrer" target="_blank">gmail.com</a> wrote:<br>
> > >    <br>
> > >> Hi Tim and community,<br>
> > >> We are currently having the same issue (cgroups not working it<br>
> > >> seems, showing all GPUs on jobs) on a GPU-compute node (DGX A100)<br>
> > >> a couple of days ago after a full update (apt upgrade). Now<br>
> > >> whenever we launch a job for that partition, we get the error<br>
> > >> message mentioned by Tim. As a note, we have another custom<br>
> > >> GPU-compute node with L40s, on a different partition, and that<br>
> > >> one works fine. Before this error, we always had small<br>
> > >> differences in kernel version between nodes, so I am not sure if<br>
> > >> this can be the problem. Nevertheless, here is the info of our<br>
> > >> nodes as well.<br>
> > >><br>
> > >> *[Problem node]* The DGX A100 node has this kernel<br>
> > >> cnavarro at nodeGPU01:~$ uname -a<br>
> > >> Linux nodeGPU01 5.15.0-1042-nvidia #42-Ubuntu SMP Wed Nov 15<br>
> > >> 20:28:30 UTC 2023 x86_64 x86_64 x86_64 GNU/Linux<br>
> > >><br>
> > >> *[Functioning node]* The Custom GPU node (L40s) has this kernel<br>
> > >> cnavarro at nodeGPU02:~$ uname -a<br>
> > >> Linux nodeGPU02 5.15.0-91-generic #101-Ubuntu SMP Tue Nov 14<br>
> > >> 13:30:08 UTC 2023 x86_64 x86_64 x86_64 GNU/Linux<br>
> > >><br>
> > >> *And the login node *(slurmctld)<br>
> > >> ?  ~ uname -a<br>
> > >> Linux patagon-master 5.15.0-91-generic #101-Ubuntu SMP Tue Nov 14<br>
> > >> 13:30:08 UTC 2023 x86_64 x86_64 x86_64 GNU/Linux<br>
> > >><br>
> > >> Any ideas what we should check?<br>
> > >><br>
> > >> On Thu, Jan 4, 2024 at 3:03?PM Tim Schneider <tim.schneider1 at<br>
> > >> <a href="http://tu-darmstadt.de" rel="noreferrer" target="_blank">tu-darmstadt.de</a>> wrote:<br>
> > >>    <br>
> > >>> Hi,<br>
> > >>><br>
> > >>> I am using SLURM 22.05.9 on a small compute cluster. Since I<br>
> > >>> reinstalled two of our nodes, I get the following error when<br>
> > >>> launching a job:<br>
> > >>><br>
> > >>> slurmstepd: error: load_ebpf_prog: BPF load error (No space left<br>
> > >>> on device). Please check your system limits (MEMLOCK).<br>
> > >>><br>
> > >>> Also the cgroups do not seem to work properly anymore, as I am<br>
> > >>> able to see all GPUs even if I do not request them, which is not<br>
> > >>> the case on the other nodes.<br>
> > >>><br>
> > >>> One difference I found between the updated nodes and the<br>
> > >>> original nodes (both are Ubuntu 22.04) is the kernel version,<br>
> > >>> which is "5.15.0-89-generic #99-Ubuntu SMP" on the functioning<br>
> > >>> nodes and "5.15.0-91-generic #101-Ubuntu SMP" on the updated<br>
> > >>> nodes. I could not figure out how to install the exact first<br>
> > >>> kernel version on the updated nodes, but I noticed that when I<br>
> > >>> reinstall 5.15.0 with this tool:<br>
> > >>> <a href="https://github.com/pimlie/ubuntu-mainline-kernel.sh" rel="noreferrer" target="_blank">https://github.com/pimlie/ubuntu-mainline-kernel.sh</a>, the error<br>
> > >>> message disappears. However, once I do that, the network driver<br>
> > >>> does not function properly anymore, so this does not seem to be<br>
> > >>> a good solution.<br>
> > >>><br>
> > >>> Has anyone seen this issue before or is there maybe something<br>
> > >>> else I should take a look at? I am also happy to just find a<br>
> > >>> workaround such that I can take these nodes back online.<br>
> > >>><br>
> > >>> I appreciate any help!<br>
> > >>><br>
> > >>> Thanks a lot in advance and best wishes,<br>
> > >>><br>
> > >>> Tim<br>
> > >>><br>
> > >>><br>
> > >>>       <br>
> <br>
</blockquote></div><br clear="all"><br><span class="gmail_signature_prefix">-- </span><br><div dir="ltr" class="gmail_signature"><div dir="ltr"><div>Cristóbal A. Navarro</div></div></div>