<div dir="ltr">Hi all,<div><br></div><div>Has anyone else observed jobs getting OOM-killed in 20.11.8 with cgroups that ran fine in previous versions like 20.10?</div><div><br></div><div>I've had a few reports from users after upgrading maybe six weeks ago that their jobs are getting OOM-killed when they haven't changed anything and the job ran to completion in the past with the same memory specification.</div><div><br></div><div>The most recent report I received today involved a job running a "cp" command getting OOM-killed. I have a hard time believing "cp" uses very much memory...</div><div><br></div><div>These machines are running various 5.4.x or 5.3.x Linux kernels.</div><div><br></div><div>I've had really good luck with the cgroups OOM-killer the last few years from keeping my nodes getting overwhelmed by runaway jobs. I'd hate to have to disable it just to clean up these weird issues.</div><div><br></div><div>My cgroup.conf file looks like the following:</div><div><br></div><div><font face="monospace">CgroupAutomount=yes<br><br>ConstrainCores=yes<br><br>ConstrainRAMSpace=yes<br>ConstrainSwapSpace=yes<br><br>AllowedRamSpace=100<br>AllowedSwapSpace=0</font><br></div><div><br></div><div>Should I maybe bump AllowedRamSpace? I don't see how this is any different than just asking the user to re-run the job with a larger memory allocation request. And that doesn't explain why jobs suddenly need more memory before getting OOM-killed than they used to.</div><div><div><br></div>Thanks,</div><div><br></div><div>Sean</div><div><br></div></div>