<div dir="ltr"><div dir="ltr"><div>Dear Christopher,</div><div><br></div><div>I tried as you suggested and increased UnkillableStepTimeout from 60 to 120 seconds, but a few hours later three of my nodes were drained with reason "Kill task failed" again. We're not using cgroups. There is a bug¹ on SchedMD's tracker describing attempts to understand this error. There they mention it possibly being related to the new X11 code in SLURM 18.08.<br></div><div><br></div><div>Regards,</div><div><br></div><div>¹ <a href="https://bugs.schedmd.com/show_bug.cgi?id=6307">https://bugs.schedmd.com/show_bug.cgi?id=6307</a><br></div><div><br></div></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Thu, May 16, 2019 at 7:02 PM Christopher Samuel <<a href="mailto:chris@csamuel.org">chris@csamuel.org</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">On 5/16/19 1:04 AM, Alan Orth wrote:<br>
<br>
> but now we get a handful of nodes drained every day with reason "Kill <br>
> task failed". In ten years of using SLURM I've never had so many <br>
> problems as I'm having now. :\<br>
<br>
We see "kill task failed" issues but as Marcus says that's not related <br>
to X11 support, when we see it it's usually because the kernel cannot <br>
evict dirty pages from cgroups quickly enough (or at all) for Slurm's <br>
liking.  You may want to tweak the default timeout for your <br>
UnkillableStepTimeout from the default of 60 seconds.<br>
<br>
All the best,<br>
Chris<br>
-- <br>
   Chris Samuel  :  <a href="http://www.csamuel.org/" rel="noreferrer" target="_blank">http://www.csamuel.org/</a>  :  Berkeley, CA, USA<br>
<br>
</blockquote></div><br clear="all"><br>-- <br><div dir="ltr" class="gmail_signature">Alan Orth<br><a href="mailto:alan.orth@gmail.com" target="_blank">alan.orth@gmail.com</a><br><a href="https://picturingjordan.com" target="_blank">https://picturingjordan.com</a><br><a href="https://englishbulgaria.net" target="_blank">https://englishbulgaria.net</a><br><a href="https://mjanja.ch" target="_blank">https://mjanja.ch</a><br>"In heaven all the interesting people are missing." ―Friedrich Nietzsche</div>