<div dir="ltr"><div dir="ltr"><div>Hi,</div><div><br></div><div>Check the UnkillableStepProgram and UnkillableStepTimeout options in slurm.conf.</div><div>We
 use it to drain the stuck nodes and mail us - as here, usually stuck processes will require a reboot. As the drained strigger will never get
 triggered, we also set a finished trigger for the next RUNNING job. 
That trigger will either send us mail if there are only stuck processes,
 or strigger --fini the next RUNNING job.<br></div></div><div><br></div><div>    Yair.</div><div><br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Tue, May 28, 2019 at 7:58 PM mercan <<a href="mailto:ahmet.mercan@uhem.itu.edu.tr">ahmet.mercan@uhem.itu.edu.tr</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Hi;<br>
<br>
If you did not use the epilog script, you can set the epilog script to <br>
clean up all residues from the finished jobs:<br>
<br>
<a href="https://wiki.fysik.dtu.dk/niflheim/Slurm_configuration#configure-prolog-and-epilog-scripts" rel="noreferrer" target="_blank">https://wiki.fysik.dtu.dk/niflheim/Slurm_configuration#configure-prolog-and-epilog-scripts</a><br>
<br>
Ahmet M.<br>
<br>
<br>
28.05.2019 19:03 tarihinde Matthew BETTINGER yazdı:<br>
> We use triggers for the obvious alerts but is that a way to make a trigger for nodes stuck in CG (completing) state?  Some user jobs, mostly Julia notebook can get hung in completing state is the user kills the running job or cancels it with cntrl.  When this happens we can have many many nodes stuck in CG.  Slurm 17.02.6.  Thanks!<br>
><br>
<br>
</blockquote></div><br clear="all"><br>-- <br><div dir="ltr" class="gmail_signature"><div dir="ltr">
    <div>
      <pre style="font-family:monospace">  <span style="color:rgb(133,12,27)">/|</span>       |
  <span style="color:rgb(133,12,27)">\/</span>       | <span style="color:rgb(51,88,104);font-weight:bold">Yair Yarom </span><span style="color:rgb(51,88,104)">| Senior DevOps Architect</span>
  <span style="color:rgb(92,181,149)">[]</span>       | <span style="color:rgb(51,88,104);font-weight:bold">The Rachel and Selim Benin School</span>
  <span style="color:rgb(92,181,149)">[]</span> <span style="color:rgb(133,12,27)">/\</span>    | <span style="color:rgb(51,88,104);font-weight:bold">of Computer Science and Engineering</span>
  <span style="color:rgb(92,181,149)">[]</span><span style="color:rgb(0,161,146)">//</span><span style="color:rgb(133,12,27)">\</span><span style="color:rgb(133,12,27)">\</span><span style="color:rgb(49,154,184)">/</span>  | <span style="color:rgb(51,88,104)">The Hebrew University of Jerusalem</span>
  <span style="color:rgb(92,181,149)">[</span><span style="color:rgb(1,84,76)">/</span><span style="color:rgb(0,161,146)">/</span>  <span style="color:rgb(41,16,22)">\</span><span style="color:rgb(41,16,22)">\</span>  | <span style="color:rgb(51,88,104)">T +972-2-5494522 | F +972-2-5494522</span>
  <span style="color:rgb(1,84,76)">//</span>    <span style="color:rgb(21,122,134)">\</span>  | <span style="color:rgb(51,88,104)"><a href="mailto:irush@cs.huji.ac.il" target="_blank">irush@cs.huji.ac.il</a></span>
 <span style="color:rgb(127,130,103)">/</span><span style="color:rgb(1,84,76)">/</span>        |
</pre>
    </div>
  

</div></div>