<div dir="ltr">o.k. thx for the explanation.</div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">Am Fr., 27. Sept. 2019 um 15:38 Uhr schrieb Steffen Grunewald <<a href="mailto:steffen.grunewald@aei.mpg.de">steffen.grunewald@aei.mpg.de</a>>:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">On Fri, 2019-09-27 at 14:58:40 +0200, Rafał Kędziorski wrote:<br>
> Am Fr., 27. Sept. 2019 um 13:50 Uhr schrieb Steffen Grunewald <<br>
> <a href="mailto:steffen.grunewald@aei.mpg.de" target="_blank">steffen.grunewald@aei.mpg.de</a>>:<br>
> > On Fri, 2019-09-27 at 11:19:16 +0200, Juergen Salk wrote:<br>
> > ><br>
> > > you may try setting `ReturnToService=2´ in slurm.conf.<br>
> > ><br>
> > Caveat: A spontaneously rebooting machine may create a "black hole" this<br>
> > way.<br>
> ><br>
> How do you mean this? Could ReturnToService=2 be a problem?<br>
<br>
For us it was - we had (and still have) nodes spontaneously rebooting.<br>
If they come up into idle, they will eat the next job, etc as infinitum -<br>
thus we've set ReturnToService=0.<br>
<br>
"Black hole" in a figurative way, still swallowing all it could get its hands on.<br>
<br>
You've got to decide what's worse: have full control over machines rebooted<br>
intentionally, or have full control over misbehaving ones. My own choice is clear.<br>
<br>
- S<br>
<br>
</blockquote></div>