<div dir="ltr">I'm experimenting with <span class="" id=":ul.1" tabindex="-1" style="">SLURM</span> Elastic Compute on a cloud platform. I'm facing the following situation: Let's say, <span class="" id=":ul.3" tabindex="-1" style="">SLURM</span> requests that a compute instance is started. The <span class="" id=":ul.4" tabindex="-1" style="">ResumeProgram</span> tries to create the instance, but doesn't succeed because the cloud provider can't provide the instance type at this point in time (happens for example if a <span class="" id=":ul.6" tabindex="-1" style="">GPU</span> instance is requested, but the <span class="" id=":ul.7" tabindex="-1" style="">datacenter</span> simply doesn't have the capacity to provide this instance). <div><span class="" id=":ul.8" tabindex="-1" style="">SLURM</span> will mark the instance as "DOWN" and will not try again to request it. For this scenario this behavior is not optimal. Instead of marking the node DOWN and not trying to request it again after some time, I'd like that <span class="" id=":ul.9" tabindex="-1" style="">slurmctld</span> just forgets about the failure and tries again to start the node. Is there any knob which can be used to achieve this behavior? Optimally, the behavior might be triggered by the return code of the ResumeProgram, e.g., </div><div><br></div><div>return code=0 - Node is starting up</div><div>return code=1 - A permanent error has occurred, don't try again</div><div>return code=2 - A temporary failure has occurred. Try again later.</div><div><br></div></div>