<div dir="ltr">Dear SLURM users,<div><br></div><div>I was wondering what kind of tools the community is using for orchestrating SLURM operations.</div><div><br></div><div>For instance, say you want to execute an operation in the cluster which requires draining the nodes first. What kind of tools are you using to automate the state machine that would go through the draining, applying the operation, then finally undraining the nodes? (maybe even more convoluted procedures)</div><div><br></div><div>While it is possible to do these operations in a semi-manual fashion by using a combination of automated tasks (scontrol and some ansible/mco/bolt/whatever), this will usually result in manually transitioning between drain -> apply operatation -> undrain.  The disadvantage of this is the overhead of keeping track of the state of draining nodes (some of our jobs can run for many weeks). In addition, if a set of nodes are drained at midnight or during the weekend, no jobs will be able to run until an operator triggers the next step, which means wasting precious computing resources with idle hours :)</div><div>This is where an orchestration tool would come in handy.</div><div><br></div><div>For doing reboots, scontrol reboot almost does all of this already, but there may be other, more complex operations to be done in a similar fashion.</div><div><br></div><div>Integration with a possible built-in healthcheck is also something to consider, as the orchestration logic would need to take care of disabling the healthcheck funcionality that automatically restores/resumes drained nodes to avoid conflicts.</div><div><br></div><div>I would like to learn how the community deals with these kinds of operations, whether you are using Open Source tools, or you developed your own orchestration framework. Maybe you developed your own SLURM-specific tools to deal with this?</div><div><br></div><div>Thanks!</div><div>Pablo</div><div><br></div></div>