<div dir="ltr"><div>Hi,</div><div><br></div><div>I'm using Slurm's elastic compute functionality to spin up nodes in the cloud, alongside a controller which is also in the cloud.</div><div><br></div><div>When executing a job, Slurm correctly places a node into the state "alloc#" and calls my resume program. My resume program successfully provisions the cloud node and slurmd comes up without a problem.</div><div><br></div><div>My resume program then retrieves the ip address of my cloud node and updates the controller as follows:<br><br></div><div>scontrol update nodename=foo nodeaddr=bar</div><div><br></div><div>And then nothing happens! The node remains in the state "alloc#" until the ResumeTimeout is reached at which point the controller gives up.<br><br>I'm fairly confident that slurmd is able to talk to the controller because if I specify an incorrect hostname for the controller in my slurm.conf, then slurmd immediately errors on startup and exits with a message saying something like "unable to contact controller"<br><br></div><div>What am I missing?<br><br></div><div>Thanks very much in advance if anybody has any ideas!<br></div></div>