<div style="line-height:1.7;color:#000000;font-size:14px;font-family:Arial"><p style="margin: 0;"><br></p><div style="margin: 0;">Hi list,</div><div style="margin: 0;"><br></div><div id="isForwardContent"><div style="line-height:1.7;color:#000000;font-size:14px;font-family:Arial"><div style="margin:0;">There is a problem when dealing with Slurm's high availability. </div><div style="margin:0;">Now, In my env, I store the state file in the local hard disk for Ctld nodes, and use a shell script referencing the output of "scontrol ping" to sync files with interval time (2s, if making the time shorter then it will influence the server throughput),</div><div style="margin:0;"><br></div><div style="margin:0;">When I test Slurm HA, found it will use about configured time in slurm.conf to do the HA action by heartbeat method, </div><div style="margin:0;">but it will cost between 2.5s to 3s, with the command "scontrol takeover 1".</div><div style="margin:0;"><br></div><div style="margin:0;">The shell script method will work well in scenario 1. </div><div style="margin:0;">But In the second scenario,  I found it is not a good way for synchronizing the state file from the main Ctld to the new main Ctld.</div><div style="margin:0;"><br></div><div style="margin:0;">I have several questions at below:</div><div style="margin:0;">1. what's your favorite way to do HA dealing with state files? On the Slurm website, I did find useful messages.</div><div style="margin:0;">2. what's the best way with a shell script to sync state files? I go through the code about parameters of "SlurmctldPrimaryOffProg" and "SlurmctldPrimaryOnProg", found the OffProg is better to do do the last time sync operation, is my idea ok for this scenario? </div></div><div id="isForwardContent"><br></div><div id="isForwardContent"><br></div>Thanks<br><br><span title="neteasefooter"><p> </p></span></div></div><br><br><span title="neteasefooter"><p> </p></span>