<div dir="ltr"><div>Hi Forum,</div><div><br></div><div>First, cluster info:<br></div><div>Debian Buster (armbian) on arm64 architecture -- really nothing too fancy going on here.<br></div><div><br></div><div>I've built slurm from source with PMIX with the following steps:<br></div><div><br></div><div><ul><li>Configure openmpi with slurm and internal pmix -- works as intended with mpirun/mpiexec</li><li>install debian package "libpmix-dev"<br></li><li>Configure slurm pointing at pmix dev library, and munge. <br></li></ul><div><br></div><div>I copied the ".service" files from the build directory into my /etc/systemd/system/. I modified these files to point to the right configure file and such. The only thing I'm not sure about is where to point the EnvironmentFile in that unit file. <br><br></div><div>Now, here's the question: I can run <br></div><div><span style="font-family:monospace"># systemctl enable slurmctld</span></div><div>No errors are printed and systemctl status says it's just inactive</div><div>I then start the service with <br></div><div><span style="font-family:monospace"># systemctl start slurmctld</span></div><div>No errors are printed and the controller can successfully communicate with the compute nodes</div><div><br></div><div>Now on restart, the service does not automatically start because of the following error:</div><div><span style="font-family:monospace">slurmctld.service - Slurm controller daemon</span></div><div><span style="font-family:monospace">Loaded: loaded (/etc/systemd/system/slurmctld.service; enabled; vendor preset: enabled)</span></div><div><span style="font-family:monospace">Active: failed (Result: exit-code) since Fri 2020-12-11 21:32:47 GMT; 8min ago<br>Process: 455 ExecStart=/usr/local/sbin/slurmctld -D $SLURMCTLD_OPTIONS (code=exited, status=1/FAILURE)<br>Main PID: 455 (code=exited, status=1/FAILURE)<br><br>Dec 11 21:32:47 ApacheHead systemd[1]: Started Slurm controller daemon.<br>Dec 11 21:32:47 ApacheHead systemd[1]: slurmctld.service: Main process exited, code=exited, status=1/FAILURE<br>Dec 11 21:32:47 ApacheHead systemd[1]: slurmctld.service: Failed with result 'exit-code'.</span></div><div><span style="font-family:monospace"><br></span></div><div>Despite these errors, I can still start the service with the systemctl start command. Also, running the actual slurmctld command found in sbin runs correctly with no critical errors.</div><div><br></div><div>I've tried to look into this, but can't seem to find too much on this problem for slurm or for system processes in general.<br><br></div><div>Any ideas?</div><div><br></div><div>Thanks,<br></div></div><div><br></div><div><div><div dir="ltr" class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr">~Avery Grieve</div><div>They/Them/Theirs please!<br></div><div dir="ltr"><div>University of Michigan</div></div></div></div></div></div></div></div></div></div></div></div>