<div dir="ltr"><div>Many thanks, William. That may have been the issue. I changed the hostname to FQDN and  "StorageHost=localhost" and now it seems to try connecting to the database.<br></div><div><br></div><div>[root@mannose sushil]# cat /var/log/slurm/slurmctld.log</div><div>[2022-12-01T15:26:50.942] Job accounting information stored, but details not gathered<br>[2022-12-01T15:26:50.943] slurmctld version 20.11.9 started on cluster mannose<br>[2022-12-01T15:26:52.949] error: If munged is up, restart with --num-threads=10<br>[2022-12-01T15:26:52.949] error: Munge encode failed: Failed to access "Abcd_123": No such file or directory<br>[2022-12-01T15:26:52.950] error: slurm_send_node_msg: g_slurm_auth_create: REQUEST_PERSIST_INIT has authentication error: Invalid authentication credential<br>[2022-12-01T15:26:52.950] error: slurm_persist_conn_open: failed to send persistent connection init message to localhost:6819<br>[2022-12-01T15:26:52.950] error: Sending PersistInit msg: Protocol authentication error<br>[2022-12-01T15:26:52.950] accounting_storage/slurmdbd: clusteracct_storage_p_register_ctld: Registering slurmctld at port 6817 with slurmdbd<br>[2022-12-01T15:26:54.954] error: If munged is up, restart with --num-threads=10<br>[2022-12-01T15:26:54.954] error: Munge encode failed: Failed to access "Abcd_123": No such file or directory<br>[2022-12-01T15:26:54.954] error: slurm_send_node_msg: g_slurm_auth_create: REQUEST_PERSIST_INIT has authentication error: Invalid authentication credential<br>[2022-12-01T15:26:54.954] error: slurm_persist_conn_open: failed to send persistent connection init message to localhost:6819<br>[2022-12-01T15:26:54.954] error: Sending PersistInit msg: Protocol authentication error<br>[2022-12-01T15:26:54.955] error: Association database appears down, reading from state file.<br>[2022-12-01T15:26:54.955] error: Unable to get any information from the state file<br>[2022-12-01T15:26:54.955] fatal: slurmdbd and/or database must be up at slurmctld start time<br></div><div><br></div><div>"Abcd_123" is the password. This password works to access the database:<br></div><div><br></div><div><br></div><div>[root@mannose sushil]# mysql -p -u slurm<br>Enter password: <br>Welcome to the MariaDB monitor.  Commands end with ; or \g.<br>Your MariaDB connection id is 581<br>Server version: 5.5.68-MariaDB MariaDB Server<br><br>Copyright (c) 2000, 2018, Oracle, MariaDB Corporation Ab and others.<br><br>Type 'help;' or '\h' for help. Type '\c' to clear the current input statement.<br><br>MariaDB [(none)]> show grants;<br>+--------------------------------------------------------------------------------------------------------------+<br>| Grants for slurm@localhost                                                                                   |<br>+--------------------------------------------------------------------------------------------------------------+<br>| GRANT USAGE ON *.* TO 'slurm'@'localhost' IDENTIFIED BY PASSWORD '*0E54A04D59B6C9F7B7B6269BE7F30AD3E3409895' |<br>| GRANT ALL PRIVILEGES ON `slurm_acct_db`.* TO 'slurm'@'localhost' WITH GRANT OPTION                           |<br>+--------------------------------------------------------------------------------------------------------------+<br>2 rows in set (0.00 sec)<br><br>MariaDB [(none)]></div><div><br></div><div>Any pointers to fix this?</div><div> <br></div><div>best,</div><div>Sushil</div><div><br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Wed, Nov 30, 2022 at 5:36 PM William Brown <<a href="mailto:william@signalbox.org.uk">william@signalbox.org.uk</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div class="msg-2275366091372772012"><div lang="EN-GB" style="overflow-wrap: break-word;"><div class="m_-2275366091372772012WordSection1"><p class="MsoNormal"><span>If this is a single host machine I suggest checking the /etc/hosts file to make sure that ‘mannose’ is listed as you expect.  It is generally advised to use FQDNs for host names; the fact that the message “</span>connection to host:mannose:6819: Connection refused<span>” used a short name may mean that in a configuration file you have a shortname.   Equally the incoming connection may be coming not from the IP of ‘mannose’ but from localhost (127.0.0.1 if you are using only IPv4).<u></u><u></u></span></p><p class="MsoNormal"><span><u></u> <u></u></span></p><p class="MsoNormal"><span>You also have a cluster name that looks like an FQDN, you may want to change that to something else; the cluster name is I think an abstract name, where host names must be for real nodes that are resolvable.<u></u><u></u></span></p><p class="MsoNormal"><span><u></u> <u></u></span></p><p class="MsoNormal"><span>You may also find information in /var/log/messages or /var/log/secure….if applicable to your Linux distro.<u></u><u></u></span></p><p class="MsoNormal"><span><u></u> <u></u></span></p><p class="MsoNormal"><span>I use Slurm with firewalld and it is fine usually.<u></u><u></u></span></p><p class="MsoNormal"><span><u></u> <u></u></span></p><p class="MsoNormal"><span>William<u></u><u></u></span></p><p class="MsoNormal"><span><u></u> <u></u></span></p><div style="border-right:none;border-bottom:none;border-left:none;border-top:1pt solid rgb(225,225,225);padding:3pt 0cm 0cm"><p class="MsoNormal"><b><span lang="EN-US">From:</span></b><span lang="EN-US"> slurm-users <<a href="mailto:slurm-users-bounces@lists.schedmd.com" target="_blank">slurm-users-bounces@lists.schedmd.com</a>> <b>On Behalf Of </b>Sushil Mishra<br><b>Sent:</b> 30 November 2022 22:44<br><b>To:</b> Slurm User Community List <<a href="mailto:slurm-users@lists.schedmd.com" target="_blank">slurm-users@lists.schedmd.com</a>><br><b>Subject:</b> [slurm-users] slurm_persist_conn_open_without_init: failed to open persistent connection to host<u></u><u></u></span></p></div><p class="MsoNormal"><u></u> <u></u></p><div><p class="MsoNormal">Hi all,<u></u><u></u></p><div><p class="MsoNormal"><u></u> <u></u></p></div><div><p class="MsoNormal">I installed slurm and enable accounting in a single-node machine, i.e same server is the master and computing node. I mainly followed this page for instructions:<u></u><u></u></p></div><div><p class="MsoNormal"><a href="https://southgreenplatform.github.io/trainings/hpc/slurminstallation/" target="_blank">https://southgreenplatform.github.io/trainings/hpc/slurminstallation/</a><u></u><u></u></p></div><div><p class="MsoNormal">After enabling accounting I am having problems in starting slurmctld.service. <u></u><u></u></p></div><div><p class="MsoNormal">[root@mannose sushil]# cat /var/log/slurm/slurmctld.log <br>[2022-11-30T16:32:15.194] Job accounting information stored, but details not gathered<br>[2022-11-30T16:32:15.195] slurmctld version 20.11.9 started on cluster <a href="http://mannose.olemiss.edu" target="_blank">mannose.olemiss.edu</a><br>[2022-11-30T16:32:15.201] error: slurm_persist_conn_open_without_init: failed to open persistent connection to host:mannose:6819: Connection refused<br>[2022-11-30T16:32:15.201] error: Sending PersistInit msg: Connection refused<br>[2022-11-30T16:32:15.201] accounting_storage/slurmdbd: clusteracct_storage_p_register_ctld: Registering slurmctld at port 6817 with slurmdbd<br>[2022-11-30T16:32:15.203] error: Sending PersistInit msg: Connection refused<br>[2022-11-30T16:32:15.203] error: Association database appears down, reading from state file.<br>[2022-11-30T16:32:15.203] error: Unable to get any information from the state file<br>[2022-11-30T16:32:15.203] fatal: slurmdbd and/or database must be up at slurmctld start time<u></u><u></u></p></div><div><p class="MsoNormal"><u></u> <u></u></p></div><div><p class="MsoNormal">It is not clear why slurm port 8619 is being used while I have SlurmctldPort=6817 and SlurmdPort=6818 set in clurm.conf. anyways, I opened all three posrts (6817, 6818 and 6819) using  'firewall-cmd --permanent --zone=public --add-port=6819/tcp'<u></u><u></u></p></div><div><p class="MsoNormal"><u></u> <u></u></p></div><div><p class="MsoNormal">MariaDB [(none)]> show grants<u></u><u></u></p></div><div><p class="MsoNormal">    -> ;<br>+--------------------------------------------------------------------------------------------------------------+<br>| Grants for slurm@localhost                                                                                   |<br>+--------------------------------------------------------------------------------------------------------------+<br>| GRANT USAGE ON *.* TO 'slurm'@'localhost' IDENTIFIED BY PASSWORD '*0E54A04D59B6C9F7B7B6269BE7F30AD3E3409895' |<br>| GRANT ALL PRIVILEGES ON `slurm_acct_db`.* TO 'slurm'@'localhost' WITH GRANT OPTION                           |<br>+--------------------------------------------------------------------------------------------------------------+<br>2 rows in set (0.00 sec)<br><br>MariaDB [(none)]> quit<u></u><u></u></p></div><div><p class="MsoNormal"><u></u> <u></u></p></div><div><p class="MsoNormal">Can someone help in figuring out possibly what is going wrong? <u></u><u></u></p></div><div><p class="MsoNormal"><u></u> <u></u></p></div><div><p class="MsoNormal">Best,<u></u><u></u></p></div><div><p class="MsoNormal">SK<u></u><u></u></p></div><div><p class="MsoNormal"><u></u> <u></u></p></div></div></div></div></div></blockquote></div>