<div dir="ltr">Hi Barbara,<div><br></div><div>This is a fresh install. I have installed slurm from source on Debian stretch and now trying to set it up correctly. </div><div>MariaDB is running for but I am confused about the database configuration. </div><div>I followed a tutorial (I can no longer find it) that showed me how to create the database and give it to the slurm user on mysql. Haven't really done anything further than that as running anything return the same errors:</div><div><br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">root@plantae:~# sacctmgr show user -s<br>sacctmgr: error: slurm_persist_conn_open: Something happened with the receiving/processing of the persistent connection init message to localhost:6819: Initial RPC not DBD_INIT<br>sacctmgr: error: slurmdbd: Sending PersistInit msg: No error<br>sacctmgr: error: slurm_persist_conn_open: Something happened with the receiving/processing of the persistent connection init message to localhost:6819: Initial RPC not DBD_INIT<br>sacctmgr: error: slurmdbd: Sending PersistInit msg: No error<br>sacctmgr: error: slurm_persist_conn_open: Something happened with the receiving/processing of the persistent connection init message to localhost:6819: Initial RPC not DBD_INIT<br>sacctmgr: error: slurmdbd: Sending PersistInit msg: No error<br>sacctmgr: error: slurmdbd: DBD_GET_USERS failure: No error<br> Problem with query.</blockquote><div> </div><div><br></div></div><div class="gmail_extra"><br><div class="gmail_quote">On 29 November 2017 at 14:46, Barbara Krašovec <span dir="ltr"><<a href="mailto:barbara.krasovec@ijs.si" target="_blank">barbara.krasovec@ijs.si</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div style="word-wrap:break-word">Did you upgrade SLURM or is it a fresh install?<div><br><div><div>Are there any associations set? For instance, did you create the cluster with sacctmgr?</div><div><font face="Menlo">sacctmgr add cluster <name></font></div><div><br></div><div>Is mariadb/mysql server running, is slurmdbd running? Is it working? Try a simple test, such as:</div><div><pre>sacctmgr show user -s</pre><div>If it was an upgrade, did you try to run the slurmdbd and slurmctld manuallly first:</div></div><div><br></div><div><font face="Menlo">slurmdbd -Dvvvvv</font></div><div><br></div><div>Then controller:</div><div><br></div><div><font face="Menlo">slurmctld -Dvvvvv</font></div><div><br></div><div>Which OS is that?</div><div>Is there a firewall/selinux/ACLs?</div><div><br></div><div>Cheers,</div><div>Barbara</div><div><div class="h5"><div><br></div><div><br></div><div><div><blockquote type="cite"><div>On 29 Nov 2017, at 15:19, Bruno Santos <<a href="mailto:bacmsantos@gmail.com" target="_blank">bacmsantos@gmail.com</a>> wrote:</div><br class="m_-5961843477319096284Apple-interchange-newline"><div><div dir="ltr">Thank you Barbara, <div><br></div><div>Unfortunately, it does not seem to be a munge problem. Munge can successfully authenticate with the nodes. </div><div><br></div><div>I have increased the verbosity level and restarted the slurmctld and now I am getting more information about this:</div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Nov 29 14:08:16 plantae slurmctld[30340]: Registering slurmctld at port 6817 with slurmdbd.</blockquote><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Nov 29 14:08:16 plantae slurmctld[30340]: error: slurm_persist_conn_open: Something happened with the receiving/processing of the persistent connection init message to localhost:6819: Initial RPC not DBD_INIT</blockquote><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Nov 29 14:08:16 plantae slurmctld[30340]: error: slurmdbd: Sending PersistInit msg: No error</blockquote><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Nov 29 14:08:16 plantae slurmctld[30340]: error: slurm_persist_conn_open: Something happened with the receiving/processing of the persistent connection init message to localhost:6819: Initial RPC not DBD_INIT</blockquote><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Nov 29 14:08:16 plantae slurmctld[30340]: error: slurmdbd: Sending PersistInit msg: No error</blockquote><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Nov 29 14:08:16 plantae slurmctld[30340]: fatal: It appears you don't have any association data from your database.  The priority/multifactor plugin requires this information to run correctly.  Please check your database connection and try again.</blockquote></blockquote><div><br></div><div>The problem seems to somehow be related to slurmdbd?  </div><div>I am a bit lost at this point, to be honest. </div><div><br></div><div>Best,</div><div>Bruno</div></div><div class="gmail_extra"><br><div class="gmail_quote">On 29 November 2017 at 14:06, Barbara Krašovec <span dir="ltr"><<a href="mailto:barbara.krasovec@ijs.si" target="_blank">barbara.krasovec@ijs.si</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div style="word-wrap:break-word">Hello,<div><br></div><div>does munge work?</div><div>Try if decode works locally:</div><div><span style="font-family:monospace">munge -n | unmunge</span></div><div>Try if decode works remotely:</div><div><code>munge -n | ssh <somehost_in_cluster> unmunge</code></div><div><code><br></code></div><div><code><font face="Helvetica">It seems as munge keys do not match...</font></code></div><div><br></div><div>See comments inline..<br><div><br><div><span><blockquote type="cite"><div>On 29 Nov 2017, at 14:40, Bruno Santos <<a href="mailto:bacmsantos@gmail.com" target="_blank">bacmsantos@gmail.com</a>> wrote:</div><br class="m_-5961843477319096284m_-4368466949655319384Apple-interchange-newline"><div><div dir="ltr">I actually just managed to figure that one out. <div><br></div><div>The problem was that I had setup AccountingStoragePass=magic in the slurm.conf file while after re-reading the documentation it seems this is only needed if I have a different munge instance controlling the logins to the database, which I don't. </div><div>So commenting that line out seems to have worked however I am now getting a different error: </div><div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Nov 29 13:19:20 plantae slurmctld[29984]: Registering slurmctld at port 6817 with slurmdbd.<br>Nov 29 13:19:20 plantae slurmctld[29984]: error: slurm_persist_conn_open: Something happened with the receiving/processing of the persistent connection init message to localhost:6819: Initial RPC not DBD_INIT<br>Nov 29 13:19:20 plantae systemd[1]: slurmctld.service: Main process exited, code=exited, status=1/FAILURE<br>Nov 29 13:19:20 plantae systemd[1]: slurmctld.service: Unit entered failed state.<br>Nov 29 13:19:20 plantae systemd[1]: slurmctld.service: Failed with result 'exit-code'.</blockquote><div><br></div><div>My slurm.conf looks like this</div><div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"># LOGGING AND ACCOUNTING<br>AccountingStorageHost=localhos<wbr>t<br>AccountingStorageLoc=slurm_db<br>#AccountingStoragePass=magic<br>#AccountingStoragePort=<br>AccountingStorageType=accounti<wbr>ng_storage/slurmdbd<br>AccountingStorageUser=slurm<br>AccountingStoreJobComment=YES<br>ClusterName=research<br>JobCompType=jobcomp/none<br>JobAcctGatherFrequency=30<br>JobAcctGatherType=jobacct_gath<wbr>er/none<br>SlurmctldDebug=3<br>SlurmdDebug=3</blockquote></div></div></div></div></blockquote><div><br></div></span>You only need:</div><div><div>AccountingStorageEnforce=assoc<wbr>iations,limits,qos</div><div>AccountingStorageHost=<hostnam<wbr>e></div><div>AccountingStorageType=accounti<wbr>ng_storage/slurmdbd</div><div><br></div><div>You can remove AccountingStorageLoc and AccountingStorageUser.</div><span><div><br></div><div><br></div><blockquote type="cite"><div><div dir="ltr"><div><div><div><br></div><div>And the slurdbd.conf like this:</div><div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">ArchiveEvents=yes<br>ArchiveJobs=yes<br>ArchiveResvs=yes<br>ArchiveSteps=no<br>#ArchiveTXN=no<br>#ArchiveUsage=no<br># Authentication info<br>AuthType=auth/munge<br>AuthInfo=/var/run/munge/munge.<wbr>socket.2</blockquote><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">#Database info<br># slurmDBD info<br>DbdAddr=plantae<br>DbdHost=plantae<br># Database info<br>StorageType=accounting_storage<wbr>/mysql<br>StorageHost=localhost<br>SlurmUser=slurm<br>StoragePass=magic<br>StorageUser=slurm<br>StorageLoc=slurm_db</blockquote></div><div><br></div><div><br></div></div><div>Thank you very much in advance. </div><div><br></div><div>Best,</div><div>Bruno </div></div></div></div></blockquote><div><br></div></span>Cheers,</div><div>Barbara</div><div><div class="m_-5961843477319096284h5"><div><br><blockquote type="cite"><div><div dir="ltr"><div><div><br></div></div></div><div class="gmail_extra"><br><div class="gmail_quote">On 29 November 2017 at 13:28, Andy Riebs <span dir="ltr"><<a href="mailto:andy.riebs@hpe.com" target="_blank">andy.riebs@hpe.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
  
    
  
  <div bgcolor="#FFFFFF" text="#000000">
    It looks like you don't have the munged daemon running.<div><div class="m_-5961843477319096284m_-4368466949655319384h5"><br>
    <br>
    <div class="m_-5961843477319096284m_-4368466949655319384m_4940209100258878838moz-cite-prefix">On 11/29/2017 08:01 AM, Bruno Santos
      wrote:<br>
    </div>
    <blockquote type="cite">
      
      <div dir="ltr">Hi everyone,
        <div><br>
        </div>
        <div>I have set-up slurm to use slurm_db and all was working
          fine. However I had to change the slurm.conf to play with user
          priority and upon restarting the slurmctl is fails with the
          following messages below. It seems that somehow is trying to
          use the mysql password as a munge socket? </div>
        <div>Any idea how to solve it? </div>
        <div> </div>
        <div>
          <blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Nov 29 12:56:30 plantae
            slurmctld[29613]: Registering slurmctld at port 6817 with
            slurmdbd.<br>
            Nov 29 12:56:32 plantae slurmctld[29613]: error: If munged
            is up, restart with --num-threads=10<br>
            Nov 29 12:56:32 plantae slurmctld[29613]: error: Munge
            encode failed: Failed to access "magic": No such file or
            directory<br>
            Nov 29 12:56:32 plantae slurmctld[29613]: error:
            authentication: Socket communication error<br>
            Nov 29 12:56:32 plantae slurmctld[29613]: error:
            slurm_persist_conn_open: failed to send persistent
            connection init message to localhost:6819<br>
            Nov 29 12:56:32 plantae slurmctld[29613]: error: slurmdbd:
            Sending PersistInit msg: Protocol authentication error<br>
            Nov 29 12:56:34 plantae slurmctld[29613]: error: If munged
            is up, restart with --num-threads=10<br>
            Nov 29 12:56:34 plantae slurmctld[29613]: error: Munge
            encode failed: Failed to access "magic": No such file or
            directory<br>
            Nov 29 12:56:34 plantae slurmctld[29613]: error:
            authentication: Socket communication error<br>
            Nov 29 12:56:34 plantae slurmctld[29613]: error:
            slurm_persist_conn_open: failed to send persistent
            connection init message to localhost:6819<br>
            Nov 29 12:56:34 plantae slurmctld[29613]: error: slurmdbd:
            Sending PersistInit msg: Protocol authentication error<br>
            Nov 29 12:56:36 plantae slurmctld[29613]: error: If munged
            is up, restart with --num-threads=10<br>
            Nov 29 12:56:36 plantae slurmctld[29613]: error: Munge
            encode failed: Failed to access "magic": No such file or
            directory<br>
            Nov 29 12:56:36 plantae slurmctld[29613]: error:
            authentication: Socket communication error<br>
            Nov 29 12:56:36 plantae slurmctld[29613]: error:
            slurm_persist_conn_open: failed to send persistent
            connection init message to localhost:6819<br>
            Nov 29 12:56:36 plantae slurmctld[29613]: error: slurmdbd:
            Sending PersistInit msg: Protocol authentication error<br>
            Nov 29 12:56:36 plantae slurmctld[29613]: fatal: It appears
            you don't have any association data from your database.  The
            priority/multifactor plugin requires this information to run
            correctly.  Please check your database connection and try
            again.<br>
            Nov 29 12:56:36 plantae systemd[1]: slurmctld.service: Main
            process exited, code=exited, status=1/FAILURE<br>
            Nov 29 12:56:36 plantae systemd[1]: slurmctld.service: Unit
            entered failed state.<br>
            Nov 29 12:56:36 plantae systemd[1]: slurmctld.service:
            Failed with result 'exit-code'.</blockquote>
          <div><br>
          </div>
          <div> </div>
        </div>
      </div>
    </blockquote>
    <br>
  </div></div></div>

</blockquote></div><br></div>
</div></blockquote></div><br></div></div></div></div></div></blockquote></div><br></div>
</div></blockquote></div><br></div></div></div></div></div></div></blockquote></div><br></div>