<meta http-equiv="Content-Type" content="text/html; charset=utf-8"><div dir="ltr"><div>Hi Olaf,</div><div><br></div><div>Check the firewalls between your compute node and the Slurm controller to make sure that they can contact each other. Slurmctld needs to contact the SlurmdPort (default 6818), and slurmd needs to contact the SlurmctldPort (default 6817). Also the other compute nodes need to be able to contact the new compute node on SlurmdPort.</div><div><br></div><div>Sean</div><div><br></div><div><div><div dir="ltr" data-smartmail="gmail_signature">--<br>Sean Crosby | Senior DevOpsHPC Engineer and HPC Team Lead<br>Research Computing Services | Business Services<br>The University of Melbourne, Victoria 3010 Australia<br><br></div></div><br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Wed, 16 Dec 2020 at 03:48, Olaf Gellert <<a href="mailto:gellert@dkrz.de" target="_blank">gellert@dkrz.de</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">UoM notice: External email. Be cautious of links, attachments, or impersonation attempts<br>
<br>
Hi all,<br>
<br>
we are setting up a new test cluster to test some features for our<br>
next HPC system. On one of the compute nodes we get these messages<br>
in the log:<br>
<br>
[2020-12-15T10:00:21.753] error: Munge decode failed: Invalid credential<br>
[2020-12-15T10:00:21.753] auth/munge: _print_cred: ENCODED: Thu Jan 01 <br>
01:00:00 1970<br>
[2020-12-15T10:00:21.753] auth/munge: _print_cred: DECODED: Thu Jan 01 <br>
01:00:00 1970<br>
[2020-12-15T10:00:21.753] error: slurm_receive_msg_and_forward: <br>
g_slurm_auth_verify: REQUEST_NODE_REGISTRATION_STATUS has authentication <br>
error: Invalid authentication credential<br>
[2020-12-15T10:00:21.753] error: slurm_receive_msg_and_forward: Protocol <br>
authentication error<br>
[2020-12-15T10:00:21.763] error: service_connection: slurm_receive_msg: <br>
Protocol authentication error<br>
<br>
I checked munge authentication in the usual way, so:<br>
- time between nodes is synchronised<br>
- munge is using same UID/GID on both sides<br>
- "munge -c0 -z0 -n | unmunge" works on compute nodes and on slurmctld<br>
   node<br>
- ssh slurmcontrolnode "munge -c0 -z0 -n" | unmunge on a compute node<br>
   works<br>
- ssh computenode "munge -c0 -z0 -n" | unmunge on the slurmctld node<br>
   works<br>
<br>
So munge seems to work as far as I can say. What else does<br>
slurm using munge? Are hostnames part of the authentication?<br>
Do I have to wonder about the time "Thu Jan 01 01:00:00 1970"<br>
(in the logs above)?<br>
<br>
All machines are CentOS8, slurm is self-built 20.11.0,<br>
munge is from CentOS8 rpm:<br>
<br>
munge-0.5.13-1.el8.x86_64<br>
munge-libs-0.5.13-1.el8.x86_64<br>
<br>
Cheers, Olaf<br>
<br>
-- <br>
Dipl. Inform. Olaf Gellert            email  <a href="mailto:gellert@dkrz.de" target="_blank">gellert@dkrz.de</a><br>
Deutsches Klimarechenzentrum GmbH     phone  +49 (0)40 460094 214<br>
Bundesstrasse 45a                     fax    +49 (0)40 460094 270<br>
D-20146 Hamburg, Germany              www    <a href="http://www.dkrz.de" rel="noreferrer" target="_blank">http://www.dkrz.de</a><br>
<br>
Sitz der Gesellschaft: Hamburg<br>
Geschäftsführer: Prof. Dr. Thomas Ludwig<br>
Registergericht: Amtsgericht Hamburg, HRB 39784<br>
<br>
</blockquote></div>