<div dir="ltr"><div><br></div><div><br></div><div>Hello Everyone,</div><div><br></div><div>I am using slurm version 21.08.5 and Centos 7.</div><div><br></div><div> I successfully start slurmd on all compute nodes but when I start slurmctld on server node it gives the following error:</div><div><b><br></b></div><div><b>(base) [nousheen@nousheen ~]$ systemctl status slurmctld.service -l</b><br>● slurmctld.service - Slurm controller daemon<br>   Loaded: loaded (/etc/systemd/system/slurmctld.service; enabled; vendor preset: disabled)<br>   Active: active (running) since Thu 2022-12-01 12:00:42 PKT; 4h 16min ago<br> Main PID: 1631 (slurmctld)<br>    Tasks: 10<br>   Memory: 4.0M<br>   CGroup: /system.slice/slurmctld.service<br>           ├─1631 /usr/sbin/slurmctld -D -s<br>           └─1818 slurmctld: slurmscriptd  <br><br>Dec 01 16:17:19 nousheen slurmctld[1631]: slurmctld: auth/munge: _print_cred: DECODED: Thu Dec 01 16:17:19 2022<br>Dec 01 16:17:19 nousheen slurmctld[1631]: slurmctld: error: Check for out of sync clocks<br>Dec 01 16:17:20 nousheen slurmctld[1631]: slurmctld: error: Munge decode failed: Rewound credential<br>Dec 01 16:17:20 nousheen slurmctld[1631]: slurmctld: auth/munge: _print_cred: ENCODED: Fri Dec 02 16:16:55 2022<br>Dec 01 16:17:20 nousheen slurmctld[1631]: slurmctld: auth/munge: _print_cred: DECODED: Thu Dec 01 16:17:20 2022<br>Dec 01 16:17:20 nousheen slurmctld[1631]: slurmctld: error: Check for out of sync clocks<br>Dec 01 16:17:21 nousheen slurmctld[1631]: slurmctld: error: Munge decode failed: Rewound credential<br>Dec 01 16:17:21 nousheen slurmctld[1631]: slurmctld: auth/munge: _print_cred: ENCODED: Fri Dec 02 16:16:56 2022<br>Dec 01 16:17:21 nousheen slurmctld[1631]: slurmctld: auth/munge: _print_cred: DECODED: Thu Dec 01 16:17:21 2022<br>Dec 01 16:17:21 nousheen slurmctld[1631]: slurmctld: error: Check for out of sync clocks<br></div><div><br></div><div>When I run the following command on compute nodes I get the following output:</div><div><br></div><div> [gpu101@101 ~]$<b> munge -n | unmunge</b></div>STATUS:           Success (0)<br>ENCODE_HOST:      ??? (0.0.0.101)<br>ENCODE_TIME:      2022-12-02 16:33:38 +0500 (1669980818)<br>DECODE_TIME:      2022-12-02 16:33:38 +0500 (1669980818)<br>TTL:              300<br>CIPHER:           aes128 (4)<br>MAC:              sha1 (3)<br>ZIP:              none (0)<br>UID:              gpu101 (1000)<br>GID:              gpu101 (1000)<br>LENGTH:           0<br><div><br></div><div>Is this error because the encode_host name has question marks and the IP is also not picked correctly by munge. How can I correct this? All the nodes keep non-responding when I run a job. However, I have all the clocks synced across the cluster. </div><div><br></div><div>I am new to slurm. Kindly guide me in this matter.</div><div> </div><div><br></div><br clear="all"><div><div dir="ltr" class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr">Best Regards,</div><div dir="ltr"><span style="font-family:arial;font-size:small">Nousheen Parvaiz</span><br style="font-family:arial;font-size:small"><span style="font-family:arial;font-size:small">Ph.D. Scholar</span><div style="font-family:arial;font-size:small"><br></div></div></div></div></div></div></div></div><div hspace="streak-pt-mark" style="max-height:1px"><img alt="" style="width:0px;max-height:0px;overflow:hidden" src="https://mailfoogae.appspot.com/t?sender=abm91c2hlZW5wYXJ2YWl6QGdtYWlsLmNvbQ%3D%3D&type=zerocontent&guid=c746fbb9-88d5-4ea9-8121-3f7f2cff3fcb"><font color="#ffffff" size="1">ᐧ</font></div>