<meta http-equiv="Content-Type" content="text/html; charset=utf-8"><div dir="ltr">The memory you tell Slurm (using the RealMemory value) is the memory the jobs can use. So if your nodes have a minimum free RAM of 3353, I think set RealMemory for your nodes to 3300MB. You always have to leave some RAM for OS/caching etc. The way we calculate Slurm RAM is (physical RAM - GPFS cache - 5GB). But our nodes have 768GB RAM...<div><br></div><div>Once you change the RealMemory, you'll have to restart slurmd and slurmctld on the nodes.<br><div><br></div><div>The way you can test if they can connect is</div><div><br></div><div>on wn001:</div><div><br></div><div>  nc -z wn002 6818 || echo Cannot connect</div><div>  nc -z wn003 6818 || echo Cannot connect</div><div><br></div><div>on wn002:</div><div><br></div><div><div>  nc -z wn001 6818 || echo Cannot connect</div><div>  nc -z wn003 6818 || echo Cannot connect<br clear="all"><div><div dir="ltr" class="gmail_signature"></div></div></div><div><br></div><div>on wn003:</div><div><br></div><div><div>  nc -z wn001 6818 || echo Cannot connect</div><div>  nc -z wn002 6818 || echo Cannot connect<br clear="all"><div><div dir="ltr" class="gmail_signature"></div></div></div></div><div><br></div><div>Make sure you test all of the nodes (or ensure they have a consistent firewall configuration).</div><div><br></div><div>You also have to make sure name resolution works. You have set the names in Slurm to be wn001-wn044, so every node has to be able to resolve those names. Hence the check using ping</div><div><br></div><div>Sean</div><div><br></div><div><div dir="ltr" class="gmail_signature" data-smartmail="gmail_signature">--<br>Sean Crosby | Senior DevOpsHPC Engineer and HPC Team Lead<br>Research Computing Services | Business Services<br>The University of Melbourne, Victoria 3010 Australia<br><br></div></div><br></div></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Thu, 8 Apr 2021 at 17:53, Ioannis Botsis <<a href="mailto:ibotsis@isc.tuc.gr">ibotsis@isc.tuc.gr</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
<div lang="EL" style="overflow-wrap: break-word;"><div><div style="color:rgb(0,0,0);font-size:12px;text-align:left;font-family:Helvetica,Arial,sans-serif"><strong><table style="width:100%;float:left;background-color:lemonchiffon" border="1" cellspacing="0" cellpadding="5">
<tbody>
<tr>
<td><b>UoM notice: </b>External email. Be cautious of links, attachments, or impersonation attempts</td>
</tr>
</tbody>
</table></strong><br></div><hr></div><div class="gmail-m_6756146135032667125WordSection1"><p class="MsoNormal"><span lang="EN-US">Total memory in each node is 3940 and free from 3353 to 3378, which value should I give to RealMemory<u></u><u></u></span></p><p class="MsoNormal"><span lang="EN-US"><u></u> <u></u></span></p><p class="MsoNormal"><span lang="EN-US">For each node  I have to create a different entry in slurm.conf ?<u></u><u></u></span></p><p class="MsoNormal"><span lang="EN-US"><u></u> <u></u></span></p><p class="MsoNormal"><span lang="EN-US">How can I </span><span lang="EN-US" style="color:black">check that each node can contact the slurmd port on every other node?<u></u><u></u></span></p><p class="MsoNormal"><span lang="EN-US" style="color:black"><u></u> <u></u></span></p><p class="MsoNormal"><span lang="EN-US" style="color:black">jb</span><span lang="EN-US"><u></u><u></u></span></p><p class="MsoNormal"><span lang="EN-US"><u></u> <u></u></span></p><p class="MsoNormal"><span lang="EN-US"><u></u> <u></u></span></p><div style="border-right:none;border-bottom:none;border-left:none;border-top:1pt solid rgb(225,225,225);padding:3pt 0cm 0cm"><p class="MsoNormal"><b><span lang="EN-US">From:</span></b><span lang="EN-US"> slurm-users <<a href="mailto:slurm-users-bounces@lists.schedmd.com" target="_blank">slurm-users-bounces@lists.schedmd.com</a>> <b>On Behalf Of </b>Sean Crosby<br><b>Sent:</b> Thursday, April 8, 2021 10:18 AM<br><b>To:</b> Slurm User Community List <<a href="mailto:slurm-users@lists.schedmd.com" target="_blank">slurm-users@lists.schedmd.com</a>><br><b>Subject:</b> Re: [slurm-users] [EXT] slurmctld error<u></u><u></u></span></p></div><p class="MsoNormal"><u></u> <u></u></p><div><p class="MsoNormal">The reason why your nodes are drained is "<span style="color:black">Low RealMemory"</span><u></u><u></u></p><div><p class="MsoNormal"><u></u> <u></u></p></div><div><p class="MsoNormal"><span style="color:black">This reason is because you have told Slurm about the RAM on the node, but it is less than the RAM on the node.</span><u></u><u></u></p></div><div><p class="MsoNormal"><u></u> <u></u></p></div><div><p class="MsoNormal"><span style="color:black">You have told Slurm that the amount of RAM on wn001 is 3934MB</span><u></u><u></u></p></div><div><p class="MsoNormal"><u></u> <u></u></p></div><div><p class="MsoNormal"><span style="color:black">What does</span><u></u><u></u></p></div><div><p class="MsoNormal"><u></u> <u></u></p></div><div><p class="MsoNormal"><span style="color:black">free -m</span><u></u><u></u></p></div><div><p class="MsoNormal"><u></u> <u></u></p></div><div><p class="MsoNormal"><span style="color:black">show on wn001?</span><u></u><u></u></p></div><div><p class="MsoNormal"><u></u> <u></u></p></div><div><p class="MsoNormal"><span style="color:black">The DBD looks good now!</span><u></u><u></u></p></div><div><p class="MsoNormal"><u></u> <u></u></p></div><div><p class="MsoNormal"><span style="color:black">Can you also double check that you can resolve the worker node names from the Slurm controller and between each node</span><u></u><u></u></p></div><div><p class="MsoNormal"><u></u> <u></u></p></div><div><p class="MsoNormal"><span style="color:black">e.g.</span><u></u><u></u></p></div><div><p class="MsoNormal"><u></u> <u></u></p></div><div><p class="MsoNormal"><span style="color:black">on ctl - ping wn001</span><u></u><u></u></p></div><div><p class="MsoNormal"><span style="color:black">on wn001:</span><u></u><u></u></p></div><div><p class="MsoNormal"><span style="color:black">  ping wn002</span><u></u><u></u></p></div><div><p class="MsoNormal"><span style="color:black">  ping </span>se01<u></u><u></u></p></div><div><p class="MsoNormal"><span style="color:black">on wn002:</span><u></u><u></u></p></div><div><p class="MsoNormal"><span style="color:black">  ping wn001</span><u></u><u></u></p></div><div><p class="MsoNormal"><span style="color:black">  ping </span>se01<u></u><u></u></p></div><div><p class="MsoNormal"><u></u> <u></u></p></div><div><p class="MsoNormal"><span style="color:black">Also double check that each node can contact the slurmd port on every other node</span><u></u><u></u></p></div><div><p class="MsoNormal"><u></u> <u></u></p></div><div><p class="MsoNormal"><span style="color:black">Sean</span><u></u><u></u></p></div><div><p class="MsoNormal"><span style="color:black"><br clear="all"></span><u></u><u></u></p><div><div><p class="MsoNormal" style="margin-bottom:12pt">--<br>Sean Crosby | Senior DevOpsHPC Engineer and HPC Team Lead<br>Research Computing Services | Business Services<br>The University of Melbourne, Victoria 3010 Australia<u></u><u></u></p></div></div><p class="MsoNormal"><u></u> <u></u></p></div></div><p class="MsoNormal"><u></u> <u></u></p><div><div><p class="MsoNormal">On Thu, 8 Apr 2021 at 16:38, Ioannis Botsis <<a href="mailto:ibotsis@isc.tuc.gr" target="_blank">ibotsis@isc.tuc.gr</a>> wrote:<u></u><u></u></p></div><blockquote style="border-top:none;border-right:none;border-bottom:none;border-left:1pt solid rgb(204,204,204);padding:0cm 0cm 0cm 6pt;margin-left:4.8pt;margin-right:0cm"><div><div><table border="1" cellspacing="0" cellpadding="0" width="100%" style="width:100%;background:lemonchiffon"><tbody><tr><td style="padding:3.75pt"><p class="MsoNormal"><b>UoM notice: </b><span style="color:black">External email. Be cautious of links, attachments, or impersonation attempts</span><u></u><u></u></p></td></tr></tbody></table><p class="MsoNormal"><u></u> <u></u></p><div class="MsoNormal" align="center" style="text-align:center"><hr size="2" width="100%" align="center"></div></div><div><p class="MsoNormal"><span lang="EN-US">Hi Sean</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">I made all the changes you recommended but the problem remains.</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">Attached you will find dbd & ctld log files an slurmd log file from one node wn001. Also slum configuration.</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">scontrol show node wn001</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">NodeName=wn001 Arch=x86_64 CoresPerSocket=2</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">   CPUAlloc=0 CPUTot=2 CPULoad=0.01</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">   AvailableFeatures=(null)</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">   ActiveFeatures=(null)</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">   Gres=(null)</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">   NodeAddr=wn001 NodeHostName=wn001 Version=19.05.5</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">   OS=Linux 5.4.0-66-generic #74-Ubuntu SMP Wed Jan 27 22:54:38 UTC 2021</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">   RealMemory=3934 AllocMem=0 FreeMem=3101 Sockets=2 Boards=1</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">   State=DOWN+DRAIN ThreadsPerCore=1 TmpDisk=0 Weight=1 Owner=N/A MCS_label=N/A</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">   Partitions=aTUC</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">   BootTime=2021-04-01T13:26:24 SlurmdStartTime=2021-04-07T10:53:20</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">   CfgTRES=cpu=2,mem=3934M,billing=2</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">   AllocTRES=</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">   CapWatts=n/a</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">   CurrentWatts=0 AveWatts=0</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">   ExtSensorsJoules=n/s ExtSensorsWatts=0 ExtSensorsTemp=n/s</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">   Reason=Low RealMemory [root@2021-04-</span><u></u><u></u></p><p class="MsoNormal"> <u></u><u></u></p><div style="border-right:none;border-bottom:none;border-left:none;border-top:1pt solid rgb(225,225,225);padding:3pt 0cm 0cm"><p class="MsoNormal"><b><span lang="EN-US">From:</span></b><span lang="EN-US"> slurm-users <<a href="mailto:slurm-users-bounces@lists.schedmd.com" target="_blank">slurm-users-bounces@lists.schedmd.com</a>> <b>On Behalf Of </b>Sean Crosby<br><b>Sent:</b> Tuesday, April 6, 2021 2:11 PM<br><b>To:</b> Slurm User Community List <<a href="mailto:slurm-users@lists.schedmd.com" target="_blank">slurm-users@lists.schedmd.com</a>><br><b>Subject:</b> Re: [slurm-users] [EXT] slurmctld error</span><u></u><u></u></p></div><p class="MsoNormal"> <u></u><u></u></p><div><div><p class="MsoNormal">I just checked my cluster and my spool dir is<u></u><u></u></p></div><div><p class="MsoNormal"> <u></u><u></u></p></div><div><p class="MsoNormal">SlurmdSpoolDir=/var/spool/slurm<u></u><u></u></p></div><div><p class="MsoNormal"> <u></u><u></u></p></div><div><p class="MsoNormal">(i.e. without the d at the end)<u></u><u></u></p></div><div><p class="MsoNormal"> <u></u><u></u></p></div><div><p class="MsoNormal">It doesn't really matter, as long as the directory exists and has the correct permissions on all nodes<u></u><u></u></p></div><div><div><div><div><p class="MsoNormal" style="margin-bottom:12pt">--<br>Sean Crosby | Senior DevOpsHPC Engineer and HPC Team Lead<br>Research Computing Services | Business Services<br>The University of Melbourne, Victoria 3010 Australia<u></u><u></u></p></div></div><p class="MsoNormal"> <u></u><u></u></p></div></div></div><p class="MsoNormal"> <u></u><u></u></p><div><div><p class="MsoNormal">On Tue, 6 Apr 2021 at 20:52, Sean Crosby <<a href="mailto:scrosby@unimelb.edu.au" target="_blank">scrosby@unimelb.edu.au</a>> wrote:<u></u><u></u></p></div><blockquote style="border-top:none;border-right:none;border-bottom:none;border-left:1pt solid rgb(204,204,204);padding:0cm 0cm 0cm 6pt;margin:5pt 0cm 5pt 4.8pt"><div><div><p class="MsoNormal">I think I've worked out a problem<u></u><u></u></p></div><div><p class="MsoNormal"> <u></u><u></u></p></div><div><p class="MsoNormal">I see in your slurm.conf you have this<u></u><u></u></p></div><div><p class="MsoNormal"> <u></u><u></u></p></div><div><p class="MsoNormal">SlurmdSpoolDir=/var/spool/slurm/d<u></u><u></u></p></div><div><p class="MsoNormal"> <u></u><u></u></p></div><div><p class="MsoNormal">It should be<u></u><u></u></p></div><div><p class="MsoNormal"> <u></u><u></u></p></div><div><p class="MsoNormal">SlurmdSpoolDir=/var/spool/slurmd<u></u><u></u></p></div><div><p class="MsoNormal"> <u></u><u></u></p></div><div><p class="MsoNormal">You'll need to restart slurmd on all the nodes after you make that change<u></u><u></u></p></div><div><p class="MsoNormal"> <u></u><u></u></p></div><div><p class="MsoNormal">I would also double check the permissions on that directory on all your nodes. It needs to be owned by user slurm<u></u><u></u></p></div><div><p class="MsoNormal"> <u></u><u></u></p></div><div><p class="MsoNormal">ls -lad /var/spool/slurmd<u></u><u></u></p></div><div><p class="MsoNormal"> <u></u><u></u></p></div><div><p class="MsoNormal">Sean<u></u><u></u></p></div><div><p class="MsoNormal"> <u></u><u></u></p></div><div><div><div><p class="MsoNormal" style="margin-bottom:12pt">--<br>Sean Crosby | Senior DevOpsHPC Engineer and HPC Team Lead<br>Research Computing Services | Business Services<br>The University of Melbourne, Victoria 3010 Australia<u></u><u></u></p></div></div><p class="MsoNormal"> <u></u><u></u></p></div></div><p class="MsoNormal"> <u></u><u></u></p><div><div><p class="MsoNormal">On Tue, 6 Apr 2021 at 20:37, Sean Crosby <<a href="mailto:scrosby@unimelb.edu.au" target="_blank">scrosby@unimelb.edu.au</a>> wrote:<u></u><u></u></p></div><blockquote style="border-top:none;border-right:none;border-bottom:none;border-left:1pt solid rgb(204,204,204);padding:0cm 0cm 0cm 6pt;margin:5pt 0cm 5pt 4.8pt"><div><div><p class="MsoNormal">It looks like your ctl isn't contacting the slurmdbd properly. The control host, control port etc are all blank.<u></u><u></u></p></div><div><p class="MsoNormal"> <u></u><u></u></p></div><div><p class="MsoNormal">The first thing I would do is change the ClusterName in your slurm.conf from upper case TUC to lower case tuc. You'll then need to restart your ctld. Then recheck sacctmgr show cluster<u></u><u></u></p></div><div><p class="MsoNormal"> <u></u><u></u></p></div><div><p class="MsoNormal">If that doesn't work, try changing AccountingStorageHost in slurm.conf to localhost as well<u></u><u></u></p></div><div><p class="MsoNormal"> <u></u><u></u></p></div><div><p class="MsoNormal">For your worker nodes, your nodes are all in drain state.<u></u><u></u></p></div><div><p class="MsoNormal"> <u></u><u></u></p></div><div><p class="MsoNormal">Show the output of<u></u><u></u></p></div><div><p class="MsoNormal"> <u></u><u></u></p></div><div><p class="MsoNormal">scontrol show node wn001<u></u><u></u></p></div><div><p class="MsoNormal"> <u></u><u></u></p></div><div><p class="MsoNormal">It will give you the reason for why the node is drained.<u></u><u></u></p></div><div><p class="MsoNormal"> <u></u><u></u></p></div><div><p class="MsoNormal">Sean<u></u><u></u></p></div><div><p class="MsoNormal"> <u></u><u></u></p></div><div><div><div><p class="MsoNormal" style="margin-bottom:12pt">--<br>Sean Crosby | Senior DevOpsHPC Engineer and HPC Team Lead<br>Research Computing Services | Business Services<br>The University of Melbourne, Victoria 3010 Australia<u></u><u></u></p></div></div><p class="MsoNormal"> <u></u><u></u></p></div></div><p class="MsoNormal"> <u></u><u></u></p><div><div><p class="MsoNormal">On Tue, 6 Apr 2021 at 20:19, <<a href="mailto:ibotsis@isc.tuc.gr" target="_blank">ibotsis@isc.tuc.gr</a>> wrote:<u></u><u></u></p></div><blockquote style="border-top:none;border-right:none;border-bottom:none;border-left:1pt solid rgb(204,204,204);padding:0cm 0cm 0cm 6pt;margin:5pt 0cm 5pt 4.8pt"><div><div><table border="1" cellspacing="0" cellpadding="0" width="100%" style="width:100%;background:lemonchiffon;float:left"><tbody><tr><td style="padding:3.75pt"><p class="MsoNormal"><b>UoM notice: </b><span style="color:black">External email. Be cautious of links, attachments, or impersonation attempts</span><u></u><u></u></p></td></tr></tbody></table><p class="MsoNormal"> <u></u><u></u></p><div class="MsoNormal" align="center" style="text-align:center"><hr size="2" width="100%" align="center"></div></div><div><p class="MsoNormal"><span lang="EN-US">sinfo -N -o "%N %T %C %m %P %a"</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">NODELIST STATE CPUS(A/I/O/T) MEMORY PARTITION AVAIL</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">wn001 drained 0/0/2/2 3934 TUC* up</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">wn002 drained 0/0/2/2 3934 TUC* up</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">wn003 drained 0/0/2/2 3934 TUC* up</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">wn004 drained 0/0/2/2 3934 TUC* up</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">wn005 drained 0/0/2/2 3934 TUC* up</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">wn006 drained 0/0/2/2 3934 TUC* up</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">wn007 drained 0/0/2/2 3934 TUC* up</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">wn008 drained 0/0/2/2 3934 TUC* up</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">wn009 drained 0/0/2/2 3934 TUC* up</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">wn010 drained 0/0/2/2 3934 TUC* up</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">wn011 drained 0/0/2/2 3934 TUC* up</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">wn012 drained 0/0/2/2 3934 TUC* up</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">wn013 drained 0/0/2/2 3934 TUC* up</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">wn014 drained 0/0/2/2 3934 TUC* up</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">wn015 drained 0/0/2/2 3934 TUC* up</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">wn016 drained 0/0/2/2 3934 TUC* up</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">wn017 drained 0/0/2/2 3934 TUC* up</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">wn018 drained 0/0/2/2 3934 TUC* up</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">wn019 drained 0/0/2/2 3934 TUC* up</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">wn020 drained 0/0/2/2 3934 TUC* up</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">wn021 drained 0/0/2/2 3934 TUC* up</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">wn022 drained 0/0/2/2 3934 TUC* up</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">wn023 drained 0/0/2/2 3934 TUC* up</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">wn024 drained 0/0/2/2 3934 TUC* up</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">wn025 drained 0/0/2/2 3934 TUC* up</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">wn026 drained 0/0/2/2 3934 TUC* up</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">wn027 drained 0/0/2/2 3934 TUC* up</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">wn028 drained 0/0/2/2 3934 TUC* up</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">wn029 drained 0/0/2/2 3934 TUC* up</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">wn030 drained 0/0/2/2 3934 TUC* up</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">wn031 drained 0/0/2/2 3934 TUC* up</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">wn032 drained 0/0/2/2 3934 TUC* up</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">wn033 drained 0/0/2/2 3934 TUC* up</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">wn034 drained 0/0/2/2 3934 TUC* up</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">wn035 drained 0/0/2/2 3934 TUC* up</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">wn036 drained 0/0/2/2 3934 TUC* up</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">wn037 drained 0/0/2/2 3934 TUC* up</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">wn038 drained 0/0/2/2 3934 TUC* up</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">wn039 drained 0/0/2/2 3934 TUC* up</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">wn040 drained 0/0/2/2 3934 TUC* up</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">wn041 drained 0/0/2/2 3934 TUC* up</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">wn042 drained 0/0/2/2 3934 TUC* up</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">wn043 drained 0/0/2/2 3934 TUC* up</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">wn044 drained 0/0/2/2 3934 TUC* up</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><div><p class="MsoNormal"><b><span lang="EN-US">From:</span></b><span lang="EN-US"> slurm-users <<a href="mailto:slurm-users-bounces@lists.schedmd.com" target="_blank">slurm-users-bounces@lists.schedmd.com</a>> <b>On Behalf Of </b>Sean Crosby<br><b>Sent:</b> Tuesday, April 6, 2021 12:47 PM<br><b>To:</b> Slurm User Community List <<a href="mailto:slurm-users@lists.schedmd.com" target="_blank">slurm-users@lists.schedmd.com</a>><br><b>Subject:</b> Re: [slurm-users] [EXT] slurmctld error</span><u></u><u></u></p></div><p class="MsoNormal"> <u></u><u></u></p><div><div><p class="MsoNormal">It looks like your attachment of sinfo -R didn't come through<u></u><u></u></p></div><div><p class="MsoNormal"> <u></u><u></u></p></div><div><p class="MsoNormal">It also looks like your dbd isn't set up correctly<u></u><u></u></p></div><div><p class="MsoNormal"> <u></u><u></u></p></div><div><p class="MsoNormal">Can you also show the output of<u></u><u></u></p></div><div><p class="MsoNormal"> <u></u><u></u></p></div><div><p class="MsoNormal">sacctmgr list cluster<u></u><u></u></p></div><div><p class="MsoNormal"> <u></u><u></u></p></div><div><p class="MsoNormal">and<u></u><u></u></p></div><div><p class="MsoNormal"> <u></u><u></u></p></div><div><p class="MsoNormal">scontrol show config | grep ClusterName<u></u><u></u></p></div><div><p class="MsoNormal"> <u></u><u></u></p></div><div><p class="MsoNormal">Sean<u></u><u></u></p></div><div><p class="MsoNormal"> <u></u><u></u></p></div><div><div><div><p class="MsoNormal" style="margin-bottom:12pt">--<br>Sean Crosby | Senior DevOpsHPC Engineer and HPC Team Lead<br>Research Computing Services | Business Services<br>The University of Melbourne, Victoria 3010 Australia<u></u><u></u></p></div></div><p class="MsoNormal"> <u></u><u></u></p></div></div><p class="MsoNormal"> <u></u><u></u></p><div><div><p class="MsoNormal">On Tue, 6 Apr 2021 at 19:18, Ioannis Botsis <<a href="mailto:ibotsis@isc.tuc.gr" target="_blank">ibotsis@isc.tuc.gr</a>> wrote:<u></u><u></u></p></div><blockquote style="border-left:1pt solid rgb(204,204,204);padding:0cm 0cm 0cm 6pt;margin:5pt 0cm 5pt 4.8pt;border-top:currentcolor;border-right:currentcolor;border-bottom:currentcolor"><div><div><table border="1" cellspacing="0" cellpadding="0" width="100%" style="width:100%;background:lemonchiffon"><tbody><tr><td style="padding:3.75pt"><p class="MsoNormal"><b>UoM notice: </b><span style="color:black">External email. Be cautious of links, attachments, or impersonation attempts</span><u></u><u></u></p></td></tr></tbody></table><p class="MsoNormal"> <u></u><u></u></p><div class="MsoNormal" align="center" style="text-align:center"><hr size="2" width="100%" align="center"></div></div><div><p class="MsoNormal"><span lang="EN-US">Hi Sean,</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">I am trying to submit a simple job but freeze</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">srun -n44 -l /bin/hostname</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">srun: Required node not available (down, drained or reserved)</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">srun: job 15 queued and waiting for resources</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">^Csrun: Job allocation 15 has been revoked</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">srun: Force Terminated job 15</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">daemons are active and running on server and all nodes </span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">nodes definition in slurm.conf is …</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">DefMemPerNode=3934</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">NodeName=wn0[01-44] CPUs=2 RealMemory=3934 Sockets=2 CoresPerSocket=2 State=UNKNOWN</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">PartitionName=TUC Nodes=ALL Default=YES MaxTime=INFINITE State=UP</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">tail -10 /var/log/slurmdbd.log</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">[2021-04-06T12:09:16.481] error: We should have gotten a new id: Table 'slurm_acct_db.tuc_job_table' doesn't exist</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">[2021-04-06T12:09:16.481] error: _add_registered_cluster: trying to register a cluster (tuc) with no remote port</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">[2021-04-06T12:09:16.482] error: We should have gotten a new id: Table 'slurm_acct_db.tuc_job_table' doesn't exist</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">[2021-04-06T12:09:16.482] error: It looks like the storage has gone away trying to reconnect</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">[2021-04-06T12:09:16.483] error: We should have gotten a new id: Table 'slurm_acct_db.tuc_job_table' doesn't exist</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">[2021-04-06T12:09:16.483] error: _add_registered_cluster: trying to register a cluster (tuc) with no remote port</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">[2021-04-06T12:09:16.484] error: We should have gotten a new id: Table 'slurm_acct_db.tuc_job_table' doesn't exist</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">[2021-04-06T12:09:16.484] error: It looks like the storage has gone away trying to reconnect</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">[2021-04-06T12:09:16.484] error: We should have gotten a new id: Table 'slurm_acct_db.tuc_job_table' doesn't exist</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">[2021-04-06T12:09:16.485] error: _add_registered_cluster: trying to register a cluster (tuc) with no remote port</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">tail -10 /var/log/slurmctld.log</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">[2021-04-06T12:09:35.701] debug:  backfill: no jobs to backfill</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">[2021-04-06T12:09:42.001] debug:  slurmdbd: PERSIST_RC is -1 from DBD_FLUSH_JOBS(1408): (null)</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">[2021-04-06T12:10:00.042] debug:  slurmdbd: PERSIST_RC is -1 from DBD_FLUSH_JOBS(1408): (null)</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">[2021-04-06T12:10:05.701] debug:  backfill: beginning</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">[2021-04-06T12:10:05.701] debug:  backfill: no jobs to backfill</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">[2021-04-06T12:10:05.989] debug:  sched: Running job scheduler</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">[2021-04-06T12:10:19.001] debug:  slurmdbd: PERSIST_RC is -1 from DBD_FLUSH_JOBS(1408): (null)</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">[2021-04-06T12:10:35.702] debug:  backfill: beginning</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">[2021-04-06T12:10:35.702] debug:  backfill: no jobs to backfill</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">[2021-04-06T12:10:37.001] debug:  slurmdbd: PERSIST_RC is -1 from DBD_FLUSH_JOBS(1408): (null)</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">Attached sinfo -R  </span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">Any hint?</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">jb</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><div><p class="MsoNormal"><b><span lang="EN-US">From:</span></b><span lang="EN-US"> slurm-users <<a href="mailto:slurm-users-bounces@lists.schedmd.com" target="_blank">slurm-users-bounces@lists.schedmd.com</a>> <b>On Behalf Of </b>Sean Crosby<br><b>Sent:</b> Tuesday, April 6, 2021 7:54 AM<br><b>To:</b> Slurm User Community List <<a href="mailto:slurm-users@lists.schedmd.com" target="_blank">slurm-users@lists.schedmd.com</a>><br><b>Subject:</b> Re: [slurm-users] [EXT] slurmctld error</span><u></u><u></u></p></div><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><div><div><p class="MsoNormal"><span lang="EN-US">The other thing I notice for my slurmdbd.conf is that I have</span><u></u><u></u></p></div><div><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p></div><div><p class="MsoNormal"><span lang="EN-US">DbdAddr=localhost<br>DbdHost=localhost</span><u></u><u></u></p></div><div><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p></div><div><p class="MsoNormal"><span lang="EN-US">You can try changing your slurmdbd.conf to set those 2 values as well to see if that gets slurmdbd to listen on port 6819</span><u></u><u></u></p></div><div><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p></div><div><p class="MsoNormal"><span lang="EN-US">Sean</span><u></u><u></u></p></div><div><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p></div><div><div><div><p class="MsoNormal" style="margin-bottom:12pt"><span lang="EN-US">--<br>Sean Crosby | Senior DevOpsHPC Engineer and HPC Team Lead<br>Research Computing Services | Business Services<br>The University of Melbourne, Victoria 3010 Australia</span><u></u><u></u></p></div></div><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p></div></div><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><div><div><p class="MsoNormal"><span lang="EN-US">On Tue, 6 Apr 2021 at 14:31, Sean Crosby <</span><a href="mailto:scrosby@unimelb.edu.au" target="_blank"><span lang="EN-US">scrosby@unimelb.edu.au</span></a><span lang="EN-US">> wrote:</span><u></u><u></u></p></div><blockquote style="border-left:1pt solid rgb(204,204,204);padding:0cm 0cm 0cm 6pt;margin:5pt 0cm 5pt 4.8pt;border-top:currentcolor;border-right:currentcolor;border-bottom:currentcolor"><div><div><p class="MsoNormal"><span lang="EN-US">Interesting. It looks like slurmdbd is not opening the 6819 port</span><u></u><u></u></p></div><div><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p></div><div><p class="MsoNormal"><span lang="EN-US">What does</span><u></u><u></u></p></div><div><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p></div><div><p class="MsoNormal"><span lang="EN-US">ss -lntp | grep 6819</span><u></u><u></u></p></div><div><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p></div><div><p class="MsoNormal"><span lang="EN-US">show? Is something else using that port?</span><u></u><u></u></p></div><div><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p></div><div><p class="MsoNormal"><span lang="EN-US">You can also stop the slurmdbd service and run it in debug mode using</span><u></u><u></u></p></div><div><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p></div><div><p class="MsoNormal"><span lang="EN-US">slurmdbd -D -vvv</span><u></u><u></u></p></div><div><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p></div><div><p class="MsoNormal"><span lang="EN-US">Sean</span><u></u><u></u></p></div><div><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p></div><div><div><div><p class="MsoNormal" style="margin-bottom:12pt"><span lang="EN-US">--<br>Sean Crosby | Senior DevOpsHPC Engineer and HPC Team Lead<br>Research Computing Services | Business Services<br>The University of Melbourne, Victoria 3010 Australia</span><u></u><u></u></p></div></div><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p></div></div><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><div><div><p class="MsoNormal"><span lang="EN-US">On Tue, 6 Apr 2021 at 14:02, <</span><a href="mailto:ibotsis@isc.tuc.gr" target="_blank"><span lang="EN-US">ibotsis@isc.tuc.gr</span></a><span lang="EN-US">> wrote:</span><u></u><u></u></p></div><blockquote style="border-left:1pt solid rgb(204,204,204);padding:0cm 0cm 0cm 6pt;margin:5pt 0cm 5pt 4.8pt;border-top:currentcolor;border-right:currentcolor;border-bottom:currentcolor"><div><div><table border="1" cellspacing="0" cellpadding="0" width="100%" style="width:100%;background:lemonchiffon;float:left"><tbody><tr><td style="padding:3.75pt"><p class="MsoNormal"><b><span lang="EN-US">UoM notice: </span></b><span lang="EN-US" style="color:black">External email. Be cautious of links, attachments, or impersonation attempts</span><u></u><u></u></p></td></tr></tbody></table><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><div class="MsoNormal" align="center" style="text-align:center"><hr size="2" width="100%" align="center"></div></div><div><p class="MsoNormal"><span lang="EN-US">Hi Sean</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">ss -lntp | grep $(pidof slurmdbd)     return nothing……</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">systemctl status slurmdbd.service</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">● slurmdbd.service - Slurm DBD accounting daemon</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">     Loaded: loaded (/lib/systemd/system/slurmdbd.service; enabled; vendor preset: enabled)</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">     Active: active (running) since Mon 2021-04-05 13:52:35 EEST; 16h ago</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">       Docs: man:slurmdbd(8)</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">    Process: 1453365 ExecStart=/usr/sbin/slurmdbd $SLURMDBD_OPTIONS (code=exited, status=0/SUCCESS)</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">   Main PID: 1453375 (slurmdbd)</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">      Tasks: 1</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">     Memory: 5.0M</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">     CGroup: /system.slice/slurmdbd.service</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">             └─1453375 /usr/sbin/slurmdbd</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">Apr 05 13:52:35 </span><a href="http://se01.grid.tuc.gr" target="_blank"><span lang="EN-US">se01.grid.tuc.gr</span></a><span lang="EN-US"> systemd[1]: Starting Slurm DBD accounting daemon...</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">Apr 05 13:52:35 </span><a href="http://se01.grid.tuc.gr" target="_blank"><span lang="EN-US">se01.grid.tuc.gr</span></a><span lang="EN-US"> systemd[1]: slurmdbd.service: Can't open PID file /run/slurmdbd.pid (yet?) after start: Operation not permitted</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">Apr 05 13:52:35 </span><a href="http://se01.grid.tuc.gr" target="_blank"><span lang="EN-US">se01.grid.tuc.gr</span></a><span lang="EN-US"> systemd[1]: Started Slurm DBD accounting daemon.</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">File /run/slurmdbd.pid exist and has  pidof slurmdbd   value….</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><div><p class="MsoNormal"><b><span lang="EN-US">From:</span></b><span lang="EN-US"> slurm-users <</span><a href="mailto:slurm-users-bounces@lists.schedmd.com" target="_blank"><span lang="EN-US">slurm-users-bounces@lists.schedmd.com</span></a><span lang="EN-US">> <b>On Behalf Of </b>Sean Crosby<br><b>Sent:</b> Tuesday, April 6, 2021 12:49 AM<br><b>To:</b> Slurm User Community List <</span><a href="mailto:slurm-users@lists.schedmd.com" target="_blank"><span lang="EN-US">slurm-users@lists.schedmd.com</span></a><span lang="EN-US">><br><b>Subject:</b> Re: [slurm-users] [EXT] slurmctld error</span><u></u><u></u></p></div><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><div><div><p class="MsoNormal"><span lang="EN-US">What's the output of</span><u></u><u></u></p></div><div><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p></div><div><p class="MsoNormal"><span lang="EN-US">ss -lntp | grep $(pidof slurmdbd)</span><u></u><u></u></p></div><div><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p></div><div><p class="MsoNormal"><span lang="EN-US">on your dbd host?</span><u></u><u></u></p></div><div><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p></div><div><p class="MsoNormal"><span lang="EN-US">Sean</span><u></u><u></u></p></div><div><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p></div><div><div><div><div><p class="MsoNormal" style="margin-bottom:12pt"><span lang="EN-US">--<br>Sean Crosby | Senior DevOpsHPC Engineer and HPC Team Lead<br>Research Computing Services | Business Services<br>The University of Melbourne, Victoria 3010 Australia</span><u></u><u></u></p></div></div><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p></div></div></div><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><div><div><p class="MsoNormal"><span lang="EN-US">On Tue, 6 Apr 2021 at 05:00, <</span><a href="mailto:ibotsis@isc.tuc.gr" target="_blank"><span lang="EN-US">ibotsis@isc.tuc.gr</span></a><span lang="EN-US">> wrote:</span><u></u><u></u></p></div><blockquote style="border-left:1pt solid rgb(204,204,204);padding:0cm 0cm 0cm 6pt;margin:5pt 0cm 5pt 4.8pt;border-top:currentcolor;border-right:currentcolor;border-bottom:currentcolor"><div><div><table border="1" cellspacing="0" cellpadding="0" width="100%" style="width:100%;background:lemonchiffon"><tbody><tr><td style="padding:3.75pt"><p class="MsoNormal"><b><span lang="EN-US">UoM notice: </span></b><span lang="EN-US" style="color:black">External email. Be cautious of links, attachments, or impersonation attempts</span><u></u><u></u></p></td></tr></tbody></table><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><div class="MsoNormal" align="center" style="text-align:center"><hr size="2" width="100%" align="center"></div></div><div><p class="MsoNormal"><span lang="EN-US">Hi Sean,</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">10.0.0.100 is the dbd and ctld host with name se01. Firewall is inactive……</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">nc -nz 10.0.0.100 6819 || echo Connection not working</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">give me back …..  Connection not working</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">jb</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><div><p class="MsoNormal"><b><span lang="EN-US">From:</span></b><span lang="EN-US"> slurm-users <</span><a href="mailto:slurm-users-bounces@lists.schedmd.com" target="_blank"><span lang="EN-US">slurm-users-bounces@lists.schedmd.com</span></a><span lang="EN-US">> <b>On Behalf Of </b>Sean Crosby<br><b>Sent:</b> Monday, April 5, 2021 2:52 PM<br><b>To:</b> Slurm User Community List <</span><a href="mailto:slurm-users@lists.schedmd.com" target="_blank"><span lang="EN-US">slurm-users@lists.schedmd.com</span></a><span lang="EN-US">><br><b>Subject:</b> Re: [slurm-users] [EXT] slurmctld error</span><u></u><u></u></p></div><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><div><div><p class="MsoNormal"><span lang="EN-US">The error shows</span><u></u><u></u></p></div><p class="MsoNormal"><span lang="EN-US"><br>slurmctld: debug2: Error connecting slurm stream socket at </span><a href="http://10.0.0.100:6819" target="_blank"><span lang="EN-US">10.0.0.100:6819</span></a><span lang="EN-US">: Connection refused</span><u></u><u></u></p><div><p class="MsoNormal"><span lang="EN-US">slurmctld: error: slurm_persist_conn_open_without_init: failed to open persistent connection to se01:6819: Connection refused</span><u></u><u></u></p></div><div><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p></div><div><p class="MsoNormal"><span lang="EN-US">Is 10.0.0.100 the IP address of the host running slurmdbd?<br><br>If so, check the iptables firewall running on that host, and make sure the ctld server can access port 6819 on the dbd host.<br><br>You can check this by running the following from the ctld host (requires the package nmap-ncat installed)<br><br>nc -nz 10.0.0.100 6819 || echo Connection not working<br><br>This will try connecting to port 6819 on the host 10.0.0.100, and output nothing if the connection works, and would output Connection not working otherwise<br><br>I would also test this on the DBD server itself</span><u></u><u></u></p><pre> <u></u><u></u></pre></div><div><div><div><p class="MsoNormal" style="margin-bottom:12pt"><span lang="EN-US">--<br>Sean Crosby | Senior DevOpsHPC Engineer and HPC Team Lead<br>Research Computing Services | Business Services<br>The University of Melbourne, Victoria 3010 Australia</span><u></u><u></u></p></div></div><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p></div></div><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><div><div><p class="MsoNormal"><span lang="EN-US">On Mon, 5 Apr 2021 at 21:00, Ioannis Botsis <</span><a href="mailto:ibotsis@isc.tuc.gr" target="_blank"><span lang="EN-US">ibotsis@isc.tuc.gr</span></a><span lang="EN-US">> wrote:</span><u></u><u></u></p></div><blockquote style="border-left:1pt solid rgb(204,204,204);padding:0cm 0cm 0cm 6pt;margin:5pt 0cm 5pt 4.8pt;border-top:currentcolor;border-right:currentcolor;border-bottom:currentcolor"><div><div><table border="1" cellspacing="0" cellpadding="0" width="100%" style="width:100%;background:lemonchiffon"><tbody><tr><td style="padding:3.75pt"><p class="MsoNormal"><b><span lang="EN-US">UoM notice: </span></b><span lang="EN-US" style="color:black">External email. Be cautious of links, attachments, or impersonation attempts</span><u></u><u></u></p></td></tr></tbody></table><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><div class="MsoNormal" align="center" style="text-align:center"><hr size="2" width="100%" align="center"></div></div><div><p class="MsoNormal"><span lang="EN-US">Hi Sean,</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">Thank you for your prompt response,  I made the changes you suggested, slurmctld refuse running……. find attached new slurmctld -Dvvvv</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">jb</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><div><p class="MsoNormal"><b><span lang="EN-US">From:</span></b><span lang="EN-US"> slurm-users <</span><a href="mailto:slurm-users-bounces@lists.schedmd.com" target="_blank"><span lang="EN-US">slurm-users-bounces@lists.schedmd.com</span></a><span lang="EN-US">> <b>On Behalf Of </b>Sean Crosby<br><b>Sent:</b> Monday, April 5, 2021 11:46 AM<br><b>To:</b> Slurm User Community List <</span><a href="mailto:slurm-users@lists.schedmd.com" target="_blank"><span lang="EN-US">slurm-users@lists.schedmd.com</span></a><span lang="EN-US">><br><b>Subject:</b> Re: [slurm-users] [EXT] slurmctld error</span><u></u><u></u></p></div><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><div><div><p class="MsoNormal"><span lang="EN-US">Hi Jb,</span><u></u><u></u></p></div><div><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p></div><div><p class="MsoNormal"><span lang="EN-US">You have set AccountingStoragePort to 3306 in slurm.conf, which is the MySQL port running on the DBD host.</span><u></u><u></u></p></div><div><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p></div><div><p class="MsoNormal"><span lang="EN-US">AccountingStoragePort is the port for the Slurmdbd service, and not for MySQL.</span><u></u><u></u></p></div><div><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p></div><div><p class="MsoNormal"><span lang="EN-US">Change AccountingStoragePort to 6819 and it should fix your issues.</span><u></u><u></u></p></div><div><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p></div><div><p class="MsoNormal"><span lang="EN-US">I also think you should comment out the lines </span><u></u><u></u></p></div><div><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p></div><div><p class="MsoNormal"><span lang="EN-US">AccountingStorageUser=slurm<br>AccountingStoragePass=/run/munge/munge.socket.2</span><u></u><u></u></p></div><div><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p></div><div><p class="MsoNormal"><span lang="EN-US">You shouldn't need those lines</span><u></u><u></u></p></div><div><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p></div><div><p class="MsoNormal"><span lang="EN-US">Sean</span><u></u><u></u></p></div><div><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p></div><div><div><div><p class="MsoNormal" style="margin-bottom:12pt"><span lang="EN-US">--<br>Sean Crosby | Senior DevOpsHPC Engineer and HPC Team Lead<br>Research Computing Services | Business Services<br>The University of Melbourne, Victoria 3010 Australia</span><u></u><u></u></p></div></div><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p></div></div><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><div><div><p class="MsoNormal"><span lang="EN-US">On Mon, 5 Apr 2021 at 18:03, Ioannis Botsis <</span><a href="mailto:ibotsis@isc.tuc.gr" target="_blank"><span lang="EN-US">ibotsis@isc.tuc.gr</span></a><span lang="EN-US">> wrote:</span><u></u><u></u></p></div><blockquote style="border-left:1pt solid rgb(204,204,204);padding:0cm 0cm 0cm 6pt;margin:5pt 0cm 5pt 4.8pt;border-top:currentcolor;border-right:currentcolor;border-bottom:currentcolor"><div><div><table border="1" cellspacing="0" cellpadding="0" width="100%" style="width:100%;background:lemonchiffon"><tbody><tr><td style="padding:3.75pt"><p class="MsoNormal"><b><span lang="EN-US">UoM notice: </span></b><span lang="EN-US" style="color:black">External email. Be cautious of links, attachments, or impersonation attempts</span><u></u><u></u></p></td></tr></tbody></table><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><div class="MsoNormal" align="center" style="text-align:center"><hr size="2" width="100%" align="center"></div></div><div><p class="MsoNormal"><span lang="EN-US">Hello everyone,</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">I installed the slurm 19.05.5 from Ubuntu repo,  for the first time in a cluster with 44  identical nodes but I have problem with slurmctld.service</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">When I try to activate slurmctd I get the following message…</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">fatal: You are running with a database but for some reason we have no TRES from it.  This should only happen if the database is down and you don't have any state files</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><ul type="disc"><li class="MsoNormal"><span lang="EN-US">Ubuntu 20.04.2 runs on the server and nodes in the exact same version.</span><u></u><u></u></li><li class="MsoNormal"><span lang="EN-US">munge 0.5.13 installed from Ubuntu repo running on server and nodes.</span><u></u><u></u></li><li class="MsoNormal"><span lang="EN-US">mysql  Ver 8.0.23-0ubuntu0.20.04.1 for Linux on x86_64 ((Ubuntu))  installed from ubuntu repo running on server.</span><u></u><u></u></li></ul><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">slurm.conf is the same on all nodes and on server.</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">slurmd.service is active and running on all nodes without problem.</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">mysql.service is active and running on server.</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">slurmdbd.service is active and running on server (slurm_acct_db created).</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">Find attached slurm.conf </span><a href="http://slurmdbd.com" target="_blank"><span lang="EN-US">slurmdbd.com</span></a><span lang="EN-US">  and detailed output of slurmctld -Dvvvv  command.</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">Any hint?</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">Thanks in advance</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US">jb</span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p><p class="MsoNormal"><span lang="EN-US"> </span><u></u><u></u></p></div></div></blockquote></div></div></div></blockquote></div></div></div></blockquote></div></div></div></blockquote></div></blockquote></div></div></div></blockquote></div></div></div></blockquote></div></blockquote></div></blockquote></div></div></div></blockquote></div></div></div>
</blockquote></div>