<div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr">there is very very a strong likelyhood that you have configured SlurmdUser=slurm and one of the following</div><div dir="ltr"><div>1) there is no /var/spool/slurmd folder</div><div>2) the /var/spool/slurmd folder exists but is owned by root </div><div><br></div><div>make sure it exists and is owned by whatever SlurmdUser is set to</div><div><br></div><div>or change your SlurmdUser to run as root which may not be acceptable to you for security reasons but if you were to change this it makes "doing cool stuff" in prologs and epilogs easier as you can avoid complex paswordless sudo configs on all nodes. </div><div><br></div><div>Antony</div></div></div></div></div></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Wed, 13 Feb 2019 at 14:00, Nathalie Gocht <<a href="mailto:nathalie.gocht@outlook.com">nathalie.gocht@outlook.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">





<div lang="DE">
<div class="gmail-m_-6995537766134748377WordSection1">
<p class="MsoNormal"><span lang="EN-US">Hey, <u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US"><u></u> <u></u></span></p>
<p class="MsoNormal"><span lang="EN-US">I am building up a one node cluster. Master and node are n the same machine. My slurm.conf:<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US"><u></u> <u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">ControlMachine=bayes<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">#<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">MpiDefault=none<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">ProctrackType=proctrack/pgid<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">ReturnToService=1<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">SlurmctldPidFile=/var/run/slurm-llnl/slurmctld.pid<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="SV" style="font-size:10pt;font-family:"Courier New"">SlurmctldPort=6817<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="SV" style="font-size:10pt;font-family:"Courier New"">SlurmdPidFile=/var/run/slurm-llnl/slurmd.pid<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="SV" style="font-size:10pt;font-family:"Courier New"">SlurmdPort=6818<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="SV" style="font-size:10pt;font-family:"Courier New"">SlurmdSpoolDir=/var/spool/slurmd<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="SV" style="font-size:10pt;font-family:"Courier New"">SlurmUser=slurm<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="SV" style="font-size:10pt;font-family:"Courier New"">StateSaveLocation=/var/spool/slurmctld<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">SwitchType=switch/none<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">TaskPlugin=task/none<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">#<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">#<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New""># TIMERS<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">InactiveLimit=0<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">KillWait=30<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">MinJobAge=300<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">SlurmctldTimeout=120<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">SlurmdTimeout=300<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">Waittime=0<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">#<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">#<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New""># SCHEDULING<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">FastSchedule=1<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">SchedulerType=sched/builtin<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">SelectType=select/linear<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">#<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">#<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New""># LOGGING AND ACCOUNTING<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">AccountingStorageLoc=/var/log/slurm-llnl/job_accounting<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">AccountingStorageType=accounting_storage/filetxt<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">AccountingStoreJobComment=YES<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">ClusterName=bayes<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">JobCompLoc=/var/log/slurm-llnl/job_completion<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">JobCompType=jobcomp/filetxt<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">JobAcctGatherFrequency=60<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">JobAcctGatherType=jobacct_gather/linux<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">SlurmctldDebug=info<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="SV" style="font-size:10pt;font-family:"Courier New"">SlurmctldLogFile=/var/log/slurm-llnl/slurmctld.log<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="SV" style="font-size:10pt;font-family:"Courier New"">SlurmdDebug=info<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="SV" style="font-size:10pt;font-family:"Courier New"">SlurmdLogFile=/var/log/slurm-llnl/slurmd.log<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New""><u></u> <u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New""># COMPUTE NODES<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">GresTypes=gpu<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New""><u></u> <u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">NodeName=bayes Gres=gpu:tesla:1 CPUs=48 Sockets=2 CoresPerSocket=12 ThreadsPerCore=2 State=UNKNOWN<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">PartitionName=long Nodes=bayes Default=YES MaxTime=INFINITE State=UP<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US"><u></u> <u></u></span></p>
<p class="MsoNormal"><span lang="EN-US"><u></u> <u></u></span></p>
<p class="MsoNormal"><span lang="EN-US">I started the control deamon, but get this information:<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">$ systemctl status slurmctld.service<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">● slurmctld.service - Slurm controller daemon<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">   Loaded: loaded (/lib/systemd/system/slurmctld.service; enabled; vendor preset: enabled)<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">   Active: failed (Result: exit-code) since Wed 2019-02-13 14:43:02 CET; 7min ago<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">     Docs: man:slurmctld(8)<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">  Process: 40552 ExecStart=/usr/sbin/slurmctld $SLURMCTLD_OPTIONS (code=exited, status=0/SUCCE<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">Main PID: 40560 (code=exited, status=1/FAILURE)<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New""><u></u> <u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">$ sinfo<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">long*        up   infinite      1   idle bayes<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New""><u></u> <u></u></span></p>
<p class="MsoNormal"><span lang="EN-US">I tried to start the slurm deamon, but the timout exceeds.
</span><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">slurmd -Dvvv</span><span lang="EN-US"> gives:<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US"><u></u> <u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">slurmd: error: chmod(/var/spool/slurmd, 0755): Operation not permitted<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">slurmd: error: Unable to initialize slurmd spooldir<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:10pt;font-family:"Courier New"">slurmd: error: slurmd initialization failed<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US"><u></u> <u></u></span></p>
<p class="MsoNormal"><span lang="EN-US">Does someone know whats going on?<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US"><u></u> <u></u></span></p>
<p class="MsoNormal"><span lang="EN-US">Thanks,<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US">Nathalie<u></u><u></u></span></p>
</div>
</div>

</blockquote></div>