<div dir="ltr">Jake, my hunch is that your jobs are getting hung up on mem allocation, such that Slurm is assigning all of memory to each job as it runs; you can verify w/scontrol show job. If that's what's happening, try setting a DefMemPerCPU value for your partition(s).<div><br></div><div>Best of luck,</div><div>Lyn</div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Thu, May 26, 2022 at 1:39 PM Jake Jellinek <<a href="mailto:jakejellinek@outlook.com">jakejellinek@outlook.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-style:solid;border-left-color:rgb(204,204,204);padding-left:1ex">Hi Ole<br>
<br>
I only added the oversubscribe option because without it, it didn’t work - so in fact, it appears not to have made any difference<br>
<br>
I though the RealMemory option just said not to offer any jobs to the node that didn’t have AT LEAST that amount of RAM<br>
My large node has more than 64GB RAM (and more will be allocated later) but I have yet to get to a memory issue…still working on cores<br>
<br>
<br>
jake@compute001:~$ slurmd -C<br>
NodeName=compute001 CPUs=32 Boards=1 SocketsPerBoard=2 CoresPerSocket=8 ThreadsPerCore=2 RealMemory=64359<br>
UpTime=0-06:58:54<br>
<br>
<br>
Thanks<br>
Jake<br>
<br>
> On 26 May 2022, at 21:11, Ole Holm Nielsen <<a href="mailto:Ole.H.Nielsen@fysik.dtu.dk" target="_blank">Ole.H.Nielsen@fysik.dtu.dk</a>> wrote:<br>
> <br>
> Hi Jake,<br>
> <br>
> Firstly, which Slurm version and which OS do you use?<br>
> <br>
> Next, try simplifying by removing the oversubscribe configuration.  Read the slurm.conf manual page about oversubscribe, it looks a bit tricky.<br>
> <br>
> The RealMemory=1000 is extremely low and might prevent jobs from starting!  Run "slurmd -C" on the nodes to read appropriate node parameters for slurm.conf.<br>
> <br>
> I hope this helps.<br>
> <br>
> /Ole<br>
> <br>
> <br>
>> On 26-05-2022 21:12, Jake Jellinek wrote:<br>
>> Hi<br>
>> I am just building my first Slurm setup and have got everything running – well, almost.<br>
>> I have a two node configuration. All of my setup exists on a single HyperV server and I have divided up the resources to create my VMs<br>
>> One node I will use for heavy duty work; this is called compute001<br>
>> One node I will use for normal work; this is called compute002<br>
>> My compute node specification in slurm.conf is<br>
>> NodeName=DEFAULT CPUs=1 RealMemory=1000 State=UNKNOWN<br>
>> NodeName=compute001 CPUs=32<br>
>> NodeName=compute002 CPUs=2<br>
>> The partition specification is<br>
>> PartitionName=DEFAULT State=UP<br>
>> PartitionName=interactive Nodes=compute002 MaxTime=INFINITE OverSubscribe=FORCE<br>
>> PartitionName=simulation Nodes=compute001 MaxTime=30 OverSubscribe=FORCE<br>
>> I have added the OverSubscribe=FORCE option as I want more than one job to be able to land on my interactive/simulation queues.<br>
>> All of the nodes and cluster master start up fine and they all talk to each other but no matter what I do, I cannot get my cluster to accept more than one job per node.<br>
>> Can you help me determine where I am going wrong?<br>
>> Thanks a lot<br>
>> Jake<br>
>> The entire slurm.conf is pasted below<br>
>> # slurm.conf file generated by configurator.html.<br>
>> ClusterName=pm-slurm<br>
>> SlurmctldHost=slurm-master<br>
>> MpiDefault=none<br>
>> ProctrackType=proctrack/cgroup<br>
>> ReturnToService=2<br>
>> SlurmctldPidFile=/var/run/slurmctld.pid<br>
>> SlurmctldPort=6817<br>
>> SlurmdPidFile=/var/run/slurmd.pid<br>
>> SlurmdPort=6818<br>
>> SlurmdSpoolDir=/var/spool/slurmd<br>
>> SlurmUser=slurm<br>
>> StateSaveLocation=/home/slurm/var/spool/slurmctld<br>
>> SwitchType=switch/none<br>
>> TaskPlugin=task/cgroup<br>
>> #<br>
>> # TIMERS<br>
>> InactiveLimit=0<br>
>> KillWait=30<br>
>> MinJobAge=300<br>
>> SlurmctldTimeout=120<br>
>> SlurmdTimeout=300<br>
>> Waittime=0<br>
>> #<br>
>> # SCHEDULING<br>
>> SchedulerType=sched/backfill<br>
>> SelectType=select/cons_tres<br>
>> SelectTypeParameters=CR_Core_Memory<br>
>> #<br>
>> # LOGGING AND ACCOUNTING<br>
>> JobAcctGatherFrequency=30<br>
>> JobAcctGatherType=jobacct_gather/cgroup<br>
>> SlurmctldDebug=info<br>
>> SlurmctldLogFile=/var/log/slurmctld.log<br>
>> SlurmdDebug=info<br>
>> SlurmdLogFile=/var/log/slurmd.log<br>
>> # COMPUTE NODES<br>
>> NodeName=DEFAULT CPUs=1 RealMemory=1000 State=UNKNOWN<br>
>> NodeName=compute001 CPUs=32<br>
>> NodeName=compute002 CPUs=2<br>
>> PartitionName=DEFAULT State=UP<br>
>> PartitionName=interactive Nodes=compute002 MaxTime=INFINITE OverSubscribe=FORCE<br>
>> PartitionName=simulation Nodes=compute001 MaxTime=30 OverSubscribe=FORCE<br>
> <br>
> <br>
</blockquote></div>