<meta http-equiv="Content-Type" content="text/html; charset=utf-8"><div dir="ltr"><div>Hi Adrian,</div><div><br></div><div>From this output</div><div><br></div><div>AVAIL NODES(A/I/O/T)  CPUS(A/I/O/T)    DEFAULTTIME    TIMELIMIT<br>
up      23/0/0/23     837/587/0/1424   1-00:00:00   2-00:00:00</div><div><br></div><div>It shows that all 23 nodes have at least one job running on it.</div><div><br></div><div>So what happens if you run scontrol show node on a few of the nodes? I'm particularly interested in the AllocTRES section</div><div><br></div><div>e.g. for one of my nodes,</div><div><br></div><div style="margin-left:40px"># scontrol show node spartan-bm055 | grep 'NodeName\|CfgTRES\|AllocTRES'<br>NodeName=spartan-bm055 Arch=x86_64 CoresPerSocket=18<br>   CfgTRES=cpu=72,mem=1519000M,billing=6005<br>   AllocTRES=cpu=72,mem=441840M</div><div style="margin-left:40px"><br></div><div>It shows that for this node, it has 72 cores and 1.5TB RAM (the CfgTRES part), and currently jobs are using 72 cores, and 442GB RAM.</div><div><br></div><div>I would run the same command on 4 or 5 of the nodes on your cluster, and we'll have a better idea about what's going on.<br></div><div><br></div><div>Sean</div><div><br></div><div><div><div><div><div dir="ltr" class="gmail_signature" data-smartmail="gmail_signature">--<br>Sean Crosby | Senior DevOpsHPC Engineer and HPC Team Lead<br>Research Computing Services | Business Services<br>The University of Melbourne, Victoria 3010 Australia<br><br></div></div><br></div></div></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Wed, 20 Jan 2021 at 06:50, Adrian Sevcenco <<a href="mailto:Adrian.Sevcenco@spacescience.ro">Adrian.Sevcenco@spacescience.ro</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">UoM notice: External email. Be cautious of links, attachments, or impersonation attempts<br>
<br>
Hi! So, i have a very strange situation that i do not even know how to <br>
troubleshoot...<br>
I'm running with<br>
SelectType=select/cons_res<br>
SelectTypeParameters=CR_CPU_Memory,CR_LLN<br>
TaskPlugin=task/affinity,task/cgroup<br>
TaskPluginParam=autobind=threads<br>
<br>
and a partition defined with:<br>
LLN=yes DefMemPerCPU=4000 MaxMemPerCPU=4040<br>
<br>
PriorityType=priority/basic<br>
SchedulerType=sched/builtin<br>
<br>
This is a HEP cluster, so only serial single thread jobs.<br>
<br>
(physically all nodes have 4 GB/thread)<br>
the nodes are defined (now, only after a lot of experimentation and <br>
realization that if the node properties could and are incompatible with <br>
CR_CPU) just with CPUs and RealMemory defined (obtained from slurmd -C <br>
on each node)<br>
<br>
and with FastSchedule=0<br>
<br>
the problem is that the partition is stuck to a low number (around 834 <br>
from 1424)<br>
<br>
AVAIL NODES(A/I/O/T)  CPUS(A/I/O/T)    DEFAULTTIME    TIMELIMIT<br>
up      23/0/0/23     837/587/0/1424   1-00:00:00   2-00:00:00<br>
<br>
<br>
i set up SlurmctldDebug=debug and<br>
DebugFlags=Priority,SelectType,NodeFeatures,CPU_Bind,NO_CONF_HASH<br>
<br>
but i am not able to recognize anything as a problem.<br>
<br>
Do anyone have any idea why not all my slots would be used?<br>
<br>
Thank you!!<br>
Adrian<br>
<br>
<br>
</blockquote></div>