<div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div class="gmail_default"><div class="gmail_default"><div class="gmail_default"><br></div><div class="gmail_default">I'm either misunderstanding how to configure the limit "MaxCPUsPerNode" or how it behaves.  My desired end-state is that if a user submits a job to a partition that requests more resources (CPUs) than available on any node in that partition, the job will be immediately rejected, rather than pending with state "Resources" as it does now.</div><div class="gmail_default"><br></div><div class="gmail_default">In the on-site cluster it works as expected.  I'm running into this problem in our cloud clusters where I've got power management set up.  When I tear out all of the cloud/power management configurations the limit works as expected.</div><div class="gmail_default"><br></div><div class="gmail_default">We're using the backfill scheduler and do have QOS's configured (though none of the QOS's in play have a similar limit applied).  The relevant bits from the cloud-enabled configuration are:</div><div class="gmail_default"><br></div><div class="gmail_default"><div class="gmail_default">SelectType=select/cons_res</div><div class="gmail_default">SelectTypeParameters=CR_Core</div><div><div><br></div><div>PartitionName=campus Default=yes DefaultTime=3-0 MaxTime=7-0 Nodes=nodef[0-69] PreemptMode=off Priority=10000 MaxCPUsPerNode=4 MaxMemPerNode=32000 State=UP</div><div>PartitionName=largenode Default=no DefaultTime=1-0 MaxTime=7-0 Nodes=nodeg[0-9] PreemptMode=off Priority=10000 State=UP</div><div>PartitionName=gpu Default=no DefaultTime=1-0 MaxTime=7-0 Nodes=nodek[0-9] PreemptMode=off Priority=10000 State=UP</div><div>NodeName=nodef[0-69] CPUS=4 RealMemory=32768 Weight=40 State=CLOUD</div><div>NodeName=nodeg[0-9] CPUS=8 RealMemory=262144 Weight=40 State=CLOUD</div><div>NodeName=nodek[0-9] gres=gpu:V100-SXM2-16GB:1 CPUS=4 RealMemory=131072 Weight=40 State=CLOUD</div></div><div><br></div><div>Submitting a job that exceeds that limit (e.g. `sbatch -c 12 ...`) results in a job</div><div><br></div><div><div>JobId=27072660 JobName=wrap</div><div>   UserId=me(12345) GroupId=g_me(12345) MCS_label=N/A</div><div>   Priority=100012209 Nice=0 Account=hpc QOS=normal</div><div>   JobState=PENDING Reason=Resources Dependency=(null)</div><div>   Requeue=0 Restarts=0 BatchFlag=1 Reboot=0 ExitCode=0:0</div><div>   RunTime=00:00:00 TimeLimit=3-00:00:00 TimeMin=N/A</div><div>   SubmitTime=2018-11-26T07:50:27 EligibleTime=2018-11-26T07:50:27</div><div>   AccrueTime=2018-11-26T07:50:27</div><div>   StartTime=Unknown EndTime=Unknown Deadline=N/A</div><div>   PreemptTime=None SuspendTime=None SecsPreSuspend=0</div><div>   LastSchedEval=2018-11-26T07:53:14</div><div>   Partition=campus AllocNode:Sid=cluster-login:13257</div><div>   ReqNodeList=(null) ExcNodeList=(null)</div><div>   NodeList=(null)</div><div>   NumNodes=1 NumCPUs=12 NumTasks=1 CPUs/Task=12 ReqB:S:C:T=0:0:*:*</div><div>   TRES=cpu=12,node=1,billing=12</div><div>   Socks/Node=* NtasksPerN:B:S:C=0:0:*:* CoreSpec=*</div><div>   MinCPUsNode=12 MinMemoryNode=0 MinTmpDiskNode=0</div><div>   Features=(null) DelayBoot=00:00:00</div><div>   OverSubscribe=OK Contiguous=0 Licenses=(null) Network=(null)</div></div><div><br></div><div>Controller log notes:</div><div><br></div><div><div>slurmctld: _build_node_list: No nodes satisfy JobId=27072660 requirements in partition campus</div><div>slurmctld: _slurm_rpc_submit_batch_job: JobId=27072660 InitPrio=100012209 usec=1037</div></div><div><br></div><div>So there's either the possibility that there's a bug in Slurm, or I'm misunderstanding how this limit is supposed to work.</div><div><br></div><div>Thanks for looking at this- any suggestions greatly appreciated.</div><div><br></div><div>Michael</div><div><br></div><div><br></div></div></div></div></div><input name="virtru-metadata" type="hidden" value="{"email-policy":{"state":"closed","expirationUnit":"days","disableCopyPaste":false,"disablePrint":false,"disableForwarding":false,"enableNoauth":false,"expires":false,"isManaged":false},"attachments":{},"compose-id":"18","compose-window":{"secure":false}}"></div></div></div></div></div></div></div>