<div dir="ltr"><div dir="ltr"><div><div><div><font face="arial, sans-serif"><i>I apologize if this comes up as a repost of my message about a week ago. I think I had not officially joined the group when I first posted and perhaps sent to the wrong email address.</i></font></div><div><font face="arial, sans-serif"><br></font></div><div><font face="arial, sans-serif">I'm trying to setup a small partition where oversubscription is allowed. I want to be able to have several jobs assigned to the same core simultaneously. The idea is to facilitate some low-consumption interactive workloads in instructional settings (eg. students running Matlab during a class). I've followed all the instructions I can find online and in the manuals for oversubscription, but cores are only being assigned to one job at a time.</font></div><div><font face="arial, sans-serif"><br></font></div><div><font face="arial, sans-serif">Any suggestions? </font></div><div><font face="arial, sans-serif"><br></font></div><div><font face="arial, sans-serif">Below, I've provided details about the configuration, and what I'm seeing when I try to make a job oversubscribe. In the example, I'm forcing jobs to use the same node and letting oversubscription follow from the FORCE:4 setting on the partition, but I've tried every other combination I can think of. Scheduler logs and slurmctld logs haven't show anything that looked useful to me. I went all the way to debug4 on the ctld and tried any debugflag that seemed remotely useful. I've done service restarts on slurmctld and on the nodes' slurmd, but no change and no errors. It just won't oversubscribe.</font></div><div><font face="arial, sans-serif"><br></font></div><div><font face="arial, sans-serif">Thanks for looking - I'm hoping someone out there can help me out!</font></div><div><font face="arial, sans-serif"><br></font></div><div><font face="arial, sans-serif">Matt</font></div><div><font face="arial, sans-serif"><br></font></div><div><br></div><div><br></div><div><font face="monospace"><b>#submit first job and it starts</b></font></div><div><div><font face="monospace">[dtlogin2 ~]$ salloc --partition=interactive_q --nodelist=dt046 --reservation=INC0383888 --ntasks=24 --nodes=1 --account=arctest srun sleep 600 &</font></div><div><font face="monospace">[1] 5018</font></div><div><font face="monospace">[dtlogin2 ~]$ salloc: Granted job allocation 221715</font></div><div><font face="monospace">salloc: Waiting for resource configuration</font></div><div><font face="monospace">salloc: Nodes dt046 are ready for job</font><br></div><div><br></div><div><font face="monospace"><b>#submit second job aimed at same cores as first job and it stays queued until first job completes</b></font></div><div><font face="monospace">[dtlogin2 ~]$ salloc --partition=interactive_q --nodelist=dt046 --reservation=INC0383888 --ntasks=24 --nodes=1 --account=arctest srun sleep 600 &<br></font></div><div><font face="monospace">[2] 5055</font></div><div><font face="monospace">[dtlogin2 ~]$ salloc: Pending job allocation 221716</font></div><div><font face="monospace">salloc: job 221716 queued and waiting for resources</font></div><div><br></div><div><span style="font-family:monospace">[dtlogin2 ~]$ squeue --partition=interactive_q</span><br></div></div><div><font face="monospace">             JOBID PARTITION     NAME     USER ST       TIME  NODES NODELIST(REASON)</font></div><div><font face="monospace">            221716 interacti     srun brownm12 PD       0:00      1 (Resources)</font></div><div><font face="monospace"> </font><span style="font-family:monospace">           221715 </span>interacti<span style="font-family:monospace">     srun brownm12  R       0:23      1 dt046</span></div><div><font face="monospace"><br></font></div><div><b style="font-family:monospace">#job details while one is running and the other pending</b><br></div><div><font face="monospace">[dtlogin2 ~]$ scontrol show job 221716</font></div><div><font face="monospace">JobId=221716 JobName=srun</font></div><div><font face="monospace">   UserId=brownm12(1709627) GroupId=brownm12(1709627) MCS_label=N/A</font></div><div><font face="monospace">   Priority=100 Nice=0 Account=arctest QOS=dt</font></div><div><font face="monospace">   JobState=PENDING Reason=Resources Dependency=(null)</font></div><div><font face="monospace">   Requeue=1 Restarts=0 BatchFlag=0 Reboot=0 ExitCode=0:0</font></div><div><font face="monospace">   RunTime=00:00:00 TimeLimit=04:00:00 TimeMin=N/A</font></div><div><font face="monospace">   SubmitTime=2020-01-30T15:53:05 EligibleTime=2020-01-30T15:53:05</font></div><div><font face="monospace">   StartTime=2020-01-30T19:52:58 EndTime=2020-01-30T23:52:58 Deadline=N/A</font></div><div><font face="monospace">   PreemptTime=None SuspendTime=None SecsPreSuspend=0</font></div><div><font face="monospace">   LastSchedEval=2020-01-30T15:53:38</font></div><div><font face="monospace">   Partition=interactive_q AllocNode:Sid=dtlogin2:2148</font></div><div><font face="monospace">   ReqNodeList=dt046 ExcNodeList=(null)</font></div><div><font face="monospace">   NodeList=(null) SchedNodeList=dt046</font></div><div><font face="monospace">   NumNodes=1-1 NumCPUs=24 NumTasks=24 CPUs/Task=1 ReqB:S:C:T=0:0:*:*</font></div><div><font face="monospace">   TRES=cpu=24,mem=60000M,node=1</font></div><div><font face="monospace">   Socks/Node=* NtasksPerN:B:S:C=0:0:*:* CoreSpec=*</font></div><div><font face="monospace">   MinCPUsNode=1 MinMemoryCPU=2500M MinTmpDiskNode=0</font></div><div><font face="monospace">   Features=(null) DelayBoot=00:00:00</font></div><div><font face="monospace">   Gres=(null) Reservation=INC0383888</font></div><div><font face="monospace">   OverSubscribe=YES Contiguous=0 Licenses=(null) Network=(null)</font></div><div><font face="monospace">   Command=(null)</font></div><div><font face="monospace">   WorkDir=/home/brownm12</font></div><div><font face="monospace">   Power=</font></div><div><font face="monospace"><br></font></div><div><span style="font-family:monospace">[dtlogin2 ~]$ scontrol show job 221715</span><br></div><div><font face="monospace">JobId=221715 JobName=srun</font></div><div><font face="monospace">   UserId=brownm12(1709627) GroupId=brownm12(1709627) MCS_label=N/A</font></div><div><font face="monospace">   Priority=100 Nice=0 Account=arctest QOS=dt</font></div><div><font face="monospace">   JobState=RUNNING Reason=None Dependency=(null)</font></div><div><font face="monospace">   Requeue=1 Restarts=0 BatchFlag=0 Reboot=0 ExitCode=0:0</font></div><div><font face="monospace">   RunTime=00:00:57 TimeLimit=04:00:00 TimeMin=N/A</font></div><div><font face="monospace">   SubmitTime=2020-01-30T15:52:58 EligibleTime=2020-01-30T15:52:58</font></div><div><font face="monospace">   StartTime=2020-01-30T15:52:58 EndTime=2020-01-30T19:52:58 Deadline=N/A</font></div><div><font face="monospace">   PreemptTime=None SuspendTime=None SecsPreSuspend=0</font></div><div><font face="monospace">   LastSchedEval=2020-01-30T15:52:58</font></div><div><font face="monospace">   Partition=interactive_q AllocNode:Sid=dtlogin2:2148</font></div><div><font face="monospace">   ReqNodeList=dt046 ExcNodeList=(null)</font></div><div><font face="monospace">   NodeList=dt046</font></div><div><font face="monospace">   BatchHost=dt046</font></div><div><font face="monospace">   NumNodes=1 NumCPUs=24 NumTasks=24 CPUs/Task=1 ReqB:S:C:T=0:0:*:*</font></div><div><font face="monospace">   TRES=cpu=24,mem=60000M,node=1,billing=24</font></div><div><font face="monospace">   Socks/Node=* NtasksPerN:B:S:C=0:0:*:* CoreSpec=*</font></div><div><font face="monospace">   MinCPUsNode=1 MinMemoryCPU=2500M MinTmpDiskNode=0</font></div><div><font face="monospace">   Features=(null) DelayBoot=00:00:00</font></div><div><font face="monospace">   Gres=(null) Reservation=INC0383888</font></div><div><font face="monospace">   OverSubscribe=YES Contiguous=0 Licenses=(null) Network=(null)</font></div><div><font face="monospace">   Command=(null)</font></div><div><font face="monospace">   WorkDir=/home/brownm12</font></div><div><font face="monospace">   Power=</font></div></div><div><font face="monospace"><br></font></div><div><b style="font-family:monospace">#running config contains</b><br></div><div><font face="monospace">MaxTasksPerNode         = 512<br></font></div><div><font face="monospace">SelectType              = select/cons_res</font></div><div><font face="monospace">SelectTypeParameters    = CR_CORE_MEMORY</font></div></div><div><font face="monospace">SLURM_VERSION           = 17.11.8<br></font></div><div><font face="monospace"><br></font></div><div><font face="monospace"><b>#partition config</b></font></div><div><font face="monospace">PartitionName=interactive_q</font></div><div><font face="monospace">   AllowGroups=ALL AllowAccounts=ALL AllowQos=ALL</font></div><div><font face="monospace">   AllocNodes=ALL Default=NO QoS=dt_interactive_q</font></div><div><font face="monospace">   DefaultTime=NONE DisableRootJobs=NO ExclusiveUser=NO GraceTime=0 Hidden=NO</font></div><div><font face="monospace">   MaxNodes=4 MaxTime=04:00:00 MinNodes=1 LLN=NO MaxCPUsPerNode=UNLIMITED</font></div><div><font face="monospace">   Nodes=dt04[5-7]</font></div><div><font face="monospace">   PriorityJobFactor=40 PriorityTier=40 RootOnly=NO ReqResv=NO OverSubscribe=FORCE:4</font></div><div><font face="monospace">   OverTimeLimit=NONE PreemptMode=OFF</font></div><div><font face="monospace">   State=UP TotalCPUs=72 TotalNodes=3 SelectTypeParameters=NONE</font></div><div><font face="monospace">   DefMemPerCPU=2500 MaxMemPerNode=UNLIMITED</font></div><div><font face="monospace"><br></font></div><div><font face="monospace"><b>#node config</b></font></div><div><div><font face="monospace">NodeName=dt045 Arch=x86_64 CoresPerSocket=12</font></div><div><font face="monospace">   CPUAlloc=0 CPUErr=0 CPUTot=24 CPULoad=0.01</font></div><div><font face="monospace">   AvailableFeatures=(null)</font></div><div><font face="monospace">   ActiveFeatures=(null)</font></div><div><font face="monospace">   Gres=(null)</font></div><div><font face="monospace">   NodeAddr=dt045 NodeHostName=dt045 Version=17.11</font></div><div><font face="monospace">   OS=Linux 3.10.0-693.21.1.el7.x86_64 #1 SMP Wed Mar 7 19:03:37 UTC 2018</font></div><div><font face="monospace">   RealMemory=257357 AllocMem=0 FreeMem=244044 Sockets=2 Boards=1</font></div><div><font face="monospace">   State=RESERVED ThreadsPerCore=1 TmpDisk=0 Weight=1 Owner=N/A MCS_label=N/A</font></div><div><font face="monospace">   Partitions=interactive_q</font></div><div><font face="monospace">   BootTime=2019-08-15T17:15:54 SlurmdStartTime=2020-01-28T16:24:08</font></div><div><font face="monospace">   CfgTRES=cpu=24,mem=257357M,billing=24</font></div><div><font face="monospace">   AllocTRES=</font></div><div><font face="monospace">   CapWatts=n/a</font></div><div><font face="monospace">   CurrentWatts=70 LowestJoules=2850 ConsumedJoules=12714880</font></div><div><font face="monospace">   ExtSensorsJoules=n/s ExtSensorsWatts=0 ExtSensorsTemp=n/s</font></div><div><font face="monospace"><br></font></div><div><font face="monospace">[brownm12@dtlogin2 ~]$ scontrol show nodes dt046<br></font></div><div><font face="monospace">NodeName=dt046 Arch=x86_64 CoresPerSocket=12</font></div><div><font face="monospace">   CPUAlloc=0 CPUErr=0 CPUTot=24 CPULoad=0.02</font></div><div><font face="monospace">   AvailableFeatures=(null)</font></div><div><font face="monospace">   ActiveFeatures=(null)</font></div><div><font face="monospace">   Gres=(null)</font></div><div><font face="monospace">   NodeAddr=dt046 NodeHostName=dt046 Version=17.11</font></div><div><font face="monospace">   OS=Linux 3.10.0-693.21.1.el7.x86_64 #1 SMP Wed Mar 7 19:03:37 UTC 2018</font></div><div><font face="monospace">   RealMemory=257357 AllocMem=0 FreeMem=250596 Sockets=2 Boards=1</font></div><div><font face="monospace">   State=RESERVED ThreadsPerCore=1 TmpDisk=0 Weight=1 Owner=N/A MCS_label=N/A</font></div><div><font face="monospace">   Partitions=interactive_q</font></div><div><font face="monospace">   BootTime=2020-01-27T14:03:46 SlurmdStartTime=2020-01-28T16:25:51</font></div><div><font face="monospace">   CfgTRES=cpu=24,mem=257357M,billing=24</font></div><div><font face="monospace">   AllocTRES=</font></div><div><font face="monospace">   CapWatts=n/a</font></div><div><font face="monospace">   CurrentWatts=70 LowestJoules=2100 ConsumedJoules=12208440</font></div><div><font face="monospace">   ExtSensorsJoules=n/s ExtSensorsWatts=0 ExtSensorsTemp=n/s</font></div><div><font face="monospace"><br></font></div><div><font face="monospace">[brownm12@dtlogin2 ~]$ scontrol show nodes dt047<br></font></div><div><font face="monospace">NodeName=dt047 Arch=x86_64 CoresPerSocket=12</font></div><div><font face="monospace">   CPUAlloc=0 CPUErr=0 CPUTot=24 CPULoad=0.01</font></div><div><font face="monospace">   AvailableFeatures=(null)</font></div><div><font face="monospace">   ActiveFeatures=(null)</font></div><div><font face="monospace">   Gres=(null)</font></div><div><font face="monospace">   NodeAddr=dt047 NodeHostName=dt047 Version=17.11</font></div><div><font face="monospace">   OS=Linux 3.10.0-693.21.1.el7.x86_64 #1 SMP Wed Mar 7 19:03:37 UTC 2018</font></div><div><font face="monospace">   RealMemory=257357 AllocMem=0 FreeMem=242610 Sockets=2 Boards=1</font></div><div><font face="monospace">   State=RESERVED ThreadsPerCore=1 TmpDisk=0 Weight=1 Owner=N/A MCS_label=N/A</font></div><div><font face="monospace">   Partitions=interactive_q</font></div><div><font face="monospace">   BootTime=2019-07-05T16:20:41 SlurmdStartTime=2020-01-28T16:25:59</font></div><div><font face="monospace">   CfgTRES=cpu=24,mem=257357M,billing=24</font></div><div><font face="monospace">   AllocTRES=</font></div><div><font face="monospace">   CapWatts=n/a</font></div><div><font face="monospace">   CurrentWatts=70 LowestJoules=2100 ConsumedJoules=12181165</font></div><div><font face="monospace">   ExtSensorsJoules=n/s ExtSensorsWatts=0 ExtSensorsTemp=n/s</font></div></div><div><font face="monospace"><br></font></div><div><font face="monospace"><b>#effective qos limits</b></font></div><div><div><font face="monospace">[dtlogin2 ~]$ showqos</font></div><div><font face="monospace">                Name   Flags   MaxTRESMins MaxJobsPA MaxJobsPU MaxSubmitPA MaxSubmitPU            MaxTRESPA                 MaxTRESPU</font></div><div><font face="monospace">-------------------- ------- ------------- --------- --------- ----------- ----------- -------------------- -------------------------</font></div><div><font face="monospace">    dt_interactive_q NoDecay                                10                                                cpu=96,mem=250G,node=96<br></font></div><div><font face="monospace"><br></font></div></div><div><div><font face="monospace"><b>#reservation being used to restrict access to nodes in partition during development</b></font></div><div><font face="monospace">[brownm12@dtlogin2 ~]$ scontrol show res</font></div><div><font face="monospace">ReservationName=INC0383888 StartTime=2019-09-12T01:02:15 EndTime=2020-09-11T01:02:15 Duration=365-00:00:00</font></div><div><font face="monospace">   Nodes=dt[045-047] NodeCnt=3 CoreCnt=72 Features=(null) PartitionName=interactive_q Flags=OVERLAP,IGNORE_JOBS,SPEC_NODES</font></div><div><font face="monospace">   TRES=cpu=72</font></div><div><font face="monospace">   Users=(null) Accounts=test,redacted1,redacted2,redacted3 Licenses=(null) State=ACTIVE BurstBuffer=(null) Watts=n/a</font></div></div></div></div>