<div dir="ltr">Dear all,<div><br></div><div>I have two users on our cluster who "bought into" it, much like a condo model, by purchasing one single physical node each. For those users, I have attempted to configure two QOS levels, such that when they submit jobs and invoke the QOS, they will have preempt, priority access to resources up to the amount provided in the nodes they purchased. When they are not using those resources, I want them to be available to any user on the system.</div><div><br></div><div>Apparently, this is not working as designed. One user who should have had priority was waiting for resources for over 10 minutes on a super small, simple job; based on expected behavior, she should have preempted a running job and more or less started immediately. Something might be wrong in my configuration, and I'd also welcome other thoughts for how to test to ensure the QOS is working properly. Here's what I have in slurm.conf:</div><div><br></div><div><font face="monospace">PreemptType=preempt/qos<br>PreemptMode=REQUEUE</font><br></div><div><br></div><div>The list of QOS seems reasonable:</div><div><br></div><div><font face="monospace">[simmsj@hpc ~]$ sacctmgr show qos format=name,priority<br>      Name   Priority<br>---------- ----------<br>    normal          0<br>hendricks+        100<br>douglaslab        100</font><br></div><div><br></div><div>And here is the sample job invocation that was stuck in the queue:</div><div><br></div><div><font face="monospace">srun -t 45 --cpus-per-task=1 --mem-per-cpu=1gb --qos=douglaslab --pty /bin/bash</font><br></div><div><br></div><div>And here is how I created the QOS in the first place:</div><div><br></div><div><font face="monospace">sacctmgr add qos douglaslab<br></font></div><div><font face="monospace">sacctmgr modify qos douglaslab set priority=100<br></font></div><div><font face="monospace">sacctmgr modify qos douglaslab set GrpCPUs=24  #because the node has 24 CPUs</font><br></div><div><br></div><div>Also, I verified that the appropriate users are the QOS groups. In the end, then, I assume that if members of the douglaslab QOS submit jobs that require up to 24 CPUs, then they can preempt running jobs to get that many if they are not immediately available. But this doesn't seem to be working, as noted. Any advice would be welcome!</div><div><br></div><div>Warmest regards,</div><div>Jason</div><div><div><br></div>-- <br><div dir="ltr" class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div style="color:rgb(0,0,0);font-family:Helvetica;font-size:14px;margin:0px"><span style="color:rgb(130,36,51)"><font face="Century Gothic"><b>Jason L. Simms, Ph.D., M.P.H.</b></font></span></div><div style="color:rgb(0,0,0);font-family:Helvetica;font-size:14px;margin:0px"><font face="Century Gothic"><span>Manager of Research and High-Performance Computing</span></font></div><div style="color:rgb(0,0,0);font-family:Helvetica;font-size:14px;margin:0px"><font face="Century Gothic"><span>XSEDE Campus Champion<br></span><span style="color:gray">Lafayette College<br>Information Technology Services<br>710 Sullivan Rd | Easton, PA 18042<br>Office: 112 Skillman Library<br>p: (610) 330-5632</span></font></div></div></div></div></div></div></div></div></div></div></div>