<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<style type="text/css" style="display:none;"> P {margin-top:0;margin-bottom:0;} </style>
</head>
<body dir="ltr">
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);">
<span style="font-family:"Segoe UI", "Segoe UI Web (West European)", "Segoe UI", -apple-system, BlinkMacSystemFont, Roboto, "Helvetica Neue", sans-serif;font-size:14.6667px;background-color:rgb(255, 255, 255);display:inline !important">> What is the use-case
 for having users need to self-limit?</span><br>
</div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);">
<span style="font-family:"Segoe UI", "Segoe UI Web (West European)", "Segoe UI", -apple-system, BlinkMacSystemFont, Roboto, "Helvetica Neue", sans-serif;font-size:14.6667px;background-color:rgb(255, 255, 255);display:inline !important"><br>
</span></div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);">
Our users self limit jobs with extremely high disk IO requirements.  Some batch jobs read/write over 15TB a day and I haven't identified an effective method of capping IOPS per user.  We still have issues with the occasional user deciding to use SLURM to extract
 hundreds of 60GB tar.gz files in parallel with no task limits.  One of my current goals is to find a method of quickly identifying jobs with high IO Wait so that a single user can't DDOS the storage.  Unfortunately, all jobs using the same storage device end
 up with high IO wait so identifying the culprit requires also comparing total IO per job.</div>
<div>
<div id="Signature">
<div id="divtagdefaultwrapper" dir="ltr" style="font-size:12pt; color:#000000; font-family:Calibri,Helvetica,sans-serif">
<p style="margin-top:0; margin-bottom:0"><br>
</p>
<p style="margin-top:0; margin-bottom:0"><span id="ms-rterangepaste-start"></span></p>
<p class="x_MsoNormal" style="margin:0in 0in 0.0001pt; font-size:12pt; font-family:"Times New Roman",serif; color:rgb(33,33,33)">
<span style="font-size:11pt; font-family:Calibri,sans-serif,serif,EmojiFont; color:rgb(31,73,125)">William Dear</span></p>
<p class="x_MsoNormal" style="margin:0in 0in 0.0001pt; font-size:12pt; font-family:"Times New Roman",serif; color:rgb(33,33,33)">
<br>
</p>
</div>
</div>
</div>
<div id="appendonsend"></div>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<br>
</div>
<hr tabindex="-1" style="display:inline-block; width:98%">
<div id="divRplyFwdMsg" dir="ltr"><font face="Calibri, sans-serif" color="#000000" style="font-size:11pt"><b>From:</b> slurm-users <slurm-users-bounces@lists.schedmd.com> on behalf of Loris Bennett <loris.bennett@fu-berlin.de><br>
<b>Sent:</b> Tuesday, May 17, 2022 12:46 AM<br>
<b>To:</b> Slurm User Community List <slurm-users@lists.schedmd.com><br>
<b>Subject:</b> Re: [slurm-users] Performance tracking of array tasks</font>
<div> </div>
</div>
<div class="BodyFragment"><font size="2"><span style="font-size:11pt">
<div class="PlainText">CAUTION: This email originated from outside of the organization. Do not click links or open attachments unless you recognize the sender and know the content is safe.<br>
<br>
<br>
Hi,<br>
<br>
William Dear <william.dear@i3-corps.com> writes:<br>
<br>
> It looks like Brian's suggestion of using SACCT will be the fast answer in the short term so I'll just have to write my own script to aggregate the output.  I was hoping for a canned solution such as XDMoD but haven't found one that quite<br>
> fits our needs.  If there's a list of recommended supporting applications for SLURM I would appreciate that.<br>
><br>
> One example of how the canned reporting doesn't meet our needs is that my users self limit their arrays such as "--array=1-12000%100".  Technically, the initial job isn't waiting on anything but itself since it only runs 100 at a time but<br>
> all the pending array jobs still show up as waiting.  If the partition resources are too low and the job is running less than 100 then it actually is waiting on another job.  The challenge will be determining when a job is self limiting vs<br>
> waiting on a different job.<br>
<br>
What is the use-case for having users need to self-limit?  We just rely<br>
on the cap for the maximum number of jobs in an array and on fairshare<br>
to do the rest.<br>
<br>
Cheers,<br>
<br>
Loris<br>
<br>
> Thanks,<br>
><br>
> William Dear<br>
><br>
> ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------<br>
> From: slurm-users <slurm-users-bounces@lists.schedmd.com> on behalf of Loris Bennett <loris.bennett@fu-berlin.de><br>
> Sent: Monday, May 16, 2022 9:04 AM<br>
> To: Slurm User Community List <slurm-users@lists.schedmd.com><br>
> Subject: Re: [slurm-users] Performance tracking of array tasks<br>
><br>
> CAUTION: This email originated from outside of the organization. Do not click links or open attachments unless you recognize the sender and know the content is safe.<br>
><br>
> Hi William,<br>
><br>
> William Dear <william.dear@i3-corps.com> writes:<br>
><br>
>> Could anyone please recommend methods of tracking the performance of individual tasks in a task array job?  I have installed XDMoD but it is focused solely on the Job level with no information about<br>
>> tasks.<br>
>><br>
>> My users almost exclusively use task arrays to run embarrassingly parallel jobs.  After the job is complete I would like to see run time and peak RAM usage per task so that we can correctly size the<br>
>> reservations for future jobs.  It would also be very helpful to break this down by node so that I can identify poorly performing nodes.<br>
>><br>
>> William Dear<br>
><br>
> I'm not sure what you mean by a 'task array job'.  A job can have<br>
> multiple tasks within it - I don't think you will be able to get data on<br>
> such individual tasks very easily.  However, a job array is just a sort<br>
> of convenient wrapper around a bunch of jobs.  Each element of a job<br>
> array still has its own job ID, so you can extract job data the same way<br>
> you do for a non-array job.<br>
><br>
> Cheers,<br>
><br>
> Loris<br>
><br>
> --<br>
> Dr. Loris Bennett (Herr/Mr)<br>
> ZEDAT, Freie Universität Berlin         Email loris.bennett@fu-berlin.de<br>
><br>
> _____________________________________<br>
> Confidentiality Notice - The information contained in this e-mail and any attachments to it may be legally privileged and include confidential information. If you are not the intended recipient, be aware that any disclosure,<br>
> distribution or copying of this e-mail or its attachments is prohibited. If you have received this e-mail in error, please notify the sender immediately of that fact by return e-mail and permanently delete the e-mail and any attachments<br>
> to it.<br>
<br>
</div>
</span></font></div>
</body>
</html>