<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<meta name="Generator" content="Microsoft Word 15 (filtered medium)">
<style><!--
/* Font Definitions */
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0cm;
        font-size:11.0pt;
        font-family:"Calibri",sans-serif;
        mso-fareast-language:EN-US;}
span.E-postmall19
        {mso-style-type:personal-reply;
        font-family:"Calibri",sans-serif;
        color:#8496B0;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-size:10.0pt;
        mso-ligatures:none;}
@page WordSection1
        {size:612.0pt 792.0pt;
        margin:72.0pt 72.0pt 72.0pt 72.0pt;}
div.WordSection1
        {page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]-->
</head>
<body lang="en-SE" link="#0563C1" vlink="#954F72" style="word-wrap:break-word">
<div class="WordSection1">
<p class="MsoNormal"><span lang="EN-US" style="color:#8496B0">We are feeding job usage information into a Prometheus database for our users (and us) to look at (via Grafana).<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US" style="color:#8496B0">It is also possible to get a lite of jobs that are under using memory, gpu or whatever metric you feed into the database.<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US" style="color:#8496B0"><o:p> </o:p></span></p>
<p class="MsoNormal"><span lang="EN-US" style="color:#8496B0">It’s a live feed with ~30s resolution from both compute jobs and Lustre file system.<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US" style="color:#8496B0">It’s easy to extend with more metrices.<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US" style="color:#8496B0"><o:p> </o:p></span></p>
<p class="MsoNormal"><span lang="EN-US" style="color:#8496B0">If you want more information on what we are doing just send me an email and I can give you more information.<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US" style="color:#8496B0"><o:p> </o:p></span></p>
<p class="MsoNormal"><span lang="EN-US" style="color:#8496B0">/Magnus<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="en-SE" style="color:#8496B0"><o:p> </o:p></span></p>
<div>
<div>
<p class="MsoNormal"><span style="color:#8496B0;mso-fareast-language:#2000">-- <o:p>
</o:p></span></p>
</div>
<div>
<p class="MsoNormal"><span style="color:#8496B0;mso-fareast-language:#2000">Magnus Jonsson, Developer, HPC2N, Umeå Universitet<o:p></o:p></span></p>
</div>
<div>
<p class="MsoNormal"><span style="color:#8496B0;mso-fareast-language:#2000">By sending an email to Umeå University, the University will need to<o:p></o:p></span></p>
</div>
</div>
<p class="MsoNormal"><span style="color:#8496B0;mso-fareast-language:#2000">process your personal data. For more information, please read
<a href="http://www.umu.se/en/gdpr" target="_blank"><span style="color:blue">www.umu.se/en/gdpr</span></a>
</span><span lang="en-SE" style="color:#8496B0"><o:p></o:p></span></p>
<div>
<div style="border:none;border-top:solid #E1E1E1 1.0pt;padding:3.0pt 0cm 0cm 0cm">
<p class="MsoNormal"><b><span lang="SV" style="mso-fareast-language:#2000">Från:</span></b><span lang="SV" style="mso-fareast-language:#2000"> slurm-users <slurm-users-bounces@lists.schedmd.com>
<b>För </b>Will Furnell - STFC UKRI<br>
<b>Skickat:</b> Monday, 24 July 2023 16:38<br>
<b>Till:</b> slurm-users@schedmd.com<br>
<b>Ämne:</b> [slurm-users] Tracking efficiency of all jobs on the cluster (dashboard etc.)<o:p></o:p></span></p>
</div>
</div>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal"><span lang="EN-GB">Hello,<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-GB"><o:p> </o:p></span></p>
<p class="MsoNormal"><span lang="EN-GB">I am aware of ‘seff’, which allows you to check the efficiency of a single job, which is good for users, but as a cluster administrator I would like to be able to track the efficiency of all jobs from all users on the
 cluster, so I am able to ‘re-educate’ users that may be running jobs that have terrible resource usage efficiency.<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-GB"><o:p> </o:p></span></p>
<p class="MsoNormal"><span lang="EN-GB">What do other cluster administrators use for this task? Is there anything you use and recommend (or don’t recommend) or have heard of that is able to do this? Even if it’s something like a Grafana dashboard that hooks
 up to the SLURM database,<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-GB"><o:p> </o:p></span></p>
<p class="MsoNormal"><span lang="EN-GB">Thank you,<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-GB"><o:p> </o:p></span></p>
<p class="MsoNormal"><span lang="EN-GB">Will.<o:p></o:p></span></p>
</div>
</body>
</html>