<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=us-ascii">
<meta name="Generator" content="Microsoft Word 14 (filtered medium)">
<style><!--
/* Font Definitions */
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        margin-bottom:.0001pt;
        font-size:11.0pt;
        font-family:"Calibri","sans-serif";}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:purple;
        text-decoration:underline;}
span.EmailStyle17
        {mso-style-type:personal-compose;
        font-family:"Calibri","sans-serif";
        color:windowtext;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-family:"Calibri","sans-serif";}
@page WordSection1
        {size:8.5in 11.0in;
        margin:1.0in 1.0in 1.0in 1.0in;}
div.WordSection1
        {page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]-->
</head>
<body lang="EN-US" link="blue" vlink="purple">
<div class="WordSection1">
<p class="MsoNormal">Hi all,<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal">Was looking at the running jobs on one groups cluster, and saw there was an insane amount of “running” jobs when I did a sacct -X -s R; then looked at output of squeue, and found a much more reasonable number...<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal"><span style="font-family:"Courier New"">root@slurm-controller1:/ # sacct -X -p -s R | wc -l<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New"">8895<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New"">root@ slurm-controller1:/ # squeue | wc -l<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New"">43<o:p></o:p></span></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal">In looking for the cause, I see a large amount of the following in the slurmctld.log file:<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal"><span style="font-family:"Courier New"">[2019-07-16T09:36:51.464] error: slurmdbd: agent queue is full (20140), discarding DBD_STEP_START:1442 request<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New"">[2019-07-16T09:40:27.515] error: slurmdbd: agent queue filling (20140), RESTART SLURMDBD NOW<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New"">[2019-07-16T09:40:27.515] error: slurmdbd: agent queue is full (20140), discarding DBD_JOB_COMPLETE:1424 request<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New"">[2019-07-16T09:40:27.515] error: slurmdbd: agent queue is full (20140), discarding DBD_STEP_COMPLETE:1441 request<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New"">[2019-07-16T09:42:40.766] error: slurmdbd: agent queue filling (20140), RESTART SLURMDBD NOW<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New"">[2019-07-16T09:42:40.766] error: slurmdbd: agent queue is full (20140), discarding DBD_STEP_START:1442 request<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New"">[2019-07-16T09:46:05.905] error: slurmdbd: agent queue filling (20140), RESTART SLURMDBD NOW<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New"">[2019-07-16T09:46:05.905] error: slurmdbd: agent queue is full (20140), discarding DBD_STEP_COMPLETE:1441 request<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New"">[2019-07-16T09:46:05.905] error: slurmdbd: agent queue is full (20140), discarding DBD_JOB_COMPLETE:1424 request<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New"">[2019-07-16T09:48:42.616] error: slurmdbd: agent queue filling (20140), RESTART SLURMDBD NOW<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New"">[2019-07-16T09:48:42.616] error: slurmdbd: agent queue is full (20140), discarding DBD_JOB_COMPLETE:1424 request<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New"">[2019-07-16T09:48:42.616] error: slurmdbd: agent queue is full (20140), discarding DBD_STEP_COMPLETE:1441 request<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New"">[2019-07-16T09:53:00.188] error: slurmdbd: agent queue filling (20140), RESTART SLURMDBD NOW<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New"">[2019-07-16T09:53:00.188] error: slurmdbd: agent queue is full (20140), discarding DBD_JOB_COMPLETE:1424 request<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New"">[2019-07-16T09:53:00.189] error: slurmdbd: agent queue is full (20140), discarding DBD_STEP_COMPLETE:1441 request<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New""><o:p> </o:p></span></p>
<p class="MsoNormal">What may be the cause of this issue? And, is there any way now to correct the accounting records in the db?<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal">Thanks,<o:p></o:p></p>
<p class="MsoNormal">Will<o:p></o:p></p>
</div>
</body>
</html>