<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=us-ascii">
<meta name="Generator" content="Microsoft Word 14 (filtered medium)">
<style><!--
/* Font Definitions */
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
@font-face
        {font-family:Tahoma;
        panose-1:2 11 6 4 3 5 4 4 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        margin-bottom:.0001pt;
        font-size:11.0pt;
        font-family:"Calibri","sans-serif";}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:purple;
        text-decoration:underline;}
span.EmailStyle17
        {mso-style-type:personal;
        font-family:"Calibri","sans-serif";
        color:windowtext;}
span.EmailStyle18
        {mso-style-type:personal-reply;
        font-family:"Calibri","sans-serif";
        color:#1F497D;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-size:10.0pt;}
@page WordSection1
        {size:8.5in 11.0in;
        margin:1.0in 1.0in 1.0in 1.0in;}
div.WordSection1
        {page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]-->
</head>
<body lang="EN-US" link="blue" vlink="purple">
<div class="WordSection1">
<p class="MsoNormal"><span style="color:#1F497D">A few more things to note:<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">- (Should have mentioned this earlier) running Slurm 17.11.7 ( via
<a href="https://launchpad.net/~jonathonf/+archive/ubuntu/slurm">https://launchpad.net/~jonathonf/+archive/ubuntu/slurm</a> )<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">- Restarted slurmctld and slurmdbd, but still getting the slurmdbd errors as before in slurmctld.log<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">- Ran “mysqlcheck --databases slurm_acct_db --auto-repair”, output was:<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New";color:#1F497D">slurm_acct_db.acct_coord_table                     OK<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New";color:#1F497D">slurm_acct_db.acct_table                           OK<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New";color:#1F497D">slurm_acct_db.clus_res_table                       OK<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New";color:#1F497D">slurm_acct_db.cluster_table                        OK<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New";color:#1F497D">slurm_acct_db.convert_version_table                OK<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New";color:#1F497D">slurm_acct_db.federation_table                     OK<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New";color:#1F497D">slurm_acct_db.macluster_assoc_table                OK<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New";color:#1F497D">slurm_acct_db.macluster_assoc_usage_day_table      OK<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New";color:#1F497D">slurm_acct_db.macluster_assoc_usage_hour_table     OK<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New";color:#1F497D">slurm_acct_db.macluster_assoc_usage_month_table    OK<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New";color:#1F497D">slurm_acct_db.macluster_event_table                OK<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New";color:#1F497D">slurm_acct_db.macluster_job_table                  OK<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New";color:#1F497D">slurm_acct_db.macluster_last_ran_table             OK<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New";color:#1F497D">slurm_acct_db.macluster_resv_table                 OK<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New";color:#1F497D">slurm_acct_db.macluster_step_table                 OK<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New";color:#1F497D">slurm_acct_db.macluster_suspend_table              OK<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New";color:#1F497D">slurm_acct_db.macluster_usage_day_table            OK<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New";color:#1F497D">slurm_acct_db.macluster_usage_hour_table           OK<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New";color:#1F497D">slurm_acct_db.macluster_usage_month_table          OK<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New";color:#1F497D">slurm_acct_db.macluster_wckey_table                OK<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New";color:#1F497D">slurm_acct_db.macluster_wckey_usage_day_table      OK<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New";color:#1F497D">slurm_acct_db.macluster_wckey_usage_hour_table     OK<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New";color:#1F497D">slurm_acct_db.macluster_wckey_usage_month_table    OK<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New";color:#1F497D">slurm_acct_db.qos_table                            OK<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New";color:#1F497D">slurm_acct_db.res_table                            OK<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New";color:#1F497D">slurm_acct_db.table_defs_table                     OK<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New";color:#1F497D">slurm_acct_db.tres_table                           OK<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New";color:#1F497D">slurm_acct_db.txn_table                            OK<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New";color:#1F497D">slurm_acct_db.user_table                           OK<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">- Nothing in /var/log/mysql/error.log for as far back as logs go<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">- Ran “sacctmgr show runaway”, there were a LOT of runaway jobs; chose “Y” to fix, then output of “sacctmgr show runaway” was nil. A few minutes later however, “sacctmgr show runaway” had entries again.<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">If someone knows what else I might try to isolate/resolve this issue, please kindly assist...
<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<div>
<div style="border:none;border-top:solid #B5C4DF 1.0pt;padding:3.0pt 0in 0in 0in">
<p class="MsoNormal"><b><span style="font-size:10.0pt;font-family:"Tahoma","sans-serif"">From:</span></b><span style="font-size:10.0pt;font-family:"Tahoma","sans-serif""> Will Dennis
<br>
<b>Sent:</b> Tuesday, July 16, 2019 2:43 PM<br>
<b>To:</b> slurm-users@lists.schedmd.com<br>
<b>Subject:</b> sacct issue: jobs staying in "RUNNING" state<o:p></o:p></span></p>
</div>
</div>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal">Hi all,<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal">Was looking at the running jobs on one groups cluster, and saw there was an insane amount of “running” jobs when I did a sacct -X -s R; then looked at output of squeue, and found a much more reasonable number...<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal"><span style="font-family:"Courier New"">root@slurm-controller1:/ # sacct -X -p -s R | wc -l<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New"">8895<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New"">root@ slurm-controller1:/ # squeue | wc -l<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New"">43<o:p></o:p></span></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal">In looking for the cause, I see a large amount of the following in the slurmctld.log file:<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal"><span style="font-family:"Courier New"">[2019-07-16T09:36:51.464] error: slurmdbd: agent queue is full (20140), discarding DBD_STEP_START:1442 request<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New"">[2019-07-16T09:40:27.515] error: slurmdbd: agent queue filling (20140), RESTART SLURMDBD NOW<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New"">[2019-07-16T09:40:27.515] error: slurmdbd: agent queue is full (20140), discarding DBD_JOB_COMPLETE:1424 request<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New"">[2019-07-16T09:40:27.515] error: slurmdbd: agent queue is full (20140), discarding DBD_STEP_COMPLETE:1441 request<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New"">[2019-07-16T09:42:40.766] error: slurmdbd: agent queue filling (20140), RESTART SLURMDBD NOW<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New"">[2019-07-16T09:42:40.766] error: slurmdbd: agent queue is full (20140), discarding DBD_STEP_START:1442 request<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New"">[2019-07-16T09:46:05.905] error: slurmdbd: agent queue filling (20140), RESTART SLURMDBD NOW<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New"">[2019-07-16T09:46:05.905] error: slurmdbd: agent queue is full (20140), discarding DBD_STEP_COMPLETE:1441 request<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New"">[2019-07-16T09:46:05.905] error: slurmdbd: agent queue is full (20140), discarding DBD_JOB_COMPLETE:1424 request<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New"">[2019-07-16T09:48:42.616] error: slurmdbd: agent queue filling (20140), RESTART SLURMDBD NOW<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New"">[2019-07-16T09:48:42.616] error: slurmdbd: agent queue is full (20140), discarding DBD_JOB_COMPLETE:1424 request<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New"">[2019-07-16T09:48:42.616] error: slurmdbd: agent queue is full (20140), discarding DBD_STEP_COMPLETE:1441 request<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New"">[2019-07-16T09:53:00.188] error: slurmdbd: agent queue filling (20140), RESTART SLURMDBD NOW<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New"">[2019-07-16T09:53:00.188] error: slurmdbd: agent queue is full (20140), discarding DBD_JOB_COMPLETE:1424 request<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New"">[2019-07-16T09:53:00.189] error: slurmdbd: agent queue is full (20140), discarding DBD_STEP_COMPLETE:1441 request<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-family:"Courier New""><o:p> </o:p></span></p>
<p class="MsoNormal">What may be the cause of this issue? And, is there any way now to correct the accounting records in the db?<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal">Thanks,<o:p></o:p></p>
<p class="MsoNormal">Will<o:p></o:p></p>
</div>
</body>
</html>