<div dir="ltr"><div>Hi,</div><div><br></div><div>Apparently my colleague upgraded the mysql client and server, but, as far as I can tell, this was only 5.7.29 to 5.7.30, and checking the mysql release notes I  don't see anything that looks suspicious there...</div><div><br></div><div>cheers,</div><div>--dustin<br></div><div><br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Tue, May 5, 2020 at 1:37 PM Dustin Lang <<a href="mailto:dstndstn@gmail.com">dstndstn@gmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div>Hi,</div><div><br></div><div>We're running Slurm 17.11.12.  Everything has been working fine, and then suddenly slurmctld is crashing and slurmdbd is crashing.</div><div><br></div><div>We use fair-share as part of the queuing policy, and previously set up accounts with sacctmgr; that has been working fine for months.</div><div><br></div><div>If I run slurmdbd in debug mode,</div><div><br></div><div> slurmdbd -D -v -v -v -v -v</div><div><br></div><div>it eventually (after being contacted by slurmctld) segfaults with:</div><div><br></div><div>...<br></div><div>slurmdbd: debug2: DBD_NODE_STATE: NODE:cn049 STATE:UP REASON:(null) TIME:1588695584<br>slurmdbd: debug4: got 0 commits<br>slurmdbd: debug2: DBD_NODE_STATE: NODE:cn050 STATE:UP REASON:(null) TIME:1588695584<br>slurmdbd: debug4: got 0 commits<br>slurmdbd: debug4: got 0 commits<br>slurmdbd: debug2: DBD_GET_TRES: called<br>slurmdbd: debug4: got 0 commits<br>slurmdbd: debug2: DBD_GET_QOS: called<br>slurmdbd: debug4: got 0 commits<br>slurmdbd: debug2: DBD_GET_USERS: called<br>slurmdbd: debug4: got 0 commits<br>slurmdbd: debug2: DBD_GET_ASSOCS: called<br>slurmdbd: debug4: 10(as_mysql_assoc.c:2033) query<br>call get_parent_limits('assoc_table', 'root', 'slurm_cluster', 0); select @par_id, @mj, @msj, @mwpj, @mtpj, @mtpn, @mtmpj, @mtrm, @def_qos_id, @qos, @delta_qos;<br>Segmentation fault (core dumped)</div><div><br></div><div><br></div><div>It looks (running slurmdbd in gdb) like that segfault is coming from</div><div><br></div><div><a href="https://github.com/SchedMD/slurm/blob/slurm-17-11-12-1/src/plugins/accounting_storage/mysql/as_mysql_assoc.c#L2073" target="_blank">https://github.com/SchedMD/slurm/blob/slurm-17-11-12-1/src/plugins/accounting_storage/mysql/as_mysql_assoc.c#L2073</a></div><div><br></div><div><div>and If I connect to the mysql database directly and call that stored procedure, I get</div><div><br></div><div>mysql> call get_parent_limits('assoc_table', 'root', 'slurm_cluster', 0);<br>+---------------------+-----------------+-------------------------+----------------------+---------------------------+-------------+-----------------------------------------------------------------+-------------------------------------------------------------------------------------+-------------------------------------------------------------------------------------+--------------------------------------------------------------------------------------------------+-------------------------------------------------------------------------------------------------+-----------------------------+<br>| @par_id := id_assoc | @mj := max_jobs | @msj := max_submit_jobs | @mwpj := max_wall_pj | @def_qos_id := def_qos_id | @qos := qos | @delta_qos := REPLACE(CONCAT(delta_qos, @delta_qos), ',,', ',') | @mtpj := CONCAT(@mtpj, if (@mtpj != '' && max_tres_pj != '', ',', ''), max_tres_pj) | @mtpn := CONCAT(@mtpn, if (@mtpn != '' && max_tres_pn != '', ',', ''), max_tres_pn) | @mtmpj := CONCAT(@mtmpj, if (@mtmpj != '' && max_tres_mins_pj != '', ',', ''), max_tres_mins_pj) | @mtrm := CONCAT(@mtrm, if (@mtrm != '' && max_tres_run_mins != '', ',', ''), max_tres_run_mins) | @my_acct_new := parent_acct |<br>+---------------------+-----------------+-------------------------+----------------------+---------------------------+-------------+-----------------------------------------------------------------+-------------------------------------------------------------------------------------+-------------------------------------------------------------------------------------+--------------------------------------------------------------------------------------------------+-------------------------------------------------------------------------------------------------+-----------------------------+<br>|                   1 |            NULL |                    NULL |                 NULL |                      NULL | ,1,         | NULL                                                            | NULL                                                                                | NULL                                                                                | NULL                                                                                             | NULL                                                                                            |                             |<br>+---------------------+-----------------+-------------------------+----------------------+---------------------------+-------------+-----------------------------------------------------------------+-------------------------------------------------------------------------------------+-------------------------------------------------------------------------------------+--------------------------------------------------------------------------------------------------+-------------------------------------------------------------------------------------------------+-----------------------------+</div><div><br></div><div>and if I run</div><div><br></div><div>mysql> call get_parent_limits('assoc_table', 'root', 'slurm_cluster', 0); select @par_id, @mj, @msj, @mwpj, @mtpj, @mtpn, @mtmpj, @mtrm, @def_qos_id, @qos, @delta_qos;</div><div><br></div>I get</div><div><br></div><div><span style="font-family:monospace">+---------+------+------+-------+-------+-------+--------+-------+-------------+------+------------+<br>| @par_id | @mj  | @msj | @mwpj | @mtpj | @mtpn | @mtmpj | @mtrm | @def_qos_id | @qos | @delta_qos |<br>+---------+------+------+-------+-------+-------+--------+-------+-------------+------+------------+<br>|       1 | NULL | NULL |  NULL | NULL  | NULL  | NULL   | NULL  |        NULL | ,1,  | NULL       |<br>+---------+------+------+-------+-------+-------+--------+-------+-------------+------+------------+</span></div><div><br></div><div>but I don't know what to do about this.</div><div><br></div><div>We use another product ("Bright Cluster Manager") to manage some aspects of the cluster and Slurm installation, so we are hesitant to just upgrade Slurm.</div><div><br></div><div>I would appreciate any tips.</div><div><br></div><div>Thanks,</div><div>--dustin</div><div><br></div><div><br></div></div>
</blockquote></div>