<div dir="ltr"><div dir="ltr"><br></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Tue, 7 Nov 2023 at 11:34, Diego Zuccato <<a href="mailto:diego.zuccato@unibo.it">diego.zuccato@unibo.it</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Il 07/11/2023 11:15, JP Ebejer ha scritto:<br>
> but on running sinfo <br>
> right after, the node is still "drained".<br>
<br>
That's not normal :(<br>
Look at the slurmd log on the node for a reason. Probably the node <br>
detects an error and sets itself to drained. Another possibility is that <br>
slurmctld detects a mismatch between the node and its config: in this <br>
case you'll find the reason in slurmctld.log .<br></blockquote><div><br></div><div>Ok great. So I clear the slurmd.log on the compute-0 node. I restart the service (after changing the logging from debug3 to verbose).</div><div><br></div><div><span style="font-family:monospace">[2023-11-07T16:34:17.575] topology/none: init: topology NONE plugin loaded<br>[2023-11-07T16:34:17.575] route/default: init: route default plugin loaded<br>[2023-11-07T16:34:17.577] task/affinity: init: task affinity plugin loaded with CPU mask 0xffffffff<br>[2023-11-07T16:34:17.578] cred/munge: init: Munge credential signature plugin loaded<br>[2023-11-07T16:34:17.578] slurmd version 22.05.8 started<span style="color:rgb(255,0,0)"><br>[2023-11-07T16:34:17.579] error:  mpi/pmix_v4: init: (null) [0]: mpi_pmix.c:195: pmi/pmix: can not load PMIx library<br>[2023-11-07T16:34:17.579] error: Couldn't load specified plugin name for mpi/pmix: Plugin init() callback failed<br>[2023-11-07T16:34:17.579] error: MPI: Cannot create context for mpi/pmix<br>[2023-11-07T16:34:17.580] error:  mpi/pmix_v4: init: (null) [0]: mpi_pmix.c:195: pmi/pmix: can not load PMIx library<br>[2023-11-07T16:34:17.580] error: Couldn't load specified plugin name for mpi/pmix_v4: Plugin init() callback failed<br>[2023-11-07T16:34:17.580] error: MPI: Cannot create context for mpi/pmix_v4</span><br>[2023-11-07T16:34:17.580] slurmd started on Tue, 07 Nov 2023 16:34:17 +0000<br>[2023-11-07T16:34:17.580] CPUs=32 Boards=1 Sockets=2 Cores=8 Threads=2 Memory=64171 TmpDisk=1031475 Uptime=87818 CPUSpecList=(null) FeaturesAvail=(null) FeaturesActive=(null)</span></div><div><span style="font-family:monospace"><br></span></div><div><span style="font-family:arial,sans-serif">I am not sure I understand this, and my MPI setting is none (so </span>MpiDefault=none<span style="font-family:arial,sans-serif">).  The jobs I intend to run do not use MPI.<br></span></div><div><span style="font-family:arial,sans-serif"><br></span></div><div><span style="font-family:arial,sans-serif">Could this be the cause, and how do I fix this (on Debian 12)?<br></span></div><div><span style="font-family:arial,sans-serif"><br></span></div><div><span style="font-family:arial,sans-serif">Also if I stop, truncate the log file, and start the slurmctld service I see similar errors.  Below:<br></span></div><div><span style="font-family:arial,sans-serif"><br></span></div><div><span style="font-family:monospace"><span style="color:rgb(255,0,0)">[2023-11-07T16:40:22.888] error: Configured MailProg is invalid</span><br>[2023-11-07T16:40:22.889] slurmctld version 22.05.8 started on cluster mycluster<br>[2023-11-07T16:40:22.890] cred/munge: init: Munge credential signature plugin loaded<br>[2023-11-07T16:40:22.892] select/cons_res: common_init: select/cons_res loaded<br>[2023-11-07T16:40:22.892] select/cons_tres: common_init: select/cons_tres loaded<br>[2023-11-07T16:40:22.892] select/cray_aries: init: Cray/Aries node selection plugin loaded<br>[2023-11-07T16:40:22.893] preempt/none: init: preempt/none loaded<br>[2023-11-07T16:40:22.894] ext_sensors/none: init: ExtSensors NONE plugin loaded<br><span style="color:rgb(255,0,0)">[2023-11-07T16:40:22.895] error:  mpi/pmix_v4: init: (null) [0]: mpi_pmix.c:195: pmi/pmix: can not load PMIx library<br>[2023-11-07T16:40:22.895] error: Couldn't load specified plugin name for mpi/pmix_v4: Plugin init() callback failed<br>[2023-11-07T16:40:22.895] error: MPI: Cannot create context for mpi/pmix_v4</span><br>[2023-11-07T16:40:22.899] accounting_storage/none: init: Accounting storage NOT INVOKED plugin loaded<br>[2023-11-07T16:40:22.901] No memory enforcing mechanism configured.<br>[2023-11-07T16:40:22.902] topology/none: init: topology NONE plugin loaded<br>[2023-11-07T16:40:22.904] sched: Backfill scheduler plugin loaded<br>[2023-11-07T16:40:22.904] route/default: init: route default plugin loaded<br>[2023-11-07T16:40:22.905] Recovered state of 1 nodes<br>[2023-11-07T16:40:22.905] Recovered JobId=8 Assoc=0<br>[2023-11-07T16:40:22.905] Recovered JobId=9 Assoc=0<br>[2023-11-07T16:40:22.905] Recovered JobId=10 Assoc=0<br>[2023-11-07T16:40:22.905] Recovered JobId=11 Assoc=0<br>[2023-11-07T16:40:22.905] Recovered information about 4 jobs<br>[2023-11-07T16:40:22.906] select/cons_tres: select_p_node_init: select/cons_tres SelectTypeParameters not specified, using default value: CR_Core_Memory<br>[2023-11-07T16:40:22.906] select/cons_tres: part_data_create_array: select/cons_tres: preparing for 1 partitions<br>[2023-11-07T16:40:22.906] Recovered state of 0 reservations<br>[2023-11-07T16:40:22.906] State of 0 triggers recovered<br>[2023-11-07T16:40:22.906] read_slurm_conf: backup_controller not specified<br>[2023-11-07T16:40:22.906] select/cons_tres: select_p_reconfigure: select/cons_tres: reconfigure<br>[2023-11-07T16:40:22.906] select/cons_tres: part_data_create_array: select/cons_tres: preparing for 1 partitions<br>[2023-11-07T16:40:22.906] Running as primary controller<br>[2023-11-07T16:40:22.907] No parameter for mcs plugin, default values set<br>[2023-11-07T16:40:22.907] mcs: MCSParameters = (null). ondemand set.</span><br><br><br></div><div>Is this a step closer to resolution?<br></div><div> <br></div></div><div dir="ltr" class="gmail_signature"><div dir="ltr"><table style="border-collapse:collapse;color:rgb(0,0,0);font-family:Arial;font-size:14px"><tbody><tr><td style="vertical-align:top;padding-right:28.625px"><br></td><td style="padding:0px"><br></td></tr></tbody></table></div></div></div>

<br>
<i>The contents of this email are subject to <b><a href="https://www.um.edu.mt/disclaimer/email/" target="_blank">these terms</a>.</b></i><br>