<div style="font-family: arial; font-size: 14px;">Hello,</div><div style="font-family: arial; font-size: 14px;"><br></div><div style="font-family: arial; font-size: 14px;">I have recently started to have problems where jobs sit in the queue waiting for resources to become available, even when the resources are available. If I stop and restart slurmctld, the pending jobs start running.</div><div style="font-family: arial; font-size: 14px;"><br></div><div style="font-family: arial; font-size: 14px;">This seems to be related to GRES jobs.  I have seven nodes with</div><div style="font-family: arial; font-size: 14px;"><br></div><div style="font-family: arial; font-size: 14px;"><span style="font-family: menlo, consolas, "courier new", monospace;">Gres=bandwidth:ib:no_consume:1G</span><br></div><div style="font-family: arial; font-size: 14px;"><span><br></span></div><div style="font-family: arial; font-size: 14px;"><span>four nodes with</span></div><div style="font-family: arial; font-size: 14px;"><span><br></span></div><div style="font-family: arial; font-size: 14px;"><span><span style="font-family: menlo, consolas, "courier new", monospace;">Gres=gpu:gtx_titan_x:4,bandwidth:ethernet:no_consume:1G</span><br></span></div><div style="font-family: arial; font-size: 14px;"><br></div><div style="font-family: arial; font-size: 14px;">and one node with.</div><div style="font-family: arial; font-size: 14px;"><br></div><div style="font-family: arial; font-size: 14px;"><span style="font-family: menlo, consolas, "courier new", monospace;">Gres=gpu:rtx_2080_ti:4,bandwidth:ethernet:no_consume:1G</span><br></div><div style="font-family: arial; font-size: 14px;"><br></div><div style="font-family: arial; font-size: 14px;">Jobs only sit in the queue with RESOURCES as the REASON when we include the flag <span style="font-family: menlo, consolas, "courier new", monospace;">--gres=bandwidth:ib</span><span>.  If we remove the flag, the jobs run fine.  But we need the flag to ensure that we don't get a mix of IB and ethernet nodes because they fail in this case.</span></div><div style="font-family: arial; font-size: 14px;"><br></div><div style="font-family: arial; font-size: 14px;">It seems that once a node completes a job with <span style="caret-color:rgb(0, 0, 0);font-family:menlo, consolas, "courier new", monospace;background-color:rgb(255, 255, 255);display:inline !important">--gres=bandwidth:ib</span> it won't run another job with this setting until I restart slurmctld.</div><div style="font-family: arial; font-size: 14px;"><br></div><div style="font-family: arial; font-size: 14px;">The only error I can find is in <span style="font-family: menlo, consolas, "courier new", monospace;">/var/log/slurm/slurmctld.log</span></div><div style="font-family: arial; font-size: 14px;"><br></div><div style="font-family: arial; font-size: 14px;"><span style="font-family: menlo, consolas, "courier new", monospace;">[2022-05-31T03:27:49.144] error: gres/bandwidth: _step_dealloc StepId=140569.0 dealloc, node_in_use is NULL</span></div><div style="font-family: arial; font-size: 14px;"><br></div><div style="font-family: arial; font-size: 14px;">These jobs were running consistently but then started giving us trouble about a month ago. I have tried restarting slurmd on all nodes and slurmctld.  Restarting slurmctld does provide a temporary fix.</div><div style="font-family: arial; font-size: 14px;"><br></div><div style="font-family: arial; font-size: 14px;">I'm using Slurm <span>21.08.3 and <span>Rocky Linux release 8.5.</span></span></div><div style="font-family: arial; font-size: 14px;"><br></div><div style="font-family: arial; font-size: 14px;">Do you have any suggestions as to what is wrong or how to fix it?</div><div style="font-family: arial; font-size: 14px;"><br></div><div style="font-family: arial; font-size: 14px;">Thank you,</div><div style="font-family: arial; font-size: 14px;"><br></div><div style="font-family: arial; font-size: 14px;">Tyler</div><div style="font-family: arial; font-size: 14px;"><br></div>
<div style="font-family: arial; font-size: 14px;" class="protonmail_signature_block">
    <div class="protonmail_signature_block-user protonmail_signature_block-empty">

            </div>

            <div class="protonmail_signature_block-proton">
        Sent with <a rel="noreferrer nofollow noopener" href="https://proton.me/" target="_blank">Proton Mail</a> secure email.
    </div>
</div>