<div dir="ltr">Hi,<div><br></div><div>For an update we tried one case please find it below:</div><div><br></div><div>We tried by adding below script to kill the namd3 process in our epilog script.</div><div><span class="gmail-ui-provider gmail-ccc gmail-ccd gmail-c gmail-d gmail-e gmail-f gmail-g gmail-h gmail-i gmail-j gmail-k gmail-l gmail-m gmail-n gmail-o gmail-p gmail-q gmail-r gmail-s gmail-t gmail-cce gmail-ccf gmail-w gmail-x gmail-y gmail-z gmail-ab gmail-ac gmail-ae gmail-af gmail-ag gmail-ah gmail-ai gmail-aj gmail-ak" dir="ltr"><br></span></div><div><span class="gmail-ui-provider gmail-ccc gmail-ccd gmail-c gmail-d gmail-e gmail-f gmail-g gmail-h gmail-i gmail-j gmail-k gmail-l gmail-m gmail-n gmail-o gmail-p gmail-q gmail-r gmail-s gmail-t gmail-cce gmail-ccf gmail-w gmail-x gmail-y gmail-z gmail-ab gmail-ac gmail-ae gmail-af gmail-ag gmail-ah gmail-ai gmail-aj gmail-ak" dir="ltr"># To kill remaining processes of job.<br>
#<br>
if [ $SLURM_UID = 1234 ] ; then<br>
        STUCK_PID=`${SLURM_BIN}scontrol listpids $SLURM_JOB_ID | awk '{print $1}' | grep -v PID`<br>
        for kpid in $STUCK_PID<br>
        do<br>
                kill -9 $kpid<br>
        done<br>
fi</span><br></div><div><span class="gmail-ui-provider gmail-ccc gmail-ccd gmail-c gmail-d gmail-e gmail-f gmail-g gmail-h gmail-i gmail-j gmail-k gmail-l gmail-m gmail-n gmail-o gmail-p gmail-q gmail-r gmail-s gmail-t gmail-cce gmail-ccf gmail-w gmail-x gmail-y gmail-z gmail-ab gmail-ac gmail-ae gmail-af gmail-ag gmail-ah gmail-ai gmail-aj gmail-ak" dir="ltr"><br></span></div><div><span class="gmail-ui-provider gmail-ccc gmail-ccd gmail-c gmail-d gmail-e gmail-f gmail-g gmail-h gmail-i gmail-j gmail-k gmail-l gmail-m gmail-n gmail-o gmail-p gmail-q gmail-r gmail-s gmail-t gmail-cce gmail-ccf gmail-w gmail-x gmail-y gmail-z gmail-ab gmail-ac gmail-ae gmail-af gmail-ag gmail-ah gmail-ai gmail-aj gmail-ak" dir="ltr">but it didn't worked out as it is unable to fetch the required pid with "scontrol listpid" command</span></div><div><span class="gmail-ui-provider gmail-ccc gmail-ccd gmail-c gmail-d gmail-e gmail-f gmail-g gmail-h gmail-i gmail-j gmail-k gmail-l gmail-m gmail-n gmail-o gmail-p gmail-q gmail-r gmail-s gmail-t gmail-cce gmail-ccf gmail-w gmail-x gmail-y gmail-z gmail-ab gmail-ac gmail-ae gmail-af gmail-ag gmail-ah gmail-ai gmail-aj gmail-ak" dir="ltr"><br></span></div><div><span class="gmail-ui-provider gmail-ccc gmail-ccd gmail-c gmail-d gmail-e gmail-f gmail-g gmail-h gmail-i gmail-j gmail-k gmail-l gmail-m gmail-n gmail-o gmail-p gmail-q gmail-r gmail-s gmail-t gmail-cce gmail-ccf gmail-w gmail-x gmail-y gmail-z gmail-ab gmail-ac gmail-ae gmail-af gmail-ag gmail-ah gmail-ai gmail-aj gmail-ak" dir="ltr"><span class="gmail-ui-provider gmail-ccc gmail-ccd gmail-c gmail-d gmail-e gmail-f gmail-g gmail-h gmail-i gmail-j gmail-k gmail-l gmail-m gmail-n gmail-o gmail-p gmail-q gmail-r gmail-s gmail-t gmail-cce gmail-ccf gmail-w gmail-x gmail-y gmail-z gmail-ab gmail-ac gmail-ae gmail-af gmail-ag gmail-ah gmail-ai gmail-aj gmail-ak" dir="ltr">It looks like the slurmd had a problem with a job step that didn't end correctly, and the slurmd wasn't able to kill it after the timeout was reached.</span></span></div><div><br></div><div>Any help would be much appreciated.</div><div><br></div><div>Thanks,</div><div>Shaghuf Rahman</div><div><br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Tue, Apr 25, 2023 at 8:32 PM Shaghuf Rahman <<a href="mailto:shaghuf@gmail.com">shaghuf@gmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="auto">Hi,</div><div dir="auto"><br></div><div dir="auto">Also forgot to mention the process is still running when user do scancel and epilog does not clean if one job finished when doing multiple job submission.</div><div dir="auto">We tried to use unkillable option but did not work. The process still remains the same until killing it manually.</div><div dir="auto"><br></div><div dir="auto"><br></div><div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Tue, 25 Apr 2023 at 19:57, Shaghuf Rahman <<a href="mailto:shaghuf@gmail.com" target="_blank">shaghuf@gmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr">Hi,<div><br></div><div>We are facing one issue in my environment and the behaviour looks strange to me. It is specifically associated with the namd3 application.</div><div>The issue is narrated below and I have made some of the cases.</div><div><br></div><div>I am trying to understand the way to kill the processes of the namd3 application submitted through sbatch without making the node in drain.</div><div><br></div><div>What I observed is when a user submits a single job on a node and then when he do scancel of namd3 job it kills the job and the node gets to idle state and everything looks as expected.</div><div>But when the user submit multiple jobs on a single node and do scancel 1 of his job, it puts the node in drain state. However the other jobs are running fine without an issue.</div><div><br></div><div>Due to this issue multiple nodes getting to drain state when a user do scancel of the namd3 job.</div><div><br></div><div>Note: When the user is not performing scancel, all job run successfully and the node states are also fine.</div><div><br></div><div>It is not creating issues with any of the applications. So we are suspecting the issue could be with the namd3 application</div><div>Kindly suggest some solution or any ideas on how to fix this issue.</div><div><br></div><div>Thanks in advance,</div><div>Shaghuf Rahman<br><br></div></div>
</blockquote></div></div>
</blockquote></div>