<div dir="ltr">👍<div><br clear="all"><div><div dir="ltr" class="gmail_signature" data-smartmail="gmail_signature">Best,<br><br>Feng</div></div><br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Wed, Sep 20, 2023 at 7:29 AM Wagner, Marcus <<a href="mailto:wagner@itc.rwth-aachen.de">wagner@itc.rwth-aachen.de</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-style:solid;border-left-color:rgb(204,204,204);padding-left:1ex">Even after rebooting, sometimes nodes are stuck because of "completing <br>
jobs".<br>
<br>
What helps then is to set the node down and resume it afterwards:<br>
<br>
scontrol update nodename=<nodename> state=drain reason=stuck; scontrol <br>
update nodename=<nodename> state=resume<br>
<br>
<br>
Best<br>
Marcus<br>
<br>
Am 20.09.2023 um 09:11 schrieb Ole Holm Nielsen:<br>
> On 9/20/23 01:39, Feng Zhang wrote:<br>
>> Restarting the slurmd dameon of the compute node should work, if the<br>
>> node is still online and normal.<br>
><br>
> Probably not.  If the filesystem used by the job is hung, the node <br>
> must probably be rebooted, and the filesystem must be checked.<br>
><br>
> /Ole<br>
><br>
>> On Tue, Sep 19, 2023 at 8:03 AM Felix <<a href="mailto:felix@itim-cj.ro" target="_blank">felix@itim-cj.ro</a>> wrote:<br>
>>><br>
>>> Hello<br>
>>><br>
>>> I have a job on my system which is running more than its time, more <br>
>>> than<br>
>>> 4 days.<br>
>>><br>
>>> 1808851     debug  gridjob  atlas01 CG 4-00:00:19      1 awn-047<br>
>>><br>
>>> I'm trying to cancel it<br>
>>><br>
>>> [@arc7-node ~]# scancel 1808851<br>
>>><br>
>>> I get no message as if the job was canceled but when getting <br>
>>> information<br>
>>> about the job, the job is still there<br>
>>><br>
>>> [@arc7-node ~]# squeue | grep awn-047<br>
>>>              1808851     debug  gridjob  atlas01 CG 4-00:00:19 1 <br>
>>> awn-047<br>
>>><br>
>>> Can I do any other thinks to kill end the job?<br>
><br>
</blockquote></div>