<div dir="ltr">Hello Brian,<div><br></div><div>I apologize if this was more a general Linux question. But your recommendations on managing login nodes were useful.</div><div><br></div><div>Thanks,</div><div>Durai</div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Mon, Jul 19, 2021 at 7:27 PM Brian Andrus <<a href="mailto:toomuchit@gmail.com">toomuchit@gmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Not really a slurm question, but here's my 2 cents:<br>
<br>
FWIW, if they are true zombies (PPID 1 and kill -9 will not work) you <br>
can only get rid of them with a reboot.<br>
<br>
If they aren't eating much in the line of resources, you will want to <br>
just ignore them until your next maintenance and then reboot.<br>
<br>
This is one of the reasons I do not architect login nodes to allow <br>
access to applications or much of anything. Minimal everything.<br>
<br>
If your login node gets quite a bit of traffic, you should look at <br>
setting up a load-balanced HA configuration for them. Users should not <br>
have much of anything going on with a login node. Just submit your job <br>
and do your work on the node. Even if it is an interactive job. Keeps <br>
your dev/test environment the same as the runtime environment.<br>
<br>
Brian Andrus<br>
<br>
On 7/19/2021 7:09 AM, Durai Arasan wrote:<br>
> Hello,<br>
><br>
> One of our slurm user's account is hung with uninterruptible <br>
> processes. These processes cannot be killed. Hence a restart is <br>
> required. Is it possible to restart the user's login environment <br>
> alone? I would like to not restart the entire login node.<br>
><br>
> Thanks!<br>
> Durai<br>
> Max Planck Institute Tübingen<br>
<br>
</blockquote></div>