<div dir="ltr"><div><br></div><div>I've checked it now, it isn't listed as a runaway job.<br></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Tue, Mar 31, 2020 at 5:24 PM David Rhey <<a href="mailto:drhey@umich.edu">drhey@umich.edu</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div>Hi, Yair,</div><div><br></div><div>Out of curiosity have you checked to see if this is a runaway job?</div><div><br></div><div>David<br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Tue, Mar 31, 2020 at 7:49 AM Yair Yarom <<a href="mailto:irush@cs.huji.ac.il" target="_blank">irush@cs.huji.ac.il</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div>Hi,</div><div><br></div><div>We have an issue where running srun (with --pty zsh), and rebooting the node (from a different shell), the srun reports:</div><div></div><div>srun: error: eio_message_socket_accept: slurm_receive_msg[an.ip.addr.ess]: Zero Bytes were transmitted or received</div><div>and hangs.</div><div><br></div><div>After the node boots, the slurm claims that job is still RUNNING, and srun is still alive (but not responsive).</div><div><br></div><div>I've tried it with various configurations (select/linear, select/cons_tres, jobacct_gather/linux, jobacct_gather/cgroup, task/none, task/cgroup), with the same results. We're using 19.05.1.<br></div><div></div><div>Running with sbatch causes the job to be in the more appropriate NODE_FAIL state instead.</div><div><br></div><div>Anyone else encountered this? or know how to make the job state not RUNNING after it's clearly not running?<br></div><div><br></div><div>Thanks in advance,</div><div>    Yair.</div><div><br></div></div>
</blockquote></div><br clear="all"><br>-- <br><div dir="ltr"><div dir="ltr"><div><div dir="ltr"><div dir="ltr">David Rhey<br>---------------</div><div dir="ltr"><span style="font-size:12.8px">Advanced Research Computing - Technology Services</span></div><div dir="ltr"><span style="font-size:12.8px">University of Michigan</span></div></div></div></div></div>
</blockquote></div><br></div>