<div dir="ltr"><br><br><div><div dir="ltr">On Wed, 24 Oct 2018 at 22:56, Zohar Roe MLM <<a href="mailto:RZohar8@iai.co.il">RZohar8@iai.co.il</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">





<div link="blue" vlink="purple" lang="EN-US">
<div class="m_-666817844729017723WordSection1">
<p class="MsoNormal" style="text-align:left;direction:ltr;unicode-bidi:embed">Hello,</p>
<p class="MsoNormal" style="text-align:left;direction:ltr;unicode-bidi:embed">I have a node that from some reason change state to "Down" evert few minutes.</p>
<p class="MsoNormal" style="text-align:left;direction:ltr;unicode-bidi:embed">When I change it with scontrol to "resume" its ok until Down again.</p>
<p class="MsoNormal" style="text-align:left;direction:ltr;unicode-bidi:embed">In the slurm server log I can see error:
</p>
<p class="MsoNormal" style="text-align:left;direction:ltr;unicode-bidi:embed">"agent/is_node_resp: node:myName1 RPC:REQUEST_PING : Can't find an address, check slurm.conf"</p>
<p class="MsoNormal" style="text-align:left;direction:ltr;unicode-bidi:embed"> </p>
<p class="MsoNormal" style="text-align:left;direction:ltr;unicode-bidi:embed">Now, The error message seems kind of straight forward but I can't find the problem.</p>
<p class="MsoNormal" style="text-align:left;direction:ltr;unicode-bidi:embed">* The node is up and answer to ping from the slurm server.</p>
<p class="MsoNormal" style="text-align:left;direction:ltr;unicode-bidi:embed">* The slurm deamon on the node is up and running.</p>
<p class="MsoNormal" style="text-align:left;direction:ltr;unicode-bidi:embed">* There isn't any error on the node itself.</p>
<p class="MsoNormal" style="text-align:left;direction:ltr;unicode-bidi:embed">* There are more node, configure the same (except from the ip address) that are Ok.</p>
<p class="MsoNormal" style="text-align:left;direction:ltr;unicode-bidi:embed">* running "scontrol update state=eesume nodename"myNode" fix the problem for a short time</p>
<p class="MsoNormal" style="text-align:left;direction:ltr;unicode-bidi:embed">* restarting slurm deamon on node also fix this for a short time</p>
<p class="MsoNormal" style="text-align:left;direction:ltr;unicode-bidi:embed"> </p>
<p class="MsoNormal" style="text-align:left;direction:ltr;unicode-bidi:embed">Any idea what more I can check to resolve this?</p>
</div></div></blockquote><div><br></div><div>Here's a quick top of my head checklist:<br></div><div><br></div><div>Check that it's in /etc/hosts</div><div>Check the slurmd logs</div><div>Make sure there is enough disk space</div><div>Make sure that it's datetime is synchronized with the others</div><div><br></div><div>cheers</div><div>L.<br></div><div><br></div>------<br></div><div dir="ltr" class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div>'...postwork futures are dismissed with the claim that "it is not in our nature to be idle", thereby demonstrating at once an essentialist view of labor and an impoverished imagination of the possibilities of nonwork.'</div><div><br></div><div>Kathi Weeks, <a href="https://www.dukeupress.edu/The-Problem-with-Work/" target="_blank"><i>The Problem with Work: Feminism, Marxism, Antiwork Politics and Postwork Imaginaries</i></a><br></div></div></div></div></div></div></div></div></div></div></div></div></div></div>