<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<meta name="Generator" content="Microsoft Word 15 (filtered medium)">
<!--[if !mso]><style>v\:* {behavior:url(#default#VML);}
o\:* {behavior:url(#default#VML);}
w\:* {behavior:url(#default#VML);}
.shape {behavior:url(#default#VML);}
</style><![endif]--><style><!--
/* Font Definitions */
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        margin-bottom:.0001pt;
        font-size:12.0pt;
        font-family:"Times New Roman",serif;}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:purple;
        text-decoration:underline;}
span.EmailStyle17
        {mso-style-type:personal-reply;
        font-family:"Calibri",sans-serif;
        color:#1F497D;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-size:10.0pt;}
@page WordSection1
        {size:8.5in 11.0in;
        margin:1.0in 1.0in 1.0in 1.0in;}
div.WordSection1
        {page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]-->
</head>
<body lang="EN-GB" link="blue" vlink="purple">
<div class="WordSection1">
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri",sans-serif;color:#1F497D;mso-fareast-language:EN-US">This proved to be a scaling problem in PMIX; thanks to Artem Polyakov for tracking this down (and
<a href="https://bugs.schedmd.com/show_bug.cgi?id=6932">submitting a fix</a>).<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri",sans-serif;color:#1F497D;mso-fareast-language:EN-US"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri",sans-serif;color:#1F497D;mso-fareast-language:EN-US">Thanks for all the suggestions folks!<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri",sans-serif;color:#1F497D;mso-fareast-language:EN-US"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri",sans-serif;color:#1F497D;mso-fareast-language:EN-US">Andy<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri",sans-serif;color:#1F497D;mso-fareast-language:EN-US"><o:p> </o:p></span></p>
<div>
<div style="border:none;border-top:solid #E1E1E1 1.0pt;padding:3.0pt 0in 0in 0in">
<p class="MsoNormal"><b><span lang="EN-US" style="font-size:11.0pt;font-family:"Calibri",sans-serif">From:</span></b><span lang="EN-US" style="font-size:11.0pt;font-family:"Calibri",sans-serif"> Riebs, Andy
<br>
<b>Sent:</b> Friday, April 26, 2019 11:24 AM<br>
<b>To:</b> slurm-users@lists.schedmd.com<br>
<b>Subject:</b> Re: [slurm-users] job startup timeouts?<o:p></o:p></span></p>
</div>
</div>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal">Hi John,<br>
<br>
> It's a DNS problem, isn't it?   Seriously though - how long does srun hostname take for a single system?<br>
<br>
We're running nscd on all nodes, with an extremely stable list of users/accounts, so I think we should be good here.<br>
<br>
"time srun hostname" reports on the order of 0.2 seconds, so at least single node requests are handled expediently!<br>
<br>
Andy<o:p></o:p></p>
<div id="smartTemplate4-quoteHeader">
<div class="MsoNormal" align="center" style="text-align:center">
<hr size="2" width="100%" align="center">
</div>
<p class="MsoNormal"><b>From:</b> John Hearns <a href="mailto:hearnsj@googlemail.com">
<hearnsj@googlemail.com></a> <br>
<b>Sent:</b> Friday, April 26, 2019 10:56AM <br>
<b>To:</b> Slurm User Community List <a href="mailto:slurm-users@lists.schedmd.com">
<slurm-users@lists.schedmd.com></a><br>
<b>Cc:</b> <br>
<b>Subject:</b> Re: [slurm-users] job startup timeouts? <o:p></o:p></p>
</div>
<div>
<div>
<div>
<p class="MsoNormal">It's a DNS problem, isn't it?   Seriously though - how long does srun hostname take for a single system?<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal"><o:p> </o:p></p>
</div>
</div>
<p class="MsoNormal"><o:p> </o:p></p>
<div>
<div>
<p class="MsoNormal">On Fri, 26 Apr 2019 at 15:49, Douglas Jacobsen <<a href="mailto:dmjacobsen@lbl.gov">dmjacobsen@lbl.gov</a>> wrote:<o:p></o:p></p>
</div>
<blockquote style="border:none;border-left:solid #CCCCCC 1.0pt;padding:0in 0in 0in 6.0pt;margin-left:4.8pt;margin-right:0in">
<p class="MsoNormal" style="margin-bottom:12.0pt">We have 12,000 nodes in our system, 9,600 of which are KNL.  We can<br>
start a parallel application within a few seconds in most cases (when<br>
the machine is dedicated to this task), even at full scale.  So I<br>
don't think there is anything intrinsic to Slurm that would<br>
necessarily be limiting you, though we have seen cases in the past<br>
where arbitrary task distribution has caused contoller slow-down<br>
issues as the detailed scheme was parsed.<br>
<br>
Do you know if all the slurmstepd's are starting quickly on the<br>
compute nodes?  How is the OS/Slurm/executable delivered to the node?<br>
----<br>
Doug Jacobsen, Ph.D.<br>
NERSC Computer Systems Engineer<br>
Acting Group Lead, Computational Systems Group<br>
National Energy Research Scientific Computing Center<br>
<a href="mailto:dmjacobsen@lbl.gov" target="_blank">dmjacobsen@lbl.gov</a><br>
<br>
------------- __o<br>
---------- _ '\<,_<br>
----------(_)/  (_)__________________________<br>
<br>
<br>
On Fri, Apr 26, 2019 at 7:40 AM Riebs, Andy <<a href="mailto:andy.riebs@hpe.com" target="_blank">andy.riebs@hpe.com</a>> wrote:<br>
><br>
> Thanks for the quick response Doug!<br>
><br>
> Unfortunately, I can't be specific about the cluster size, other than to say it's got more than a thousand nodes.<br>
><br>
> In a separate test that I had missed, even "srun hostname" took 5 minutes to run. So there was no remote file system or MPI involvement.<br>
><br>
> Andy<br>
><br>
> -----Original Message-----<br>
> From: slurm-users [mailto:<a href="mailto:slurm-users-bounces@lists.schedmd.com" target="_blank">slurm-users-bounces@lists.schedmd.com</a>] On Behalf Of Douglas Jacobsen<br>
> Sent: Friday, April 26, 2019 9:24 AM<br>
> To: Slurm User Community List <<a href="mailto:slurm-users@lists.schedmd.com" target="_blank">slurm-users@lists.schedmd.com</a>><br>
> Subject: Re: [slurm-users] job startup timeouts?<br>
><br>
> How large is very large?  Where is the executable being started?  In<br>
> the parallel filesystem/NFS?  If that is the case you may be able to<br>
> trim start times by using sbcast to transfer the executable (and its<br>
> dependencies if dynamically linked) into a node-local resource, such<br>
> as /tmp or /dev/shm depending on your local configuration.<br>
> ----<br>
> Doug Jacobsen, Ph.D.<br>
> NERSC Computer Systems Engineer<br>
> Acting Group Lead, Computational Systems Group<br>
> National Energy Research Scientific Computing Center<br>
> <a href="mailto:dmjacobsen@lbl.gov" target="_blank">dmjacobsen@lbl.gov</a><br>
><br>
> ------------- __o<br>
> ---------- _ '\<,_<br>
> ----------(_)/  (_)__________________________<br>
><br>
><br>
> On Fri, Apr 26, 2019 at 5:34 AM Andy Riebs <<a href="mailto:andy.riebs@hpe.com" target="_blank">andy.riebs@hpe.com</a>> wrote:<br>
> ><br>
> > Hi All,<br>
> ><br>
> > We've got a very large x86_64 cluster with lots of cores on each node, and hyper-threading enabled. We're running Slurm 18.08.7 with Open MPI 4.x on CentOS 7.6.<br>
> ><br>
> > We have a job that reports<br>
> ><br>
> > srun: error: timeout waiting for task launch, started 0 of xxxxxx tasks<br>
> > srun: Job step 291963.0 aborted before step completely launched.<br>
> ><br>
> > when we try to run it at large scale. We anticipate that it could take as long as 15 minutes for the job to launch, based on our experience with smaller numbers of nodes.<br>
> ><br>
> > Is there a timeout setting that we're missing that can be changed to accommodate a lengthy startup time like this?<br>
> ><br>
> > Andy<br>
> ><br>
> > --<br>
> ><br>
> > Andy Riebs<br>
> > <a href="mailto:andy.riebs@hpe.com" target="_blank">andy.riebs@hpe.com</a><br>
> > Hewlett-Packard Enterprise<br>
> > High Performance Computing Software Engineering<br>
> > +1 404 648 9024<br>
> > My opinions are not necessarily those of HPE<br>
> >     May the source be with you!<br>
><o:p></o:p></p>
</blockquote>
</div>
</div>
<p class="MsoNormal"><o:p> </o:p></p>
</div>
</body>
</html>