<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<style type="text/css" style="display:none;"><!-- P {margin-top:0;margin-bottom:0;} --></style>
</head>
<body dir="ltr">
<div id="divtagdefaultwrapper" style="font-size:12pt;color:#000000;font-family:Calibri,Helvetica,sans-serif;" dir="ltr">
<div style="color: rgb(0, 0, 0);"><br>
<div dir="ltr">
<div id="x_divtagdefaultwrapper" dir="ltr" style="font-size:12pt; color:#000000; font-family:Calibri,Helvetica,sans-serif">
<p>Hi,</p>
<p><br>
</p>
<p>I am new to slurm and I'm having some issues scheduling correctly <br>
</p>
<p>my tasks. <br>
</p>
<p>I have a very small cluster(if it even could be called a cluster) with only <br>
</p>
<p>one node for the moment; the node is a dual Xeon with 14 cores/socket, <br>
</p>
<p>hyper-threaded and 256GB of memory, running CentOS 7.3.</p>
<p><br>
</p>
<p>I have a single threaded process which I would like to run <br>
</p>
<p>over a series of input files(around 370). I have found that the packed <br>
</p>
<p>jobs scenario fits with what I'm trying to achieve. So I would like to <br>
</p>
<p>run 50 instances of my process at the same time over different input files.</p>
<p><br>
</p>
<p>The moment I schedule my script I can see that there are 50 instances of <br>
</p>
<p>my process started and running but just a bit afterwards only 5 or so of them <br>
</p>
<p>I can see running - so I only get full load for the first 50 instances and not
<br>
</p>
<p>afterwards.<br>
</p>
<p><br>
</p>
<p>In the slurmctld.log I can see this type of messages:</p>
<p>"<span>[2017-11-06T11:56:39.228] job_step_signal step 1489.107 not found</span>"</p>
<p>and in my script output file I can see:</p>
<p>"<span>srun: Job step creation temporarily disabled, retrying</span>"</p>
<p><br>
</p>
<p>At this point I'm sifting through documentation and online info trying to figure
<br>
</p>
<p>out what is going on. I have attached my slurmctld log file, slurm config file, script and</p>
<p>the output I get from sinfo, stat and the likes.</p>
<p><br>
</p>
<p>Any pointers on how to attack this problem would be much appreciated.</p>
<p><br>
</p>
<p>Thank you<br>
</p>
<p><br>
</p>
<p><br>
</p>
<div id="x_Signature">
<div id="x_divtagdefaultwrapper" style="font-size:12pt; color:rgb(0,0,0); background-color:rgb(255,255,255); font-family:Calibri,Arial,Helvetica,sans-serif,"EmojiFont","Apple Color Emoji","Segoe UI Emoji",NotoColorEmoji,"Segoe UI Symbol","Android Emoji",EmojiSymbols">
<p></p>
<div><pre><span style="font-family:Consolas,monospace"></span></div>
<div>--</div>
<div><br>
</div>
<div>Marius Cetateanu | Senior Software Engineer</div>
<div>T +32 2 888 42 60</div>
<div>F +32 2 647 48 55</div>
<div>E mce@softkinetic.com</div>
<div>YT www.youtube.com/softkinetic<br>
</div>
<div>Boulevard de la Plaine 11, 1050, Brussels, Belgium</div>
<div>Registration No: RPM/RPR Brussels 0811 784 189</div>
<div><br>
</div>
<div>Our e-mail communication disclaimers & liability are available</div>
<div>at: www.softkinetic.com/disclaimer.aspx</div>
<div></pre></div>
<br>
<p></p>
</div>
</div>
</div>
</div>
</div>
</div>
</body>
</html>