<div dir="ltr"><div><div><div><div><div><div><div><div><div>Mahmood,  do you haave Hyperthreading enabled?<br></div>That may be the root cause of your problem. If you have hyperhtreading, then when you start to run more than the number of PHYSICAL cores you<br></div>will get over-subscription. Now, with certain workloads that is fine - that is what hyperhtreading is all about.<br></div>However HPC workloads have traditionalyl not benifited from hyperhreading.<br><br></div>I would suggest the following:<br><br></div>a) share the result of  cat /proc/cpuinfo with is here so we can figure out f HT is enabled<br></div>b) learn how to mimic HT being switched on or off by setting every odd numbered CPU core to 'offline'<br></div>  This means you can 'play' with HT being on or off without a reboot<br></div>c) reboot one of your servers and look at the BIOS settings<br></div>    That is a good idea anyway - please tell us if HT is on or off. What is the Power Profile? Are C0 states disabled?<br><br><div><div><div><div><div><div><div><div><br><br><br><br></div></div></div></div></div></div></div></div></div><div class="gmail_extra"><br><div class="gmail_quote">On 26 April 2018 at 10:08, Mahmood Naderan <span dir="ltr"><<a href="mailto:mahmood.nt@gmail.com" target="_blank">mahmood.nt@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">It seems that the number of threads has some effects on the<br>
performance. Maybe some configurations issue exists in openmpi. I will<br>
investigate more on that. Thanks guys for the tips.<br>
<br>
Regards,<br>
Mahmood<br>
<div class="HOEnZb"><div class="h5"><br>
<br>
<br>
<br>
On Tue, Apr 24, 2018 at 9:18 PM, Ryan Novosielski <<a href="mailto:novosirj@rutgers.edu">novosirj@rutgers.edu</a>> wrote:<br>
> I would likely crank up the debugging on the slurmd process and look at the log files to see what’s going on in that time. You could also watch the job via top or other means (on Linux, you can press “1” to see line-by-line for each CPU core), or use strace on the process itself. Presumably something is happening that’s either eating up 4 minutes, or the job is running 4 minutes more slowly and you’ll need to figure out why. I know that our jobs run via the scheduler perform about on par for the hardware, and that jobs start fairly immediately.<br>
<br>
</div></div></blockquote></div><br></div>