<div dir="ltr"><div>So we figured out the problem with "slurmd -C": we had run rpmbuild on the POWER9 node, but did not have the hwloc-package installed. The build process looks for this, and if not found, will apparently note use hwloc/lstopo even if installed post-build.</div><div><br></div><div>Now Slurm reports the expected topology for SMT4:</div><div><br></div><div>NodeName=enki13 CPUs=160 Boards=1
<b>SocketsPerBoard=2</b> <b>CoresPerSocket=20</b> <b>ThreadsPerCore=4</b> RealMemory=583992</div><div><br></div><div>Best,</div><div>  Keith<br> </div><div><br></div><div>> > 1.) Slurm seems to be incapable of recognizing sockets/cores/threads on</div>
> > these systems.<br>
> [...]<br>
> > Anyone know if there is a way to get Slurm to recognize the true<br>
topology<br>
> > for POWER nodes?<br>
><br>
> IIIRC Slurm uses hwloc for discovering topology, so "lstopo-no-graphics"<br>
might<br>
> give you some insights into whether it's showing you the right config.<br>
><br>
> I'd be curious to see what "lscpu" and "slurmd -C" say as well.<br>
<br>
The biggest problem as I see it, is that if I have 2 20-core sockets, if I<br>
have SMT2 set this looks like 80 single-core, single-thread sockets to<br>
Slurm (see slurmd -C output below). If I have SMT4 set, it thinks there are<br>
160 sockets.<br>
<br>
NodeName=enki13 CPUs=80 Boards=1 SocketsPerBoard=80 CoresPerSocket=1<br>
ThreadsPerCore=1 RealMemory=583992 UpTime=0-23:20:16</div>