<div dir="ltr"><div dir="ltr"><br></div><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div lang="EN-US"><div class="gmail-m_-3903558819805356483WordSection1">
<p class="MsoNormal">Apr 07 16:52:33 node001 slurmd[299181]: fatal: We were configured to autodetect nvml functionality, but we weren't able to find that lib when Slurm was configured.<u></u><u></u></p>
<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal">Apparently the Slurm build you are using has not be compiled against NVML and as such it cannot use the autodetect functionality.</p></div></div></blockquote><div> </div><div>Since we're using Bright Cluster we just have to load the CUDA toolkit for NVML. I can run nvidia-sml:</div><font face="monospace">+-----------------------------------------------------------------------------+<br>| NVIDIA-SMI 440.33.01    Driver Version: 440.33.01    CUDA Version: 10.2     |<br>|-------------------------------+----------------------+----------------------+<br>| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |<br>| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |<br>|===============================+======================+======================|<br>|   0  Tesla V100-PCIE...  On   | 00000000:3B:00.0 Off |                    0 |<br>| N/A   29C    P0    37W / 250W |      0MiB / 32510MiB |      0%   E. Process |<br>+-------------------------------+----------------------+----------------------+</font><br><div> We do have GresTypes=gpu,mic,mps and Gres=gpu:v100:1 set in slurm.conf.</div><div><br></div><div>At <a href="https://slurm.schedmd.com/gres.html">https://slurm.schedmd.com/gres.html</a> I see:</div><div>"If AutoDetect=nvml is set in gres.conf, and the NVIDIA Management Library (NVML) is installed on the node and was found during Slurm configuration, configuration details will automatically be filled in for any system-detected NVIDIA GPU. This removes the need to explicitly configure GPUs in gres.conf, though the Gres= line in slurm.conf is still required in order to tell slurmctld how many GRES to expect."</div><div><br></div><div>How can I get this to work by loading the correct Bright module?</div></div></div>