<div dir="ltr"><div>Hi all,</div><div><br></div><div>Apologies for writing something misleading in the last mail. I missed your error message.</div><div><br></div><div>Rob was correct - your slurmd appears not to have the NVML flag on compile time.</div><div>You need to set up the NVML and turn the --with-nvml flag on when configuring slurm to fix the issue if you are compiling one, or find a binary package that complied with such flag on.</div><div><br></div><div>Credit to Rob - WE ARE<br></div><div>S. Zhang<br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">2023年11月30日(木) 23:30 Groner, Rob <<a href="mailto:rug262@psu.edu">rug262@psu.edu</a>>:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div class="msg-8534567855657135554">




<div dir="ltr">
<div style="font-family:Aptos,Aptos_EmbeddedFont,Aptos_MSFontService,Calibri,Helvetica,sans-serif;font-size:12pt;color:rgb(0,0,0)">
Did you have --with-nvml as part of your configuration?  Go back to your config.log and verify that it ever said it found nvml.h.</div>
<div style="font-family:Aptos,Aptos_EmbeddedFont,Aptos_MSFontService,Calibri,Helvetica,sans-serif;font-size:12pt;color:rgb(0,0,0)">
<br>
</div>
<div style="font-family:Aptos,Aptos_EmbeddedFont,Aptos_MSFontService,Calibri,Helvetica,sans-serif;font-size:12pt;color:rgb(0,0,0)">
If not, then you'll need to make sure you have the right nvidia/cuda packages installed on the host you're building slurm on, and you might have to specify --with-nvml=<path to nvml install> if it's not in a standard location.</div>
<div style="font-family:Aptos,Aptos_EmbeddedFont,Aptos_MSFontService,Calibri,Helvetica,sans-serif;font-size:12pt;color:rgb(0,0,0)">
<br>
</div>
<div style="font-family:Aptos,Aptos_EmbeddedFont,Aptos_MSFontService,Calibri,Helvetica,sans-serif;font-size:12pt;color:rgb(0,0,0)">
Rob</div>
<div style="font-family:Aptos,Aptos_EmbeddedFont,Aptos_MSFontService,Calibri,Helvetica,sans-serif;font-size:12pt;color:rgb(0,0,0)">
<br>
</div>
<div id="m_-8534567855657135554appendonsend"></div>
<hr style="display:inline-block;width:98%">
<div id="m_-8534567855657135554divRplyFwdMsg" dir="ltr"><font face="Calibri, sans-serif" style="font-size:11pt" color="#000000"><b>From:</b> slurm-users <<a href="mailto:slurm-users-bounces@lists.schedmd.com" target="_blank">slurm-users-bounces@lists.schedmd.com</a>> on behalf of Ravi Konila <<a href="mailto:ravibhatk@gmail.com" target="_blank">ravibhatk@gmail.com</a>><br>
<b>Sent:</b> Thursday, November 30, 2023 9:06 AM<br>
<b>To:</b> <a href="mailto:slurm-users@lists.schedmd.com" target="_blank">slurm-users@lists.schedmd.com</a> <<a href="mailto:slurm-users@lists.schedmd.com" target="_blank">slurm-users@lists.schedmd.com</a>><br>
<b>Subject:</b> [slurm-users] Autodetect of nvml is not working in gres.conf</font>
<div> </div>
</div>
<div dir="ltr">
<table border="0" cellspacing="0" cellpadding="0" width="100%" align="left" style="border:0px;display:table;width:100%;table-layout:fixed;float:none">
<tbody style="display:block">
<tr>
<td valign="middle" width="1px" bgcolor="#A6A6A6" cellpadding="7px 2px 7px 2px" style="padding:7px 2px;background-color:rgb(166,166,166)">
</td>
<td valign="middle" width="100%" bgcolor="#EAEAEA" cellpadding="7px 5px 7px 15px" color="#212121" style="width:100%;background-color:rgb(234,234,234);padding:7px 5px 7px 15px;font-family:wf_segoe-ui_normal,Segoe UI,Segoe WP,Tahoma,Arial,sans-serif;font-size:12px;font-weight:normal;color:rgb(33,33,33);text-align:left">
<div>You don't often get email from <a href="mailto:ravibhatk@gmail.com" target="_blank">ravibhatk@gmail.com</a>. <a href="https://aka.ms/LearnAboutSenderIdentification" target="_blank">
Learn why this is important</a></div>
</td>
<td valign="middle" align="left" width="75px" bgcolor="#EAEAEA" cellpadding="7px 5px 7px 5px" color="#212121" style="width:75px;background-color:rgb(234,234,234);padding:7px 5px;font-family:wf_segoe-ui_normal,Segoe UI,Segoe WP,Tahoma,Arial,sans-serif;font-size:12px;font-weight:normal;color:rgb(33,33,33);text-align:left">
</td>
</tr>
</tbody>
</table>
<div>
<div dir="ltr">
<div style="font-size:12pt;font-family:"Calibri";color:rgb(0,0,0)">
<div>Hello,</div>
<div> </div>
<div>My gres.conf has AutoDetect=nvml</div>
<div>when I restart slurmd service I do get </div>
<div> </div>
<div><span><b><span><font color="#e06666" face="Courier New">fatal: We were configured to autodetect nvml functionality, but we weren't able to find that lib when Slurm was configured.</font></span></b></span></div>
<div><span><b><span><font color="#e06666" face="Courier New"></font></span></b></span> </div>
<div>Referred few links to solve along with slurm-users email archives but could not understand much.
</div>
<div> </div>
<div>Can someone help me with this one. I am using DGX A100 Server which has 4 numbers of A100 80GB GPUs.
</div>
<div> </div>
<div style="font-size:12pt;font-family:"Calibri";color:rgb(0,0,0)">With Warm Regards<br>
Ravi Konila<br>
<div style="font-size:small;text-decoration:none;font-family:"Calibri";font-weight:normal;color:rgb(0,0,0);font-style:normal;display:inline">
</div>
</div>
</div>
</div>
</div>
</div>
</div>

</div></blockquote></div>