<div dir="ltr">Hi Alex,<div><br></div><div>What's the actual content of your gres.conf file? Seems to me that you have a trailing comma after the location of the nvidia device<br></div><div><br></div><div>Our gres.conf has</div><div><br></div><div><div>NodeName=gpuhost[001-077] Name=gpu Type=p100 File=/dev/nvidia0 Cores=0,2,4,6,8,10,12,14,16,18,20,22</div><div>NodeName=gpuhost[001-077] Name=gpu Type=p100 File=/dev/nvidia1 Cores=0,2,4,6,8,10,12,14,16,18,20,22</div><div>NodeName=gpuhost[001-077] Name=gpu Type=p100 File=/dev/nvidia2 Cores=1,3,5,7,9,11,13,15,17,19,21,23</div><div>NodeName=gpuhost[001-077] Name=gpu Type=p100 File=/dev/nvidia3 Cores=1,3,5,7,9,11,13,15,17,19,21,23</div></div><div><br></div><div>I think you have a comma between the File and Cores/CPUs</div><div><br></div><div>Sean</div><div><br></div></div><br><div class="gmail_quote"><div dir="ltr">On Tue, 24 Jul 2018 at 08:13, Alex Chekholko <<a href="mailto:alex@calicolabs.com">alex@calicolabs.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">Hi all,<div><br></div><div>I have a few working GPU compute nodes.  I bought a couple of more identical nodes.  They are all diskless; so they all boot from the same disk image.</div><div><br></div><div>For some reason slurmd refuses to start on the new nodes; and I'm not able to find any differences in hardware or software.  Google searches for "error: Waiting for gres.conf file " or "fatal: can't stat gres.conf file" are not helping.</div><div><br></div><div>The gres.conf file is there and identical on all nodes. The /dev/nvidia[0-3] files are there and 'nvidia-smi -L' works fine.  What am I missing?</div><div><br></div><div><br></div><div><div>[root@n0038 ~]# slurmd -Dcvvv</div><div>slurmd: debug2: hwloc_topology_init</div><div>slurmd: debug2: hwloc_topology_load</div><div>slurmd: debug:  CPUs:20 Boards:1 Sockets:2 CoresPerSocket:10 ThreadsPerCore:1</div><div>slurmd: Node configuration differs from hardware: CPUs=16:20(hw) Boards=1:1(hw) SocketsPerBoard=16:2(hw) CoresPerSocket=1:10(hw) ThreadsPerCore=1:1(hw)</div><div>slurmd: Message aggregation disabled</div><div>slurmd: debug:  init: Gres GPU plugin loaded</div><div>slurmd: error: Waiting for gres.conf file /dev/nvidia[0-1],CPUs="0-9"</div><div>slurmd: fatal: can't stat gres.conf file /dev/nvidia[0-1],CPUs="0-9": No such file or directory</div></div><div><br></div><div><br></div><div><br></div><div>SLURM version ohpc-17.02.7-61</div><div><br></div></div>
</blockquote></div>