<div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr">I'm running  slurmd version 18.08.0... </div><div dir="ltr"><br></div><div>It seems that the system recognizes the GPUs after a slurmd restart. I tuned debug to 5, restarted and then submitted job. Nothing get logged to log file in local server...</div><div><div>[2018-12-03T11:55:18.442] Slurmd shutdown completing</div><div>[2018-12-03T11:55:18.484] debug:  Log file re-opened</div><div>[2018-12-03T11:55:18.485] debug:  CPUs:48 Boards:1 Sockets:2 CoresPerSocket:12 ThreadsPerCore:2</div><div>[2018-12-03T11:55:18.485] Message aggregation disabled</div><div>[2018-12-03T11:55:18.486] debug:  CPUs:48 Boards:1 Sockets:2 CoresPerSocket:12 ThreadsPerCore:2</div><div>[2018-12-03T11:55:18.486] debug:  init: Gres GPU plugin loaded</div><div>[2018-12-03T11:55:18.486] Gres Name=gpu Type=K20 Count=2</div><div>[2018-12-03T11:55:18.487] gpu device number 0(/dev/nvidia0):c 195:0 rwm</div><div>[2018-12-03T11:55:18.487] gpu device number 1(/dev/nvidia1):c 195:1 rwm</div><div>[2018-12-03T11:55:18.487] topology NONE plugin loaded</div><div>[2018-12-03T11:55:18.487] route default plugin loaded</div><div>[2018-12-03T11:55:18.530] debug:  Resource spec: No specialized cores configured by default on this node</div><div>[2018-12-03T11:55:18.530] debug:  Resource spec: Reserved system memory limit not configured for this node</div><div>[2018-12-03T11:55:18.530] debug:  task NONE plugin loaded</div><div>[2018-12-03T11:55:18.530] debug:  Munge authentication plugin loaded</div><div>[2018-12-03T11:55:18.530] debug:  spank: opening plugin stack /etc/slurm/plugstack.conf</div><div>[2018-12-03T11:55:18.530] Munge cryptographic signature plugin loaded</div><div>[2018-12-03T11:55:18.532] slurmd version 18.08.0 started</div><div>[2018-12-03T11:55:18.532] debug:  Job accounting gather LINUX plugin loaded</div><div>[2018-12-03T11:55:18.532] debug:  job_container none plugin loaded</div><div>[2018-12-03T11:55:18.532] debug:  switch NONE plugin loaded</div><div>[2018-12-03T11:55:18.532] slurmd started on Mon, 03 Dec 2018 11:55:18 -0500</div><div>[2018-12-03T11:55:18.533] CPUs=48 Boards=1 Sockets=2 Cores=12 Threads=2 Memory=386757 TmpDisk=4758 Uptime=21165906 CPUSpecList=(null) FeaturesAvail=(null) FeaturesActive=(null)</div><div>[2018-12-03T11:55:18.533] debug:  AcctGatherEnergy NONE plugin loaded</div><div>[2018-12-03T11:55:18.533] debug:  AcctGatherProfile NONE plugin loaded</div><div>[2018-12-03T11:55:18.533] debug:  AcctGatherInterconnect NONE plugin loaded</div><div>[2018-12-03T11:55:18.533] debug:  AcctGatherFilesystem NONE plugin loaded</div><div>root@tiger11 slurm#</div></div><div><br></div><div>So, I turned on debug to 5 in slurmcltd in master server, and after I submitted my job, it shows...</div><div><div>[2018-12-03T12:02:10.355] _job_create: account 'lnicotra' has no association for user 1498 using default account 'slt'</div><div>[2018-12-03T12:02:10.356] _slurm_rpc_submit_batch_job: Invalid Trackable RESource (TRES) specification</div></div><div><br></div><div>So, we use LDAP for authentication and my UID is 1498, but I created a user in slurm using my login name. The default account for all users is "slt"  Is this the cause of my problems? </div><div><div>root@panther02 slurm# getent passwd lnicotra</div><div>lnicotra:*:1498:1152:Lou Nicotra:/home/lnicotra:/bin/bash</div></div><div><br></div><div>If so, how is this resolved as we use multiple servers and there are no local accounts for them?</div><div><br></div><div>Thanks!</div><div>Lou</div><div><br></div><div><br></div></div></div></div></div></div><br><div class="gmail_quote"><div dir="ltr">On Mon, Dec 3, 2018 at 11:36 AM Michael Di Domenico <<a href="mailto:mdidomenico4@gmail.com" target="_blank">mdidomenico4@gmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">do you get anything additional in the slurm logs?  have you tried<br>
adding gres to the debugflags?  what version of slurm are you running?<br>
On Mon, Dec 3, 2018 at 9:18 AM Lou Nicotra <<a href="mailto:lnicotra@interactions.com" target="_blank">lnicotra@interactions.com</a>> wrote:<br>
><br>
> Hi All, I have recently set up a slurm cluster with my servers and I'm running into an issue while submitting GPU jobs. It has something to to with gres configurations, but I just can't seem to figure out what is wrong. Non GPU jobs run fine.<br>
><br>
> The error is as follows:<br>
> sbatch: error: Batch job submission failed: Invalid Trackable RESource (TRES) specification  after submitting a batch job.<br>
><br>
> My batch job is as follows:<br>
> #!/bin/bash<br>
> #SBATCH --partition=tiger_1   # partition name<br>
> #SBATCH --gres=gpu:k20:1<br>
> #SBATCH --gres-flags=enforce-binding<br>
> #SBATCH --time=0:20:00  # wall clock limit<br>
> #SBATCH --output=gpu-%J.txt<br>
> #SBATCH --account=lnicotra<br>
> module load cuda<br>
> python gpu1<br>
><br>
> Where gpu1 is a GPU test script that runs correctly while invoked via python. Tiger_1 partition has servers with GPUs, with a mix of 1080GTX and K20 as specified in slurm.conf<br>
><br>
> I have defined GRES resources in the slurm.conf file:<br>
> # GPU GRES<br>
> GresTypes=gpu<br>
> NodeName=tiger[01,05,10,15,20] Gres=gpu:1080gtx:2<br>
> NodeName=tiger[02-04,06-09,11-14,16-19,21-22] Gres=gpu:k20:2<br>
><br>
> And have a local gres.conf on the servers containing GPUs...<br>
> lnicotra@tiger11 ~# cat /etc/slurm/gres.conf<br>
> # GPU Definitions<br>
> # NodeName=tiger[02-04,06-09,11-14,16-19,21-22] Name=gpu Type=K20 File=/dev/nvidia[0-1]<br>
> Name=gpu Type=K20 File=/dev/nvidia[0-1] Cores=0,1<br>
><br>
> and a similar one for the 1080GTX<br>
> # GPU Definitions<br>
> # NodeName=tiger[01,05,10,15,20] Name=gpu Type=1080GTX File=/dev/nvidia[0-1]<br>
> Name=gpu Type=1080GTX File=/dev/nvidia[0-1] Cores=0,1<br>
><br>
> The account manager seems to know about the GPUs...<br>
> lnicotra@tiger11 ~# sacctmgr show tres<br>
>     Type            Name     ID<br>
> -------- --------------- ------<br>
>      cpu                      1<br>
>      mem                      2<br>
>   energy                      3<br>
>     node                      4<br>
>  billing                      5<br>
>       fs            disk      6<br>
>     vmem                      7<br>
>    pages                      8<br>
>     gres             gpu   1001<br>
>     gres         gpu:k20   1002<br>
>     gres     gpu:1080gtx   1003<br>
><br>
> Can anyone point out what am I missing?<br>
><br>
> Thanks!<br>
> Lou<br>
><br>
><br>
> --<br>
><br>
> Lou Nicotra<br>
><br>
> IT Systems Engineer - SLT<br>
><br>
> Interactions LLC<br>
><br>
> o:  908-673-1833<br>
><br>
> m: 908-451-6983<br>
><br>
> <a href="mailto:lnicotra@interactions.com" target="_blank">lnicotra@interactions.com</a><br>
><br>
> <a href="http://www.interactions.com" rel="noreferrer" target="_blank">www.interactions.com</a><br>
><br>
> *******************************************************************************<br>
><br>
> This e-mail and any of its attachments may contain Interactions LLC proprietary information, which is privileged, confidential, or subject to copyright belonging to the Interactions LLC. This e-mail is intended solely for the use of the individual or entity to which it is addressed. If you are not the intended recipient of this e-mail, you are hereby notified that any dissemination, distribution, copying, or action taken in relation to the contents of and attachments to this e-mail is strictly prohibited and may be unlawful. If you have received this e-mail in error, please notify the sender immediately and permanently delete the original and any copy of this e-mail and any printout. Thank You.<br>
><br>
> *******************************************************************************<br>
<br>
</blockquote></div><br clear="all"><div><br></div>-- <br><div dir="ltr" class="m_6092056999676442018gmail_signature" data-smartmail="gmail_signature"><div dir="ltr"><p style="margin-bottom:0.0001pt;line-height:normal;background-image:initial;background-position:initial;background-repeat:initial"><b><span style="font-size:9.5pt;font-family:"Arial",sans-serif;color:#6fa8dc">Lou Nicotra</span></b><span style="font-size:9.5pt;font-family:Arial,sans-serif"></span></p>

<p style="margin-bottom:0.0001pt;line-height:normal;background-image:initial;background-position:initial;background-repeat:initial"><span style="font-size:9.5pt;font-family:"Arial",sans-serif;color:#666666">IT Systems Engineer -
SLT</span><span style="font-size:9.5pt;font-family:Arial,sans-serif"></span></p>

<p style="margin-bottom:0.0001pt;line-height:normal;background-image:initial;background-position:initial;background-repeat:initial"><span style="font-size:9.5pt;font-family:"Arial",sans-serif;color:#666666">Interactions LLC</span></p>

<p style="margin-bottom:0.0001pt;line-height:normal;background-image:initial;background-position:initial;background-repeat:initial"><span style="font-size:9.5pt;font-family:Arial,sans-serif">o:  </span><span style="font-size:9.5pt;font-family:"Arial",sans-serif;color:#666666"><a href="tel:781-405-5114" target="_blank"><span style="color:#1155cc">908-673-1833</span></a></span><span style="font-size:9.5pt;font-family:Arial,sans-serif"></span></p>

<p style="margin-bottom:0.0001pt;line-height:normal;background-image:initial;background-position:initial;background-repeat:initial"><span style="font-size:9.5pt;font-family:"Arial",sans-serif;color:#666666">m: <a href="tel:781-405-5114" target="_blank"><span style="color:#1155cc">908-451-6983</span></a></span><span style="font-size:9.5pt;font-family:Arial,sans-serif"></span></p>

<p style="margin-bottom:0.0001pt;line-height:normal;background-image:initial;background-position:initial;background-repeat:initial"><u><span style="font-size:9.5pt;font-family:"Arial",sans-serif;color:#1155cc"><a href="mailto:lnicotra@interactions.com" target="_blank">lnicotra@interactions.com</a></span></u><span style="font-size:9.5pt;font-family:Arial,sans-serif"></span></p>

<span style="font-size:9.5pt;line-height:107%;font-family:"Arial",sans-serif;color:#666666"><a href="http://www.interactions.com/" target="_blank"><span style="color:#1155cc">www.interactions.com</span></a></span><br></div></div>

<br>
<font face="Times New Roman" size="3">

</font><p style="margin:0in 0in 8pt"><font face="Calibri" size="3">******************************<wbr>******************************<wbr>*******************</font></p><font face="Times New Roman" size="3">

</font><p style="margin:0in 0in 8pt"><font face="Calibri" size="3">This e-mail and any of its attachments may contain
Interactions LLC proprietary information, which is privileged,
confidential, or subject to copyright belonging to the Interactions
LLC. This e-mail is intended solely for the use of the individual or
entity to which it is addressed. If you are not the intended recipient of this
e-mail, you are hereby notified that any dissemination, distribution, copying,
or action taken in relation to the contents of and attachments to this e-mail
is strictly prohibited and may be unlawful. If you have received this e-mail in
error, please notify the sender immediately and permanently delete the original
and any copy of this e-mail and any printout. Thank You.  </font></p><font face="Times New Roman" size="3">

</font><p style="margin:0in 0in 8pt"><font face="Calibri"><font size="3">******************************<wbr>******************************<wbr>*******************<span>  </span></font></font></p><font face="Times New Roman" size="3">

</font>