<div dir="ltr"><div>Hi everyone, <br></div><div><br></div><div>I have a slurm node named, mk-gpu-1, with eight GPUs which I've been testing sending GPU based container jobs to.  For whatever reason,  it will only run a single GPU at a time.  All other SLURM sent GPU jobs have a pending (PD) state due to "(Resources)".  <br></div><div><br></div><div><span style="font-family:courier new,monospace">[ztang@mk-gpu-1 ~]$ squeue<br>             JOBID PARTITION     NAME     USER ST       TIME  NODES NODELIST(REASON)<br>               523     gpu.q slurm-gp    ztang PD       0:00      1 (Resources)<br>               522     gpu.q slurm-gp   bwong1  R       0:09      1 mk-gpu-1</span><br></div><div><br></div><div>Anyone know why this would happen?  I'll try to provide the relevant portions of my configuration: <br></div><div><br></div><div><b>slurm.conf: </b><br></div><div><span style="font-family:courier new,monospace">GresTypes=gpu</span></div><div><span style="font-family:courier new,monospace">AccountingStorageTres=gres/gpu<br>DebugFlags=CPU_Bind,gres<br></span></div><div><span style="font-family:courier new,monospace">NodeName=mk-gpu-1 NodeAddr=10.10.100.106 RealMemory=500000 Gres=gpu:8 Sockets=2 CoresPerSocket=12 ThreadsPerCore=2 State=UNKNOWN<br>PartitionName=gpu.q Nodes=mk-gpu-1,mk-gpu-2,mk-gpu-3  Default=NO MaxTime=INFINITE State=UP</span></div><div><br></div><div><b>gres.conf</b></div><div><span style="font-family:courier new,monospace"># This line is causing issues in Slurm 19.05<br>#AutoDetect=nvml<br>NodeName=mk-gpu-1 Name=gpu File=/dev/nvidia[0-7]</span></div><div>(I commented out AutoDetect=nvml because Slurm will not start properly and will output: "slurmd[28070]: fatal: We were configured to autodetect nvml functionality, but we weren't able to find that lib when Slurm was configured."  Could use some help there too if possible.  )<br></div><div><b></b></div><div><b><br></b></div><div><b>cgroup.conf</b></div><div><span style="font-family:courier new,monospace">CgroupAutomount=yes<br>ConstrainCores=yes<br>ConstrainRAMSpace=yes<br>ConstrainSwapSpace=yes<br>ConstrainDevices=yes</span><b><br></b></div><div><b></b></div><div><b><br></b></div><div><b>submission script:</b></div><div><span style="font-family:courier new,monospace">#!/bin/bash<br>#SBATCH -c 2<br>#SBATCH -o slurm-gpu-job.out<br>#SBATCH -p gpu.q<br>#SBATCH -w mk-gpu-1<br>#SBATCH --gres=gpu:1<br>srun singularity exec --nv docker://tensorflow/tensorflow:latest-gpu \<br>python ./models/tutorials/image/mnist/convolutional.py</span><b><br></b></div><div><b><br></b></div><div>Thanks in advance for any ideas,</div><div>Benjamin Wong<b><br></b></div></div>