<div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr">Hi all! I've successfully managed to configure slurm on one head node and two different compute nodes, one using "old" consumer RTX cards, a new one using 4xA100 GPUS (80gb version).<div>I am now trying to set up a hybrid MIG configuration, where devices 0,1 are kept as is, while 2 and 3 are split into 3.40gb MIG instances.</div><div><br></div><div>MIG itself works well, I am able to keep 0,1 disabled and 2,3 enabled with 2x40gb.</div><div>Trying to configure slurm with this had me lost: I am trying countless variations, but there isn't a single one that has worked so far.</div><div>Here's what I have at the moment:</div><div><br></div><div>- My gres.conf has gone from the full list to literally just "AutoDetect=nvml", slurmd -G returns a somewhat reasonable output:<br></div><div><br></div><div><div><font face="monospace">slurmd: gpu/nvml: _get_system_gpu_list_nvml: 4 GPU system device(s) detected</font></div><div><font face="monospace">slurmd: Gres Name=gpu Type=a100 Count=1 Index=0 ID=7696487 File=/dev/nvidia0 Cores=24-31 CoreCnt=128 Links=-1,4,0,0 Flags=HAS_FILE,HAS_TYPE,ENV_NVML</font></div><div><font face="monospace">slurmd: Gres Name=gpu Type=a100_3g.39gb Count=1 Index=283 ID=7696487 File=/dev/nvidia2,/dev/nvidia-caps/nvidia-cap282,/dev/nvidia-caps/nvidia-cap283 Cores=56-63 CoreCnt=128 Links=-1,0 Flags=HAS_FILE,HAS_TYPE,ENV_NVML</font></div><div><font face="monospace">slurmd: Gres Name=gpu Type=a100_3g.39gb Count=1 Index=418 ID=7696487 File=/dev/nvidia3,/dev/nvidia-caps/nvidia-cap417,/dev/nvidia-caps/nvidia-cap418 Cores=40-47 CoreCnt=128 Links=-1,0 Flags=HAS_FILE,HAS_TYPE,ENV_NVML</font></div><div><font face="monospace">slurmd: Gres Name=gpu Type=a100 Count=1 Index=1 ID=7696487 File=/dev/nvidia1 Cores=8-15 CoreCnt=128 Links=4,-1,0,0 Flags=HAS_FILE,HAS_TYPE,ENV_NVML</font></div><div><font face="monospace">slurmd: Gres Name=gpu Type=a100_3g.39gb Count=1 Index=292 ID=7696487 File=/dev/nvidia2,/dev/nvidia-caps/nvidia-cap291,/dev/nvidia-caps/nvidia-cap292 Cores=56-63 CoreCnt=128 Links=0,-1 Flags=HAS_FILE,HAS_TYPE,ENV_NVML</font></div><div><font face="monospace">slurmd: Gres Name=gpu Type=a100_3g.39gb Count=1 Index=427 ID=7696487 File=/dev/nvidia3,/dev/nvidia-caps/nvidia-cap426,/dev/nvidia-caps/nvidia-cap427 Cores=40-47 CoreCnt=128 Links=0,-1 Flags=HAS_FILE,HAS_TYPE,ENV_NVML</font></div></div><div><font face="monospace"><br></font></div><div><font face="arial, sans-serif">And here I have the first doubt: <u>the MIG profile is supposed to be called 3g.40gb, why is it popping up as 3g.39gb?</u></font></div><div><font face="arial, sans-serif"><b><br></b></font></div><div><font face="arial, sans-serif">- My slurm.conf is very similar to the documentation example, with:  </font><font face="monospace">Gres=gpu:a100:2,gpu:a100_3g.39gb:4</font></div><div>- I restarted <i>slurmctld </i>and <i>slurmd </i>on the node, everything appears to be working.</div><div><br></div><div>When I try to send a <i>srun </i>command, weird stuff happens: </div><div>- srun --gres=gpu:a100:2 returns a non-mig device AND a mig device together</div><div>- sinfo only shows 2 a100 gpus "<i>gpu:a100:2(S:1)</i>", or gpu count too low (0 < 4) for the MIG devices and stays in drain state</div><div>- the fullly qualified name "gpu:a100_3g.39gb:1" returns  "Unable to allocate resources: Requested node configuration is not available".</div><div><u>Where do I start to fix this mess?</u></div><div><br></div><div>Thank you for your patience!</div><div>Cheers,</div><div><br></div><div>Edoardo</div><div><br></div><div> </div></div></div></div></div></div></div></div></div>