<div dir="ltr"><div>Hi Community,</div><div>just wanted to share that this problem got solved with the help of pyxis developers</div><div><a href="https://github.com/NVIDIA/pyxis/issues/47">https://github.com/NVIDIA/pyxis/issues/47</a></div><div><br></div><div>The solution was to add <br></div><div><code>ConstrainDevices=yes</code></div><div><span style="font-family:arial,sans-serif"><code><span style="font-family:arial,sans-serif">as it was missing</span> </code></span>in the cgroup.conf file</div><div><br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Thu, May 13, 2021 at 5:14 PM Cristóbal Navarro <<a href="mailto:cristobal.navarro.g@gmail.com">cristobal.navarro.g@gmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div>Hi Sean and Community,</div><div>Some days ago I changed to the cons_tres plugin and also made AutoDetect=nvml work for gres.conf (attached at the end of the email), Node and partition definitions seem to be OK (attached at the end as well).</div><div>I believe the SLURM setup is just a few steps of being properly set up, currently I have two very basic scenarios that are giving me questions/problems, :</div><div><br></div><div><b>For 1) Running GPU jobs without containers</b>:</div><div>I was expecting that when doing for example "srun -p gpu --gres=gpu:A100:1 nvidia-smi -L", the output would be just 1 GPU. However it is not the case.<br></div><div><span style="font-family:monospace">➜  TUT03-GPU-single srun -p gpu --gres=gpu:A100:1 nvidia-smi -L<br>GPU 0: A100-SXM4-40GB (UUID: GPU-baa4736e-088f-77ce-0290-ba745327ca95)<br>GPU 1: A100-SXM4-40GB (UUID: GPU-d40a3b1b-006b-37de-8b72-669c59d14954)<br>GPU 2: A100-SXM4-40GB (UUID: GPU-35a012ac-2b34-b68f-d922-24aa07af1be6)<br>GPU 3: A100-SXM4-40GB (UUID: GPU-b75a4bf8-123b-a8c0-dc75-7709626ead20)<br>GPU 4: A100-SXM4-40GB (UUID: GPU-9366ff9f-a20a-004e-36eb-8376655b1419)<br>GPU 5: A100-SXM4-40GB (UUID: GPU-75da7cd5-daf3-10fd-2c3f-56259c1dc777)<br>GPU 6: A100-SXM4-40GB (UUID: GPU-f999e415-54e5-9d7f-0c4b-1d4d98a1dbfc)<br>GPU 7: A100-SXM4-40GB (UUID: GPU-cce4a787-1b22-bed7-1e93-612906567a0e)</span></div><div><br></div><div>But still, when opening an interactive session It really provides 1 GPU.</div><div><span style="font-family:monospace">➜  TUT03-GPU-single srun -p gpu --gres=gpu:A100:1 --pty bash                <br>user@nodeGPU01:$ echo $CUDA_VISIBLE_DEVICES <br>2</span><br></div><div><b><br></b></div><div><b></b></div><div>Moreover, I tried running simultaneous jobs, each one with --gres=gpu:A100:1 and the source code logically choosing GPU ID 0,  and indeed different physical GPUs get used which is great. My only concern here for <b>1) </b>is that list that is always displaying all of the devices. It could confuse users, making them think they have all those GPUs at their disposal leading to take wrong decisions. Nevertheless, this issue is not critical compared to the next one.<br></div><div><br></div><div><b>2) Running GPU jobs with containers (pyxis + enroot)</b></div><div>For this case, the list of GPUs does get reduced to the number of select devices with gres, however there seems to be a problem when referring to GPU IDs from inside the container, and the mapping to the physical GPUs, giving a runtime error in CUDA. <br></div><div><br></div><div>Doing nvidia-smi gives</div><div><span style="font-family:monospace"><span style="background-color:rgb(255,242,204)">➜  TUT03-GPU-single srun -p gpu --container-name=cuda-11.2.2 --container-image=cuda-11.2.2 --pty --gres=gpu:A100:1 nvidia-smi -L</span>          <br>GPU 0: A100-SXM4-40GB (UUID: GPU-35a012ac-2b34-b68f-d922-24aa07af1be6)</span></div><div>As we can see, physical GPU2 is allocated (we can check with the UUID). From what I understand from the idea of SLURM, the programmer does not need to know that this is GPU ID 2, he/she can just develop a program thinking on GPU ID 0 because there is only 1 GPU allocated. That is how it worked in case 1), otherwise one could not know which GPU ID is the one available.</div><div><br></div><div>Now, If I launch a job with --gres=gpu:A100:1,something like a CUDA matrix multiply with some nvml info printed I get<br></div><div><span style="font-family:monospace"><span style="background-color:rgb(255,242,204)">➜  TUT03-GPU-single srun -p gpu --container-name=cuda-11.2.2 --container-image=cuda-11.2.2 --pty --gres=gpu:A100:1 ./prog 0 $((1024*40)) 1</span><br>  Driver version: 450.102.04 <br>   NUM GPUS = 1<br>  Listing devices:<br>              GPU0 A100-SXM4-40GB, index=0, UUID=GPU-35a012ac-2b34-b68f-d922-24aa07af1be6  -> util = 0%<br>Choosing GPU 0<br><span style="background-color:rgb(234,153,153)">GPUassert: no CUDA-capable device is detected <a href="http://main.cu" target="_blank">main.cu</a> 112</span><br>srun: error: nodeGPU01: task 0: Exited with exit code 100</span></div><div><br></div><div>the "index=.." is the GPU index given by nvml.</div><div>Now If I do --gres=gpu:A100:3,  the real first GPU gets allocated, and the program works, but It is not the way in which SLURM should work. <br></div><div><span style="font-family:monospace"><span style="background-color:rgb(255,242,204)"><span></span>➜  TUT03-GPU-single srun -p gpu --container-name=cuda-11.2.2 --container-image=cuda-11.2.2 --pty --gres=gpu:A100:3 ./prog 0 $((1024*40)) 1</span><br>        Driver version: 450.102.04 <br>   NUM GPUS = 3<br>  Listing devices:<br>              GPU0 A100-SXM4-40GB, index=0, UUID=GPU-baa4736e-088f-77ce-0290-ba745327ca95  -> util = 0%<br>         GPU1 A100-SXM4-40GB, index=1, UUID=GPU-35a012ac-2b34-b68f-d922-24aa07af1be6  -> util = 0%<br>         GPU2 A100-SXM4-40GB, index=2, UUID=GPU-b75a4bf8-123b-a8c0-dc75-7709626ead20  -> util = 0%<br>Choosing GPU 0<br>initializing A and B.......done<br>matmul shared mem..........done: time: 26.546274 secs<br>copying result to host.....done<br>verifying result...........done</span><br></div><div><br></div><div>I find that very strange that when using containers, the GPU0 from inside the JOB seems to be trying to access the real physical GPU0 from the machine, and not the GPU0 provided by SLURM as in 1) which worked well.<br></div><div><br></div><div>If anyone has advice where to look for any of the two issues, I would really appreciate it</div><div>Many thanks in advance and sorry for this long email.<br></div><div>-- Cristobal<br></div><div><br></div><div><br></div><div>---------------------<br></div><div>CONFIG FILES<br></div><div><b># gres.conf</b><br></div><div><span style="font-family:monospace">➜  ~ cat /etc/slurm/gres.conf<br>AutoDetect=nvml</span></div><div><br></div><div><br></div><div><br></div><div><b># slurm.conf</b></div><div><b>....<br></b></div><div><span style="font-family:monospace">## Basic scheduling<br><span style="background-color:rgb(255,242,204)">SelectType=select/cons_tres<br>SelectTypeParameters=CR_Core_Memory,CR_ONE_TASK_PER_CORE</span><br>SchedulerType=sched/backfill<br><br>## Accounting </span><b><br></b><span style="font-family:monospace">AccountingStorageType=accounting_storage/slurmdbd<br>AccountingStoreJobComment=YES<br>JobAcctGatherFrequency=30<br>JobAcctGatherType=jobacct_gather/linux<br>AccountingStorageHost=10.10.0.1<br><br>TaskPlugin=task/cgroup<br>ProctrackType=proctrack/cgroup<br><br>## scripts<br>Epilog=/etc/slurm/epilog<br>Prolog=/etc/slurm/prolog<br>PrologFlags=Alloc<br><br>## Nodes list<br><span style="background-color:rgb(255,242,204)">NodeName=nodeGPU01 SocketsPerBoard=8 CoresPerSocket=16 ThreadsPerCore=1 RealMemory=1024000 MemSpecLimit=65556 State=UNKNOWN Gres=gpu:A100:8 Feature=gpu</span><br><br>## Partitions list<br><span style="background-color:rgb(255,242,204)"><span style="color:rgb(0,0,0)">PartitionName=gpu OverSubscribe=No MaxCPUsPerNode=64 DefMemPerNode=65556 DefCpuPerGPU=8 DefMemPerGPU=65556 MaxMemPerNode=532000 MaxTime=1-00:00:00 State=UP Nodes=nodeGPU01  Default=YES <br>PartitionName=cpu OverSubscribe=No MaxCPUsPerNode=64 DefMemPerNode=16384 MaxMemPerNode=420000 MaxTime=1-00:00:00 State=UP Nodes=nodeGPU01 </span></span></span><b><br></b></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Tue, Apr 13, 2021 at 9:38 PM Cristóbal Navarro <<a href="mailto:cristobal.navarro.g@gmail.com" target="_blank">cristobal.navarro.g@gmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div>Hi Sean, <br></div><div>Sorry for the delay,</div><div>The problem got solved accidentally by restarting the slurm services on the head node. <br></div><div>Maybe it was an unfortunate combination of changes done, for which I was assuming "scontrol reconfigure" would apply them all properly.</div><div><br></div><div>Anyways, I will follow your advice and try changing to to "cons_tres" plugin</div><div>Will post back with the result.</div><div>best and many thanks<br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Mon, Apr 12, 2021 at 6:35 AM Sean Crosby <<a href="mailto:scrosby@unimelb.edu.au" target="_blank">scrosby@unimelb.edu.au</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div>Hi Cristobal,</div><div><br></div><div>The weird stuff I see in your job is</div><div><br></div>[2021-04-11T01:12:23.270] gres:gpu(7696487) type:(null)(0) job:1317 flags: state<br>[2021-04-11T01:12:23.270]   gres_per_node:1 node_cnt:0<br>[2021-04-11T01:12:23.270]   ntasks_per_gres:65534<div><span style="font-family:monospace"><font face="arial,sans-serif"><span style="font-family:monospace"><span style="font-family:monospace"><font face="arial,sans-serif"><span style="font-family:monospace"><br></span></font></span></span></font></span></div>Not sure why ntasks_per_gres is 65534 and node_cnt is 0.<div><span style="font-family:monospace"><font face="arial,sans-serif"><span style="font-family:monospace"><span style="font-family:monospace"><font face="arial,sans-serif"><span style="font-family:monospace"><br></span></font></span></span></font></span></div><div>Can<span style="font-family:monospace"><font face="arial,sans-serif"><span style="font-family:monospace"><span style="font-family:monospace"><font face="arial,sans-serif"><span style="font-family:monospace"> you try</span></font></span></span></font></span></div><div><span style="font-family:monospace"><font face="arial,sans-serif"><span style="font-family:monospace"><span style="font-family:monospace"><font face="arial,sans-serif"><span style="font-family:monospace"><br></span></font></span></span></font></span></div><div><span style="font-family:monospace"><font face="arial,sans-serif"><span style="font-family:monospace"><span style="font-family:monospace"><font face="arial,sans-serif"><span style="font-family:monospace">srun --gres=gpu:A100:1 --mem=10G --cpus-per-gpu=1 --nodes=1 nvidia-smi</span></font></span></span></font></span></div><div><span style="font-family:monospace"><font face="arial,sans-serif"><span style="font-family:monospace"><span style="font-family:monospace"><font face="arial,sans-serif"><span style="font-family:monospace"><br></span></font></span></span></font></span></div><div><span style="font-family:monospace"><font face="arial,sans-serif"><span style="font-family:monospace"><span style="font-family:monospace"><font face="arial,sans-serif"><span style="font-family:monospace">and post the output of <span style="font-family:monospace"><font face="arial,sans-serif"><span style="font-family:monospace">slurmctld.log?</span></font></span></span></font></span></span></font></span></div><div><span style="font-family:monospace"><font face="arial,sans-serif"><span style="font-family:monospace"><span style="font-family:monospace"><font face="arial,sans-serif"><span style="font-family:monospace"><span style="font-family:monospace"><font face="arial,sans-serif"><span style="font-family:monospace"><br></span></font></span></span></font></span></span></font></span></div><div><span style="font-family:monospace"><font face="arial,sans-serif"><span style="font-family:monospace"><span style="font-family:monospace"><font face="arial,sans-serif"><span style="font-family:monospace"><span style="font-family:monospace"><font face="arial,sans-serif"><span style="font-family:monospace">I also recommend changing from cons_res to cons_tres for SelectType</span></font></span></span></font></span></span></font></span></div><div><span style="font-family:monospace"><font face="arial,sans-serif"><span style="font-family:monospace"><span style="font-family:monospace"><font face="arial,sans-serif"><span style="font-family:monospace"><span style="font-family:monospace"><font face="arial,sans-serif"><span style="font-family:monospace"><br></span></font></span></span></font></span></span></font></span></div><div><span style="font-family:monospace"><font face="arial,sans-serif"><span style="font-family:monospace"><span style="font-family:monospace"><font face="arial,sans-serif"><span style="font-family:monospace"><span style="font-family:monospace"><font face="arial,sans-serif"><span style="font-family:monospace">e.g.</span></font></span></span></font></span></span></font></span></div><div><span style="font-family:monospace"><font face="arial,sans-serif"><span style="font-family:monospace"><span style="font-family:monospace"><font face="arial,sans-serif"><span style="font-family:monospace"><span style="font-family:monospace"><font face="arial,sans-serif"><span style="font-family:monospace"><br></span></font></span></span></font></span></span></font></span></div><div><span style="font-family:monospace"><font face="arial,sans-serif"><span style="font-family:monospace"><span style="font-family:monospace"><font face="arial,sans-serif"><span style="font-family:monospace"><span style="font-family:monospace"><font face="arial,sans-serif"><span style="font-family:monospace">SelectType=select/cons_tres<br>SelectTypeParameters=CR_Core_Memory,CR_ONE_TASK_PER_CORE</span></font></span></span></font></span></span></font></span></div><div><span style="font-family:monospace"><font face="arial,sans-serif"><span style="font-family:monospace"><br></span></font></span></div><div><span style="font-family:monospace"><font face="arial,sans-serif"><span style="font-family:monospace">Sean</span></font></span></div><div><span style="font-family:monospace"><font face="arial,sans-serif"><span style="font-family:monospace"><br></span></font></span></div><div><div><div dir="ltr">--<br>Sean Crosby | Senior DevOpsHPC Engineer and HPC Team Lead<br>Research Computing Services | Business Services<br>The University of Melbourne, Victoria 3010 Australia<br><br></div></div><br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Mon, 12 Apr 2021 at 00:18, Cristóbal Navarro <<a href="mailto:cristobal.navarro.g@gmail.com" target="_blank">cristobal.navarro.g@gmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div><div><div style="color:rgb(0,0,0);font-size:12px;text-align:left;font-family:Helvetica,Arial,sans-serif"><strong><table style="width:100%;float:left;background-color:lemonchiffon" cellspacing="0" cellpadding="5" border="1">
<tbody>
<tr>
<td><b>UoM notice: </b>External email. Be cautious of links, attachments, or impersonation attempts</td>
</tr>
</tbody>
</table></strong><br></div><hr></div>Hi Sean,</div><div>Tried as suggested but still getting the same error.</div><div>This is the node configuration visible to 'scontrol' just in case<br></div><div><span style="font-family:monospace">➜  scontrol show node                                       <br>NodeName=nodeGPU01 Arch=x86_64 CoresPerSocket=16 <br>   CPUAlloc=0 CPUTot=256 CPULoad=8.07<br>   AvailableFeatures=ht,gpu<br>   ActiveFeatures=ht,gpu<br>   Gres=gpu:A100:8<br>   NodeAddr=nodeGPU01 NodeHostName=nodeGPU01 Version=20.11.2<br>   OS=Linux 5.4.0-66-generic #74-Ubuntu SMP Wed Jan 27 22:54:38 UTC 2021 <br>   RealMemory=1024000 AllocMem=0 FreeMem=1019774 Sockets=8 Boards=1<br>   State=IDLE ThreadsPerCore=2 TmpDisk=0 Weight=1 Owner=N/A MCS_label=N/A<br>   Partitions=gpu,cpu <br>   BootTime=2021-04-09T21:23:14 SlurmdStartTime=2021-04-11T10:11:12<br>   CfgTRES=cpu=256,mem=1000G,billing=256<br>   AllocTRES=<br>   CapWatts=n/a<br>   CurrentWatts=0 AveWatts=0<br>   ExtSensorsJoules=n/s ExtSensorsWatts=0 ExtSensorsTemp=n/s<br>   Comment=(null)<br></span><br><br><br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Sun, Apr 11, 2021 at 2:03 AM Sean Crosby <<a href="mailto:scrosby@unimelb.edu.au" target="_blank">scrosby@unimelb.edu.au</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div>Hi Cristobal,</div><div><br></div><div>My hunch is it is due to the default memory/CPU settings.</div><div><br></div><div>Does it work if you do</div><div><br></div><div style="margin-left:40px">srun --gres=gpu:A100:1 --cpus-per-task=1 --mem=10G nvidia-smi<br></div><br>Sean<div><div><div dir="ltr">--<br>Sean Crosby | Senior DevOpsHPC Engineer and HPC Team Lead<br>Research Computing Services | Business Services<br>The University of Melbourne, Victoria 3010 Australia<br><br></div></div><br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Sun, 11 Apr 2021 at 15:26, Cristóbal Navarro <<a href="mailto:cristobal.navarro.g@gmail.com" target="_blank">cristobal.navarro.g@gmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div><div><div style="color:rgb(0,0,0);font-size:12px;text-align:left;font-family:Helvetica,Arial,sans-serif"><strong><table style="width:100%;float:left;background-color:lemonchiffon" cellspacing="0" cellpadding="5" border="1">
<tbody>
<tr>
<td><b>UoM notice: </b>External email. Be cautious of links, attachments, or impersonation attempts</td>
</tr>
</tbody>
</table></strong><br></div><hr></div>Hi Community,</div><div>These last two days I've been trying to understand what is the cause of the "Unable to allocate resources" error I keep getting when specifying --gres=...  in a srun command (or sbatch). It fails with the error</div><div><span style="font-family:monospace">➜  srun --gres=gpu:A100:1 nvidia-smi<br>srun: error: Unable to allocate resources: Requested node configuration is not available</span></div><div><br><span style="font-family:monospace"></span></div><div><span style="font-family:monospace"><font face="arial,sans-serif">log file on the master node (not the compute one) <br></font></span></div><div><span style="font-family:monospace"><font face="arial,sans-serif"><span style="font-family:monospace">➜  tail -f /var/log/slurm/slurmctld.log</span></font></span></div><div><span style="font-family:monospace"><font face="arial,sans-serif"><span style="font-family:monospace">[2021-04-11T01:12:23.270] gres:gpu(7696487) type:(null)(0) job:1317 flags: state<br>[2021-04-11T01:12:23.270]   gres_per_node:1 node_cnt:0<br>[2021-04-11T01:12:23.270]   ntasks_per_gres:65534<br>[2021-04-11T01:12:23.270] select/cons_res: common_job_test: no job_resources info for JobId=1317 rc=-1<br>[2021-04-11T01:12:23.270] select/cons_res: common_job_test: no job_resources info for JobId=1317 rc=-1<br>[2021-04-11T01:12:23.270] select/cons_res: common_job_test: no job_resources info for JobId=1317 rc=-1<br>[2021-04-11T01:12:23.271] _pick_best_nodes: JobId=1317 never runnable in partition gpu<br>[2021-04-11T01:12:23.271] _slurm_rpc_allocate_resources: Requested node configuration is not available </span><br></font></span></div><div><span style="font-family:monospace"><font face="arial,sans-serif"><br></font></span></div><div><span style="font-family:monospace"><font face="arial,sans-serif">If launched without --gres, it allocates all GPUs by default and nvidia-smi does work, in fact our CUDA programs do work via SLURM if --gres is not specified.<br></font></span></div><div><span style="font-family:monospace">➜  TUT04-GPU-multi git:(master) ✗ srun nvidia-smi <br>Sun Apr 11 01:05:47 2021       <br>+-----------------------------------------------------------------------------+<br>| NVIDIA-SMI 450.102.04   Driver Version: 450.102.04   CUDA Version: 11.0     |<br>|-------------------------------+----------------------+----------------------+<br>| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |<br>| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |<br>|                               |                      |               MIG M. |<br>|===============================+======================+======================|<br>|   0  A100-SXM4-40GB      On   | 00000000:07:00.0 Off |                    0 |<br>| N/A   31C    P0    51W / 400W |      0MiB / 40537MiB |      0%      Default |<br>|                               |                      |             Disabled |</span></div><div><span style="font-family:monospace">....</span></div><div><span style="font-family:monospace">....</span></div><div><span style="font-family:monospace"><br></span></div><div><span style="font-family:monospace"><font face="arial,sans-serif">There is only one DGX A100 Compute node with 8 GPUs and 2x 64-core CPUs, and the gres.conf file simply is (also tried the commented lines):<br></font></span></div><div><span style="font-family:monospace">➜  ~ cat /etc/slurm/gres.conf<br># GRES configuration for native GPUS<br># DGX A100 8x Nvidia A100<br>#AutoDetect=nvml<br>Name=gpu Type=A100 File=/dev/nvidia[0-7]<br><br>#Name=gpu Type=A100 File=/dev/nvidia0 Cores=0-7<br>#Name=gpu Type=A100 File=/dev/nvidia1 Cores=8-15<br>#Name=gpu Type=A100 File=/dev/nvidia2 Cores=16-23<br>#Name=gpu Type=A100 File=/dev/nvidia3 Cores=24-31<br>#Name=gpu Type=A100 File=/dev/nvidia4 Cores=32-39<br>#Name=gpu Type=A100 File=/dev/nvidia5 Cores=40-47<br>#Name=gpu Type=A100 File=/dev/nvidia6 Cores=48-55<br>#Name=gpu Type=A100 File=/dev/nvidia7 Cores=56-63</span></div><div><span style="font-family:monospace"><br></span></div><div><span style="font-family:monospace"><br></span></div><div><span style="font-family:monospace"><font face="arial,sans-serif">Some relevant parts of the slurm.conf file</font></span></div><div><span style="font-family:monospace">➜  cat /etc/slurm/slurm.conf<br></span></div><div><span style="font-family:monospace">...<br></span></div><div><span style="font-family:monospace">## GRES<br></span></div><div><span style="font-family:monospace">GresTypes=gpu<br>AccountingStorageTRES=gres/gpu<br>DebugFlags=CPU_Bind,gres<br></span></div><div><span style="font-family:monospace">...<br></span></div><div><span style="font-family:monospace">## Nodes list<br>## Default CPU layout, native GPUs<br>NodeName=nodeGPU01 SocketsPerBoard=8 CoresPerSocket=16 ThreadsPerCore=2 RealMemory=1024000 State=UNKNOWN Gres=gpu:A100:8 Feature=ht,gpu<br>...<br>## Partitions list<br>PartitionName=gpu OverSubscribe=FORCE MaxCPUsPerNode=128 MaxTime=INFINITE State=UP Nodes=nodeGPU01  Default=YES <br>PartitionName=cpu OverSubscribe=FORCE MaxCPUsPerNode=128 MaxTime=INFINITE State=UP Nodes=nodeGPU01 <br></span></div><div><span style="font-family:monospace"><br></span></div><div><span style="font-family:monospace"><font face="arial,sans-serif">Any ideas where should I check?<br></font></span></div><div><span style="font-family:monospace"><font face="arial,sans-serif">thanks in advance</font><br></span></div><div>-- <br><div dir="ltr"><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr">Cristóbal A. Navarro<br></div></div></div></div></div></div></div></div>
</blockquote></div>
</blockquote></div><br clear="all"><br>-- <br><div dir="ltr"><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr">Cristóbal A. Navarro<br></div></div></div></div></div></div>
</blockquote></div>
</blockquote></div><br clear="all"><br>-- <br><div dir="ltr"><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr">Cristóbal A. Navarro<br></div></div></div></div></div></div>
</blockquote></div><br clear="all"><br>-- <br><div dir="ltr"><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr">Cristóbal A. Navarro<br></div></div></div></div></div></div>
</blockquote></div><br clear="all"><br>-- <br><div dir="ltr" class="gmail_signature"><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr">Cristóbal A. Navarro<br></div></div></div></div></div></div>