<div dir="ltr">Mohamad,<div><br></div><div>It seems you need to upgrade the GCC on the GPU nodes of cluster A and C. The error message says that the srun needs newer GCC libs. Or you can downgrade your SLURM(like recompile it using GCC 2.27 or older) on cluster A/C.</div><div><br clear="all"><div><div dir="ltr" class="gmail_signature" data-smartmail="gmail_signature">Best,<br><br>Feng</div></div><br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Tue, Jul 4, 2023 at 2:46 PM mohammed shambakey <<a href="mailto:shambakey1@gmail.com">shambakey1@gmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-style:solid;border-left-color:rgb(204,204,204);padding-left:1ex"><div dir="ltr">Hi<div><br></div><div>I work on 3 clusters: A, B, C. Each of Clusters A and C has 3 compute nodes and the head node. One of the 3 compute nodes has an old GPU in each cluster of A and C. All nodes, on all clusters, have Ubuntu 22.04 except for the 2 nodes with GPU (both of them have Ubuntu 18.04 to suit the old GPU card). The installed slurm version (on all clusters) is slurm 23.11.0-0rc1.</div><div><br></div><div>Cluster B has only 2 compute nodes and the head node. I tried to submit a sbatch script from cluster B (with a CUDA program) to be executed in any of clusters A or C (where a GPU node resides). Previously, this used to work, but after updating the system, I get the following error:</div><div><br></div><div><font color="#ff0000">srun: /lib/x86_64-linux-gnu/libc.so.6: version `GLIBC_2.33' not found (required by srun)<br>srun: /lib/x86_64-linux-gnu/libc.so.6: version `GLIBC_2.34' not found (required by srun)<br>srun: /lib/x86_64-linux-gnu/libc.so.6: version `GLIBC_2.33' not found (required by /hpcshared/slurm_vm/usr/lib/slurm/libslurmfull.so)<br>srun: /lib/x86_64-linux-gnu/libc.so.6: version `GLIBC_2.32' not found (required by /hpcshared/slurm_vm/usr/lib/slurm/libslurmfull.so)<br>srun: /lib/x86_64-linux-gnu/libc.so.6: version `GLIBC_2.34' not found (required by /hpcshared/slurm_vm/usr/lib/slurm/libslurmfull.so)</font></div><div><br></div><div>The installed glibc is 2.35 on all nodes, except for the 2 GPU nodes (glibc version 2.27). I tried to run the same sbatch script on each of clusters A and C, and it works fine. The problem happens only when trying to use the "sbatch -Mall" form cluster B. Just to be sure, I tried to run another sbatch program (with the multicluster option) that does NOT involve CUDA program, and it worked fine.</div><div><br></div><div>Should I install the same glibc6 on all nodes (2.33 or 2.33 or 2.34), or what?</div><div><br></div><div>Regards<br clear="all"><div><br></div><span class="gmail_signature_prefix">-- </span><br><div dir="ltr" class="gmail_signature">Mohammed<br></div></div></div>
</blockquote></div>