<div dir="ltr"><div dir="ltr">Compile slurm without ucx support. We wound up spending quality time with the Mellanox... wait, no, NVIDIA Networking UCX folks to get this sorted out.</div><div dir="ltr"><br></div><div>I recommend using SLURM 20 rather than 19.</div><div><br></div><div>regards,</div><div>s</div><div dir="ltr"><br></div><div dir="ltr"><br></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Thu, Oct 22, 2020 at 10:23 AM Michael Di Domenico <<a href="mailto:mdidomenico4@gmail.com">mdidomenico4@gmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">was there ever a result to this?  i'm seeing the same error message,<br>
but i'm not adding in all the environ flags like the original poster.<br>
<br>
On Wed, Jul 10, 2019 at 9:18 AM Daniel Letai <<a href="mailto:dani@letai.org.il" target="_blank">dani@letai.org.il</a>> wrote:<br>
><br>
> Thank you Artem,<br>
><br>
><br>
> I've made a mistake while typing the mail, in all cases it was 'OMPI_MCA_pml=ucx' and not as written. When I went over the mail before sending, I must have erroneously 'fixed' it for some reason.<br>
><br>
><br>
> ----<br>
><br>
> Best regards,<br>
><br>
> --Dani_L.<br>
><br>
><br>
> On 7/9/19 9:06 PM, Artem Polyakov wrote:<br>
><br>
> Hello, Daniel<br>
><br>
> Let me try to reproduce locally and get back to you.<br>
><br>
> ----<br>
> Best regards,<br>
> Artem Y. Polyakov, PhD<br>
> Senior Architect, SW<br>
> Mellanox Technologies<br>
> ________________________________<br>
> От: <a href="mailto:pmix@googlegroups.com" target="_blank">pmix@googlegroups.com</a> <<a href="mailto:pmix@googlegroups.com" target="_blank">pmix@googlegroups.com</a>> от имени Daniel Letai <<a href="mailto:dani@letai.org.il" target="_blank">dani@letai.org.il</a>><br>
> Отправлено: Tuesday, July 9, 2019 3:25:22 AM<br>
> Кому: Slurm User Community List; <a href="mailto:pmix@googlegroups.com" target="_blank">pmix@googlegroups.com</a>; <a href="mailto:ucx-group@elist.ornl.gov" target="_blank">ucx-group@elist.ornl.gov</a><br>
> Тема: [pmix] [Cross post - Slurm, PMIx, UCX] Using srun with SLURM_PMIX_DIRECT_CONN_UCX=true fails with input/output error<br>
><br>
><br>
> Cross posting to Slurm, PMIx and UCX lists.<br>
><br>
><br>
> Trying to execute a simple openmpi (4.0.1) mpi-hello-world via Slurm (19.05.0) compiled with both PMIx (3.1.2) and UCX (1.5.0) results in:<br>
><br>
><br>
> [root@n1 ~]# SLURM_PMIX_DIRECT_CONN_UCX=true SLURM_PMIX_DIRECT_CONN=true OMPI_MCA_pml=true OMPI_MCA_btl='^vader,tcp,openib' UCX_NET_DEVICES='mlx4_0:1'  SLURM_PMIX_DIRECT_CONN_EARLY=false UCX_TLS=rc,shm srun --export SLURM_PMIX_DIRECT_CONN_UCX,SLURM_PMIX_DIRECT_CONN,OMPI_MCA_pml,OMPI_MCA_btl, UCX_NET_DEVICES,SLURM_PMIX_DIRECT_CONN_EARLY,UCX_TLS --mpi=pmix -N 2 -n 2 /data/mpihello/mpihello<br>
><br>
><br>
> slurmstepd: error: n1 [0] pmixp_dconn_ucx.c:668 [_ucx_connect] mpi/pmix: ERROR: ucp_ep_create failed: Input/output error<br>
> slurmstepd: error: n1 [0] pmixp_dconn.h:243 [pmixp_dconn_connect] mpi/pmix: ERROR: Cannot establish direct connection to n2 (1)<br>
> slurmstepd: error: n1 [0] pmixp_server.c:731 [_process_extended_hdr] mpi/pmix: ERROR: Unable to connect to 1<br>
> srun: Job step aborted: Waiting up to 32 seconds for job step to finish.<br>
> slurmstepd: error: n2 [1] pmixp_dconn_ucx.c:668 [_ucx_connect] mpi/pmix: ERROR: ucp_ep_create failed: Input/output error<br>
> slurmstepd: error: n2 [1] pmixp_dconn.h:243 [pmixp_dconn_connect] mpi/pmix: ERROR: Cannot establish direct connection to n1 (0)<br>
> slurmstepd: error: *** STEP 7202.0 ON n1 CANCELLED AT 2019-07-01T13:20:36 ***<br>
> slurmstepd: error: n2 [1] pmixp_server.c:731 [_process_extended_hdr] mpi/pmix: ERROR: Unable to connect to 0<br>
> srun: error: n2: task 1: Killed<br>
> srun: error: n1: task 0: Killed<br>
><br>
><br>
> However, the following works:<br>
><br>
><br>
> [root@n1 ~]# SLURM_PMIX_DIRECT_CONN_UCX=false SLURM_PMIX_DIRECT_CONN=true OMPI_MCA_pml=true OMPI_MCA_btl='^vader,tcp,openib' UCX_NET_DEVICES='mlx4_0:1'  SLURM_PMIX_DIRECT_CONN_EARLY=false UCX_TLS=rc,shm srun --export SLURM_PMIX_DIRECT_CONN_UCX,SLURM_PMIX_DIRECT_CONN,OMPI_MCA_pml,OMPI_MCA_btl, UCX_NET_DEVICES,SLURM_PMIX_DIRECT_CONN_EARLY,UCX_TLS --mpi=pmix -N 2 -n 2 /data/mpihello/mpihello<br>
><br>
><br>
> n2: Process 1 out of 2<br>
> n1: Process 0 out of 2<br>
><br>
><br>
> [root@n1 ~]# SLURM_PMIX_DIRECT_CONN_UCX=false SLURM_PMIX_DIRECT_CONN=true OMPI_MCA_pml=true OMPI_MCA_btl='^vader,tcp,openib' UCX_NET_DEVICES='mlx4_0:1'  SLURM_PMIX_DIRECT_CONN_EARLY=true UCX_TLS=rc,shm srun --export SLURM_PMIX_DIRECT_CONN_UCX,SLURM_PMIX_DIRECT_CONN,OMPI_MCA_pml,OMPI_MCA_btl, UCX_NET_DEVICES,SLURM_PMIX_DIRECT_CONN_EARLY,UCX_TLS --mpi=pmix -N 2 -n 2 /data/mpihello/mpihello<br>
><br>
><br>
> n2: Process 1 out of 2<br>
> n1: Process 0 out of 2<br>
><br>
><br>
> Executing mpirun directly (same env vars, without the slurm vars) works, so UCX appears to function correctly.<br>
><br>
><br>
> If both SLURM_PMIX_DIRECT_CONN_EARLY=true and SLURM_PMIX_DIRECT_CONN_UCX=true then I get collective timeout errors from mellanox/hcoll and glibc detected /data/mpihello/mpihello: malloc(): memory corruption (fast)<br>
><br>
><br>
> Can anyone help using PMIx direct connection with UCX in Slurm?<br>
><br>
><br>
><br>
><br>
> Some info about my setup:<br>
><br>
><br>
> UCX version<br>
><br>
> [root@n1 ~]# ucx_info -v<br>
><br>
> # UCT version=1.5.0 revision 02078b9<br>
> # configured with: --build=x86_64-redhat-linux-gnu --host=x86_64-redhat-linux-gnu --target=x86_64-redhat-linux-gnu --program-prefix= --prefix=/usr --exec-prefix=/usr --bindir=/usr/bin --sbindir=/usr/sbin --sysconfdir=/etc --datadir=/usr/share --includedir=/usr/include --libdir=/usr/lib64 --libexecdir=/usr/libexec --localstatedir=/var --sharedstatedir=/var/lib --mandir=/usr/share/man --infodir=/usr/share/info --disable-optimizations --disable-logging --disable-debug --disable-assertions --enable-mt --disable-params-check<br>
><br>
><br>
> Mellanox OFED version:<br>
><br>
> [root@n1 ~]# ofed_info -s<br>
> OFED-internal-4.5-1.0.1:<br>
><br>
><br>
> Slurm:<br>
><br>
> slurm was built with:<br>
> rpmbuild -ta slurm-19.05.0.tar.bz2 --without debug --with ucx --define '_with_pmix --with-pmix=/usr'<br>
><br>
><br>
> PMIx:<br>
><br>
> [root@n1 ~]# pmix_info -c --parsable<br>
> config:user:root<br>
> config:timestamp:"Mon Mar 25 09:51:04 IST 2019"<br>
> config:host:slurm-test<br>
> config:cli: '--host=x86_64-redhat-linux-gnu' '--build=x86_64-redhat-linux-gnu' '--program-prefix=' '--prefix=/usr' '--exec-prefix=/usr' '--bindir=/usr/bin' '--sbindir=/usr/sbin' '--sysconfdir=/etc' '--datadir=/usr/share' '--includedir=/usr/include' '--libdir=/usr/lib64' '--libexecdir=/usr/libexec' '--localstatedir=/var' '--sharedstatedir=/var/lib' '--mandir=/usr/share/man' '--infodir=/usr/share/info'<br>
><br>
><br>
> Thanks,<br>
><br>
> --Dani_L.<br>
><br>
> --<br>
> You received this message because you are subscribed to the Google Groups "pmix" group.<br>
> To unsubscribe from this group and stop receiving emails from it, send an email to <a href="mailto:pmix%2Bunsubscribe@googlegroups.com" target="_blank">pmix+unsubscribe@googlegroups.com</a>.<br>
> To post to this group, send email to <a href="mailto:pmix@googlegroups.com" target="_blank">pmix@googlegroups.com</a>.<br>
> Visit this group at <a href="https://groups.google.com/group/pmix" rel="noreferrer" target="_blank">https://groups.google.com/group/pmix</a>.<br>
> To view this discussion on the web visit <a href="https://groups.google.com/d/msgid/pmix/ce4a81a4-b3f7-48ce-4b9c-a5ebb098862c%40letai.org.il" rel="noreferrer" target="_blank">https://groups.google.com/d/msgid/pmix/ce4a81a4-b3f7-48ce-4b9c-a5ebb098862c%40letai.org.il</a>.<br>
> For more options, visit <a href="https://groups.google.com/d/optout" rel="noreferrer" target="_blank">https://groups.google.com/d/optout</a>.<br>
> --<br>
> You received this message because you are subscribed to the Google Groups "pmix" group.<br>
> To unsubscribe from this group and stop receiving emails from it, send an email to <a href="mailto:pmix%2Bunsubscribe@googlegroups.com" target="_blank">pmix+unsubscribe@googlegroups.com</a>.<br>
> To post to this group, send email to <a href="mailto:pmix@googlegroups.com" target="_blank">pmix@googlegroups.com</a>.<br>
> Visit this group at <a href="https://groups.google.com/group/pmix" rel="noreferrer" target="_blank">https://groups.google.com/group/pmix</a>.<br>
> To view this discussion on the web visit <a href="https://groups.google.com/d/msgid/pmix/DB6PR0501MB2791254A7057631C06FA094DBAF10%40DB6PR0501MB2791.eurprd05.prod.outlook.com" rel="noreferrer" target="_blank">https://groups.google.com/d/msgid/pmix/DB6PR0501MB2791254A7057631C06FA094DBAF10%40DB6PR0501MB2791.eurprd05.prod.outlook.com</a>.<br>
> For more options, visit <a href="https://groups.google.com/d/optout" rel="noreferrer" target="_blank">https://groups.google.com/d/optout</a>.<br>
><br>
> --<br>
> You received this message because you are subscribed to the Google Groups "pmix" group.<br>
> To unsubscribe from this group and stop receiving emails from it, send an email to <a href="mailto:pmix%2Bunsubscribe@googlegroups.com" target="_blank">pmix+unsubscribe@googlegroups.com</a>.<br>
> To post to this group, send email to <a href="mailto:pmix@googlegroups.com" target="_blank">pmix@googlegroups.com</a>.<br>
> Visit this group at <a href="https://groups.google.com/group/pmix" rel="noreferrer" target="_blank">https://groups.google.com/group/pmix</a>.<br>
> To view this discussion on the web visit <a href="https://groups.google.com/d/msgid/pmix/62424be1-1f5f-43cb-9901-07a0a03915f0%40letai.org.il" rel="noreferrer" target="_blank">https://groups.google.com/d/msgid/pmix/62424be1-1f5f-43cb-9901-07a0a03915f0%40letai.org.il</a>.<br>
> For more options, visit <a href="https://groups.google.com/d/optout" rel="noreferrer" target="_blank">https://groups.google.com/d/optout</a>.<br>
<br>
</blockquote></div></div>