<div dir="ltr">Solution: `UsePAM=1` in the slurm.conf, and `ln -s /etc/pam.d/sshd /etc/pam.d/slurm`<div><br></div><div>The documentation of UsePAM in <a href="https://slurm.schedmd.com/slurm.conf.html">https://slurm.schedmd.com/slurm.conf.html</a> is actually quite clear - when googling, I somehow I was just confused by the various references to pam_slurm / pam_slurm_adopt</div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Tue, 10 Oct 2023 at 22:56, Leopold Talirz <<a href="mailto:leopold.talirz@gmail.com">leopold.talirz@gmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr">Hi,<div><br></div><div>I have an issue with SLURM (20.11.9) in conjunction with LDAP user accounts.</div><div><br></div><div>Both the scheduler node, where slurmctld is running, and the worker nodes that are spun up by slurm are running the SSSD, which fetches user accounts from an external LDAP server.</div><div><br></div><div>This works fine: I can log into the scheduler _and_ the worker nodes using SSH as an LDAP user without problems.</div><div>This does not work: If, instead of SSH, I connect to a worker node via a slurm job, i.e. using `srun` (or `sbatch`), I get</div><div><br></div><div>whoami: cannot find name for user ID 1290486416<br></div><div><br></div><div>It seems that, for some reason, SLURM does not rely on the same authentication mechanism (configured via /etc/pam.d/*) as SSH.<br></div><div><br></div><div>Any ideas what may be causing this or which logs I should be looking at to understand what is going on here?<br></div><div><br></div><div>Potentially relevant further information:</div><div>- The scheduler is running CentOS 7.9 (meaning /etc/pam.d is configured via the older authconfig), while the worker nodes are running AlmaLinux 8.7 (meaning /etc/pam.d is configured via the newer authselect). As described above, both work fine when connecting via SSH, but I don't know whether slurm imposes additional requirements between the scheduler VM and the workers.</div><div>- After I log in via SSH to one of the worker nodes for the first time, `srun` then also starts working (it recognizes the user account, apparently it is now seeing it in some cache). However, there are still differences between the user state when logging via SSH and via srun - for example, when using `srun` the user account does not have access to /dev/nvidia* devices, i.e. nvidia-smi shows "no devices found", while logging in via SSH shows the devices correctly.</div><div><br></div><div>Best wishes,<br>Leopold</div></div>
</blockquote></div>