<meta http-equiv="Content-Type" content="text/html; charset=utf-8"><div dir="ltr"><div>Hi Jason,</div><div><br></div><div>What happens when you try to run that command on the node? Is the exit status of the command 0?</div><div><br></div><div>e.g. for my servers, where lingering is masked, I get</div><div><br></div><div style="margin-left:40px">[root@thespian-gpgpu001 ~]# loginctl enable-linger scrosby<br>Could not enable linger: Unit is masked.<br>[root@thespian-gpgpu001 ~]# echo $?<br>1</div><div><br></div><div>Sean</div><div><br></div><div><div><div><div dir="ltr" class="gmail_signature" data-smartmail="gmail_signature">--<br>Sean Crosby | Senior DevOpsHPC Engineer and HPC Team Lead<br>Research Computing Services | Business Services<br>The University of Melbourne, Victoria 3010 Australia<br><br></div></div><br></div></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Wed, 8 Jul 2020 at 01:14, Jason Simms <<a href="mailto:simmsj@lafayette.edu">simmsj@lafayette.edu</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div><div><div style="color:rgb(0,0,0);font-size:12px;text-align:left;font-family:Helvetica,Arial,sans-serif"><strong>UoM notice: External email. Be cautious of links, attachments, or impersonation attempts.</strong><br></div><hr></div>Hello all,<br><br>Two users on my system experience job failures every time they submit a job via sbatch. When I run their exact submission script, or when I create a local system user and launch from there, the jobs run fine. Here is an example of what I see in the slurmd log:<br><br>[2020-07-06T15:02:41.284] task_p_slurmd_batch_request: 1421<br>[2020-07-06T15:02:41.284] task/affinity: job 1421 CPU input mask for node: 0x00000F0000<br>[2020-07-06T15:02:41.284] task/affinity: job 1421 CPU final HW mask for node: 0x00000F0000<br>[2020-07-06T15:02:41.295] _run_prolog: prolog with lock for job 1421 ran for 0 seconds<br>[2020-07-06T15:02:41.295] error: [job 1421] prolog failed status=1:0<br>[2020-07-06T15:02:41.295] Job 1421 already killed, do not launch batch job<br><br>The prolog file is simply:<br><br>#!/bin/bash<br>loginctl enable-linger $SLURM_JOB_USER<br><br>There seems to be some reason why certain users always encounter this, but I can't figure out why. Their accounts are no "different" than anyone else (not in a different group, etc.), so I don't think permissions are an issue.<br><br>Anyway, the job failure immediately puts the node into a DRAINED/DRAINING state (which is expected). But for now, these users cannot submit any jobs at all.</div><div><br></div><div>Any insights would be welcomed!<br><br>Warmest regards,<br>Jason</div><div><br></div>-- <br><div dir="ltr"><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div style="color:rgb(0,0,0);font-family:Helvetica;font-size:14px;margin:0px"><span style="color:rgb(130,36,51)"><font face="Century Gothic"><b>Jason L. Simms, Ph.D., M.P.H.</b></font></span></div><div style="color:rgb(0,0,0);font-family:Helvetica;font-size:14px;margin:0px"><font face="Century Gothic"><span>Manager of Research and High-Performance Computing</span></font></div><div style="color:rgb(0,0,0);font-family:Helvetica;font-size:14px;margin:0px"><font face="Century Gothic"><span>XSEDE Campus Champion<br></span><span style="color:gray">Lafayette College<br>Information Technology Services<br>710 Sullivan Rd | Easton, PA 18042<br>Office: 112 Skillman Library<br>p: (610) 330-5632</span></font></div></div></div></div></div></div></div></div></div></div>
</blockquote></div>