<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=us-ascii">
<style type="text/css" style="display:none;"> P {margin-top:0;margin-bottom:0;} </style>
</head>
<body dir="ltr">
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);">
Any error in slurmd.log on the node or slurmctld.log on the ctl?</div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);">
<br>
</div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);">
Sean<br>
</div>
<div id="appendonsend"></div>
<hr style="display:inline-block;width:98%" tabindex="-1">
<div id="divRplyFwdMsg" dir="ltr"><font face="Calibri, sans-serif" style="font-size:11pt" color="#000000"><b>From:</b> slurm-users <slurm-users-bounces@lists.schedmd.com> on behalf of Wayne Hendricks <waynehendricks@gmail.com><br>
<b>Sent:</b> Saturday, 15 January 2022 16:04<br>
<b>To:</b> slurm-users@schedmd.com <slurm-users@schedmd.com><br>
<b>Subject:</b> [EXT] [slurm-users] Strange sbatch error with 21.08.2&5</font>
<div> </div>
</div>
<div class="BodyFragment"><font size="2"><span style="font-size:11pt;">
<div class="PlainText">External email: Please exercise caution<br>
<br>
Running test job with srun works:<br>
wayneh@login:~$ srun -G16 -p v100 /home/wayne.hendricks/job.sh<br>
179851<br>
Linux dgx1-1 5.4.0-94-generic #106-Ubuntu SMP Thu Jan 6 23:58:14 UTC<br>
2022 x86_64 x86_64 x86_64 GNU/Linux<br>
179851<br>
Linux dgx1-2 5.4.0-94-generic #106-Ubuntu SMP Thu Jan 6 23:58:14 UTC<br>
2022 x86_64 x86_64 x86_64 GNU/Linux<br>
<br>
Submitting the same with sbatch does not:<br>
wayneh@login:~$ sbatch test.sh<br>
Submitted batch job 179850<br>
wayneh@login:~$ cat test.out<br>
srun: error: Unable to create step for job 179850: Unspecified error<br>
wayneh@login:~$ cat test.sh<br>
#!/usr/bin/env bash<br>
#SBATCH -J testing<br>
#SBATCH -e /home/wayne.hendricks/test.out<br>
#SBATCH -o /home/wayne.hendricks/test.out<br>
#SBATCH -G 16<br>
#SBATCH --partition v100<br>
srun uname -a<br>
<br>
Any idea why srun and sbatch wouldn't run the same way? It seems to<br>
run correctly when I use an odd number of GPUs in sbatch. (#SBATCH -G<br>
15)<br>
<br>
Node config:<br>
NodeName=dgx1-[1-10] CPUs=80 Sockets=2 CoresPerSocket=20<br>
ThreadsPerCore=2 RealMemory=490000 Gres=gpu:8 State=UNKNOWN<br>
PartitionName=v100 Nodes=dgx1-[1-10] OverSubscribe=FORCE:8<br>
DefCpuPerGPU=10 DefMemPerGPU=61250 MaxTime=INFINITE State=UP<br>
<br>
</div>
</span></font></div>
</body>
</html>