<div dir="ltr">Sounds like maybe you didn't correctly roll out / update your slurm.conf everywhere as your RealMemory value is back to your large wrong number.  You need to update your slurm.conf everywhere and restart all the slurm daemons.<div><br></div><div>I recommend the "safe procedure" from here: <a href="https://wiki.fysik.dtu.dk/niflheim/SLURM#add-and-remove-nodes">https://wiki.fysik.dtu.dk/niflheim/SLURM#add-and-remove-nodes</a></div><div>Your Bright manual may have a similar process for updating SLURM config "the Bright way".</div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Thu, Aug 29, 2019 at 12:20 PM Robert Kudyba <<a href="mailto:rkudyba@fordham.edu">rkudyba@fordham.edu</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">I thought I had taken care of this a while back but it appears the issue has returned. A very simply sbatch slurmhello.sh:<br>

 cat slurmhello.sh<br>

#!/bin/sh<br>

#SBATCH -o my.stdout<br>

#SBATCH -N 3<br>

#SBATCH --ntasks=16<br>

module add shared openmpi/gcc/64/1.10.7 slurm<br>

mpirun hello<br>

<br>

sbatch slurmhello.sh<br>

Submitted batch job 419<br>

<br>

squeue<br>

             JOBID PARTITION     NAME     USER ST       TIME  NODES NODELIST(REASON)<br>

               419      defq slurmhel     root PD       0:00      3 (Resources)<br>

<br>

In /etc/slurm/slurm.conf:<br>

# Nodes<br>

NodeName=node[001-003]  CoresPerSocket=12 RealMemory=196489092 Sockets=2 Gres=gpu:1<br>

<br>

Logs show:<br>

[2019-08-29T14:24:40.025] error: _slurm_rpc_node_registration node=node001: Invalid argument<br>

[2019-08-29T14:24:40.025] error: Node node002 has low real_memory size (191840 < 196489092)<br>

[2019-08-29T14:24:40.025] error: _slurm_rpc_node_registration node=node002: Invalid argument<br>

[2019-08-29T14:24:40.026] error: Node node003 has low real_memory size (191840 < 196489092)<br>

[2019-08-29T14:24:40.026] error: _slurm_rpc_node_registration node=node003: Invalid argument<br>

<br>

scontrol show jobid -dd 419<br>

JobId=419 JobName=slurmhello.sh<br>

   UserId=root(0) GroupId=root(0) MCS_label=N/A<br>

   Priority=4294901759 Nice=0 Account=root QOS=normal<br>

   JobState=PENDING Reason=Resources Dependency=(null)<br>

   Requeue=1 Restarts=0 BatchFlag=1 Reboot=0 ExitCode=0:0<br>

   DerivedExitCode=0:0<br>

   RunTime=00:00:00 TimeLimit=UNLIMITED TimeMin=N/A<br>

   SubmitTime=2019-08-28T09:54:22 EligibleTime=2019-08-28T09:54:22<br>

   StartTime=Unknown EndTime=Unknown Deadline=N/A<br>

   PreemptTime=None SuspendTime=None SecsPreSuspend=0<br>

   LastSchedEval=2019-08-28T09:57:22<br>

   Partition=defq AllocNode:Sid=ourcluster:194152<br>

   ReqNodeList=(null) ExcNodeList=(null)<br>

   NodeList=(null)<br>

   NumNodes=3-3 NumCPUs=16 NumTasks=16 CPUs/Task=1 ReqB:S:C:T=0:0:*:*<br>

   TRES=cpu=16,node=3<br>

   Socks/Node=* NtasksPerN:B:S:C=0:0:*:* CoreSpec=*<br>

   MinCPUsNode=1 MinMemoryNode=0 MinTmpDiskNode=0<br>

   Features=(null) DelayBoot=00:00:00<br>

   Gres=(null) Reservation=(null)<br>

   OverSubscribe=YES Contiguous=0 Licenses=(null) Network=(null)<br>

   Command=/root/slurmhello.sh<br>

   WorkDir=/root<br>

   StdErr=/root/my.stdout<br>

   StdIn=/dev/null<br>

   StdOut=/root/my.stdout<br>

   Power=<br>

<br>

scontrol show nodes node001<br>

NodeName=node001 Arch=x86_64 CoresPerSocket=12<br>

   CPUAlloc=0 CPUErr=0 CPUTot=24 CPULoad=0.06<br>

   AvailableFeatures=(null)<br>

   ActiveFeatures=(null)<br>

   Gres=gpu:1<br>

   NodeAddr=node001 NodeHostName=node001 Version=17.11<br>

   OS=Linux 3.10.0-862.2.3.el7.x86_64 #1 SMP Wed May 9 18:05:47 UTC 2018<br>

   RealMemory=196489092 AllocMem=0 FreeMem=99923 Sockets=2 Boards=1<br>

   State=IDLE+DRAIN ThreadsPerCore=1 TmpDisk=0 Weight=1 Owner=N/A MCS_label=N/A<br>

   Partitions=defq<br>

   BootTime=2019-07-18T12:08:41 SlurmdStartTime=2019-07-18T12:09:44<br>

   CfgTRES=cpu=24,mem=196489092M,billing=24<br>

   AllocTRES=<br>

   CapWatts=n/a<br>

   CurrentWatts=0 LowestJoules=0 ConsumedJoules=0<br>

   ExtSensorsJoules=n/s ExtSensorsWatts=0 ExtSensorsTemp=n/s<br>

   Reason=Low RealMemory [slurm@2019-07-18T10:17:24]<br>

<br>

[root@ciscluster ~]# scontrol show nodes| grep -i mem<br>

   RealMemory=196489092 AllocMem=0 FreeMem=99923 Sockets=2 Boards=1<br>

   CfgTRES=cpu=24,mem=196489092M,billing=24<br>

   Reason=Low RealMemory [slurm@2019-07-18T10:17:24]<br>

   RealMemory=196489092 AllocMem=0 FreeMem=180969 Sockets=2 Boards=1<br>

   CfgTRES=cpu=24,mem=196489092M,billing=24<br>

   Reason=Low RealMemory [slurm@2019-07-18T10:17:24]<br>

   RealMemory=196489092 AllocMem=0 FreeMem=178999 Sockets=2 Boards=1<br>

   CfgTRES=cpu=24,mem=196489092M,billing=24<br>

   Reason=Low RealMemory [slurm@2019-07-18T10:17:24]<br>

<br>

sinfo -R<br>

REASON               USER      TIMESTAMP           NODELIST<br>

Low RealMemory       slurm     2019-07-18T10:17:24 node[001-003]<br>

<br>

sinfo -N<br>

NODELIST   NODES PARTITION STATE<br>

node001        1     defq* drain<br>

node002        1     defq* drain<br>

node003        1     defq* drain<br>

<br>

pdsh -w node00[1-3]  "lscpu | grep -iE 'socket|core'"<br>

node002: Thread(s) per core:    1<br>

node002: Core(s) per socket:    12<br>

node002: Socket(s):             2<br>

node001: Thread(s) per core:    1<br>

node001: Core(s) per socket:    12<br>

node001: Socket(s):             2<br>

node003: Thread(s) per core:    2<br>

node003: Core(s) per socket:    12<br>

node003: Socket(s):             2<br>

<br>

scontrol show nodes| grep -i mem<br>

   RealMemory=196489092 AllocMem=0 FreeMem=100054 Sockets=2 Boards=1<br>

   CfgTRES=cpu=24,mem=196489092M,billing=24<br>

   Reason=Low RealMemory [slurm@2019-07-18T10:17:24]<br>

   RealMemory=196489092 AllocMem=0 FreeMem=181101 Sockets=2 Boards=1<br>

   CfgTRES=cpu=24,mem=196489092M,billing=24<br>

   Reason=Low RealMemory [slurm@2019-07-18T10:17:24]<br>

   RealMemory=196489092 AllocMem=0 FreeMem=179004 Sockets=2 Boards=1<br>

   CfgTRES=cpu=24,mem=196489092M,billing=24<br>

   Reason=Low RealMemory<br>

<br>

Does anything look off?<br>

</blockquote></div>