<div dir="ltr"><div>My server was having issues yesterday so I rebooted it last night but slurm has not been working properly ever since the reboot.  I've rebooted other machines too in the same time and they work completely fine but this one in particular cannot submit any srun/sbatch commands due to a "invalid node name" error.  I don't see anything wrong with what I'm doing and DNS is working completely fine.  <br></div><div><br></div><div># on slurmd node<br></div><div><span style="font-family:courier new,monospace">[bwong1@mk-gpu-2 ~]$ srun /bin/hostname</span></div><div><span style="font-family:courier new,monospace">srun: error: Unable to allocate resources: Invalid node name specified</span></div><div><br></div><div># from slurmctld</div><div><span style="font-family:courier new,monospace">[root@mk-slurm slurm]# ping mk-gpu-2<br>PING <a href="http://mk-gpu-2.c.keiserlab.org">mk-gpu-2.c.keiserlab.org</a> (10.10.100.109) 56(84) bytes of data.<br>64 bytes from <a href="http://mk-gpu-2.c.keiserlab.org">mk-gpu-2.c.keiserlab.org</a> (10.10.100.109)</span></div><div><br></div><div># on slurmctld.log, (19015 is my UID)<br></div><div><span style="font-family:courier new,monospace">slurmctld: error: slurm_auth_get_host: Lookup failed: Unknown host<br>slurmctld: error: REQUEST_RESOURCE_ALLOCATE lacks alloc_node from uid=19015<br>slurmctld: _slurm_rpc_allocate_resources: Invalid node name specified<br>slurmctld: error: slurm_auth_get_host: Lookup failed: Unknown host<br>slurmctld: error: REQUEST_RESOURCE_ALLOCATE lacks alloc_node from uid=19015<br>slurmctld: _slurm_rpc_allocate_resources: Invalid node name specified</span></div><div><br></div><div># relevant portions of slurm.conf<br><span style="font-family:courier new,monospace">NodeName=mk-gpu-2 NodeAddr=10.10.100.109 RealMemory=750000 Gres=gpu:8 Sockets=2 CoresPerSocket=16 ThreadsPerCore=2 State=UNKNOWN<br>PartitionName=all.q Nodes=ALL Default=YES MaxTime=INFINITE State=UP</span><br></div><div><br></div><div>Any ideas for what's causing this "unknown host" error?  I have the proper hostname and IP address in the slurm.conf so I'm not sure what else is going on.</div><div><br></div><div>Thanks,</div><div>Benjamin Wong<br></div></div>