<div dir="ltr">Hi Brian,<br><br>My hosts file looks like this:<br><font face="monospace">127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4<br>::1         localhost localhost.localdomain localhost6 localhost6.localdomain6</font><br><br>I believe the second is an IPV6 address. Is it safe to delete that line?<br><br>Best,<br>John<br><br><br>On Mon, Dec 14, 2020 at 11:10 PM Brian Andrus <<a href="mailto:toomuchit@gmail.com">toomuchit@gmail.com</a>> wrote:<br>><br>> Check your hosts file and ensure 'localhost' does not have an IPV6<br>> address associated with it.<br>><br>> Brian Andrus<br>><br>> On 12/14/2020 4:19 PM, Alpha Experiment wrote:<br>> > Hi,<br>> ><br>> > I am trying to run slurm on Fedora 33. Upon boot the slurmd daemon is<br>> > running correctly; however the slurmctld daemon always errors.<br>> > [admin@localhost ~]$ systemctl status slurmd.service<br>> > ● slurmd.service - Slurm node daemon<br>> >      Loaded: loaded (/etc/systemd/system/slurmd.service; enabled;<br>> > vendor preset: disabled)<br>> >      Active: active (running) since Mon 2020-12-14 16:02:18 PST; 11min ago<br>> >    Main PID: 2363 (slurmd)<br>> >       Tasks: 2<br>> >      Memory: 3.4M<br>> >         CPU: 211ms<br>> >      CGroup: /system.slice/slurmd.service<br>> >              └─2363 /usr/local/sbin/slurmd -D<br>> > Dec 14 16:02:18 localhost.localdomain systemd[1]: Started Slurm node<br>> > daemon.<br>> > [admin@localhost ~]$ systemctl status slurmctld.service<br>> > ● slurmctld.service - Slurm controller daemon<br>> >      Loaded: loaded (/etc/systemd/system/slurmctld.service; enabled;<br>> > vendor preset: disabled)<br>> >     Drop-In: /etc/systemd/system/slurmctld.service.d<br>> >              └─override.conf<br>> >      Active: failed (Result: exit-code) since Mon 2020-12-14 16:02:12<br>> > PST; 11min ago<br>> >     Process: 1972 ExecStart=/usr/local/sbin/slurmctld -D<br>> > $SLURMCTLD_OPTIONS (code=exited, status=1/FAILURE)<br>> >    Main PID: 1972 (code=exited, status=1/FAILURE)<br>> >         CPU: 21ms<br>> > Dec 14 16:02:12 localhost.localdomain systemd[1]: Started Slurm<br>> > controller daemon.<br>> > Dec 14 16:02:12 localhost.localdomain systemd[1]: slurmctld.service:<br>> > Main process exited, code=exited, status=1/FAILURE<br>> > Dec 14 16:02:12 localhost.localdomain systemd[1]: slurmctld.service:<br>> > Failed with result 'exit-code'.<br>> ><br>> > The slurmctld log is as follows:<br>> > [2020-12-14T16:02:12.731] slurmctld version 20.11.1 started on cluster<br>> > cluster<br>> > [2020-12-14T16:02:12.739] No memory enforcing mechanism configured.<br>> > [2020-12-14T16:02:12.772] error: get_addr_info: getaddrinfo() failed:<br>> > Name or service not known<br>> > [2020-12-14T16:02:12.772] error: slurm_set_addr: Unable to resolve<br>> > "localhost"<br>> > [2020-12-14T16:02:12.772] error: slurm_get_port: Address family '0'<br>> > not supported<br>> > [2020-12-14T16:02:12.772] error: _set_slurmd_addr: failure on localhost<br>> > [2020-12-14T16:02:12.772] Recovered state of 1 nodes<br>> > [2020-12-14T16:02:12.772] Recovered information about 0 jobs<br>> > [2020-12-14T16:02:12.772] select/cons_tres: part_data_create_array:<br>> > select/cons_tres: preparing for 1 partitions<br>> > [2020-12-14T16:02:12.779] Recovered state of 0 reservations<br>> > [2020-12-14T16:02:12.779] read_slurm_conf: backup_controller not specified<br>> > [2020-12-14T16:02:12.779] select/cons_tres: select_p_reconfigure:<br>> > select/cons_tres: reconfigure<br>> > [2020-12-14T16:02:12.779] select/cons_tres: part_data_create_array:<br>> > select/cons_tres: preparing for 1 partitions<br>> > [2020-12-14T16:02:12.779] Running as primary controller<br>> > [2020-12-14T16:02:12.780] No parameter for mcs plugin, default values set<br>> > [2020-12-14T16:02:12.780] mcs: MCSParameters = (null). ondemand set.<br>> > [2020-12-14T16:02:12.780] error: get_addr_info: getaddrinfo() failed:<br>> > Name or service not known<br>> > [2020-12-14T16:02:12.780] error: slurm_set_addr: Unable to resolve<br>> > "(null)"<br>> > [2020-12-14T16:02:12.780] error: slurm_set_port: attempting to set<br>> > port without address family<br>> > [2020-12-14T16:02:12.782] error: Error creating slurm stream socket:<br>> > Address family not supported by protocol<br>> > [2020-12-14T16:02:12.782] fatal: slurm_init_msg_engine_port error<br>> > Address family not supported by protocol<br>> ><br>> > Strangely, the daemon works fine when it is rebooted. After running<br>> > systemctl restart slurmctld.service<br>> ><br>> > the service status is<br>> > [admin@localhost ~]$ systemctl status slurmctld.service<br>> > ● slurmctld.service - Slurm controller daemon<br>> >      Loaded: loaded (/etc/systemd/system/slurmctld.service; enabled;<br>> > vendor preset: disabled)<br>> >     Drop-In: /etc/systemd/system/slurmctld.service.d<br>> >              └─override.conf<br>> >      Active: active (running) since Mon 2020-12-14 16:14:24 PST; 3s ago<br>> >    Main PID: 2815 (slurmctld)<br>> >       Tasks: 7<br>> >      Memory: 1.9M<br>> >         CPU: 15ms<br>> >      CGroup: /system.slice/slurmctld.service<br>> >              └─2815 /usr/local/sbin/slurmctld -D<br>> > Dec 14 16:14:24 localhost.localdomain systemd[1]: Started Slurm<br>> > controller daemon.<br>> ><br>> > Could anyone point me towards how to fix this? I expect it's just an<br>> > issue with my configuration file, which I've copied below for reference.<br>> > # slurm.conf file generated by configurator easy.html.<br>> > # Put this file on all nodes of your cluster.<br>> > # See the slurm.conf man page for more information.<br>> > #<br>> > #SlurmctldHost=localhost<br>> > ControlMachine=localhost<br>> > #<br>> > #MailProg=/bin/mail<br>> > MpiDefault=none<br>> > #MpiParams=ports=#-#<br>> > ProctrackType=proctrack/cgroup<br>> > ReturnToService=1<br>> > SlurmctldPidFile=/home/slurm/run/slurmctld.pid<br>> > #SlurmctldPort=6817<br>> > SlurmdPidFile=/home/slurm/run/slurmd.pid<br>> > #SlurmdPort=6818<br>> > SlurmdSpoolDir=/var/spool/slurm/slurmd/<br>> > SlurmUser=slurm<br>> > #SlurmdUser=root<br>> > StateSaveLocation=/home/slurm/spool/<br>> > SwitchType=switch/none<br>> > TaskPlugin=task/affinity<br>> > #<br>> > #<br>> > # TIMERS<br>> > #KillWait=30<br>> > #MinJobAge=300<br>> > #SlurmctldTimeout=120<br>> > #SlurmdTimeout=300<br>> > #<br>> > #<br>> > # SCHEDULING<br>> > SchedulerType=sched/backfill<br>> > SelectType=select/cons_tres<br>> > SelectTypeParameters=CR_Core<br>> > #<br>> > #<br>> > # LOGGING AND ACCOUNTING<br>> > AccountingStorageType=accounting_storage/none<br>> > ClusterName=cluster<br>> > #JobAcctGatherFrequency=30<br>> > JobAcctGatherType=jobacct_gather/none<br>> > #SlurmctldDebug=info<br>> > SlurmctldLogFile=/home/slurm/log/slurmctld.log<br>> > #SlurmdDebug=info<br>> > #SlurmdLogFile=<br>> > #<br>> > #<br>> > # COMPUTE NODES<br>> > NodeName=localhost CPUs=128 RealMemory=257682 Sockets=1<br>> > CoresPerSocket=64 ThreadsPerCore=2 State=UNKNOWN<br>> > PartitionName=full Nodes=localhost Default=YES MaxTime=INFINITE State=UP<br>> ><br>> > Thanks!<br>> > -John</div>