<div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr">Hi, all<br><br>We have one cluster with Slurm version 20.11.8 in CentOS 8.2. Suddenly it produces a wired problem proid for <b>only Pending job</b> will be cancelled since transport endpoint is not connected error(See image <a href="https://user-images.githubusercontent.com/19144683/229037078-ca704ba8-23a4-4948-9d1a-bacab82acd1f.png">https://user-images.githubusercontent.com/19144683/229037078-ca704ba8-23a4-4948-9d1a-bacab82acd1f.png</a>). The all jobs are submitted with srun command.<br>... ...<br>srun:job 6367724 queued and waiting for resources<br>srun:error:Unable to allocate resources: Transport endpoint is not connected<br>srun:job 6367725 queued and waiting for resources<br>srun:error: Unable to allocate resources: Transport endpoint is not connected<br>srun:job 6367726 queued and waiting for resources<br>srun:job 6367727 queued and waiting for resources<br>srun:job 6367728 queued and waiting for resources<br>srun:error: Unable to allocate resources: Transport endpoint is not connected<br>srun:Force Terminated job 6366908<br><br>[root@slurm-master01 bin]# journalctl --since today -p err __COMM=slurmctld<br>Mar 31 02:50:46 slurm-master01 slurmctld[220654]: error: slurm_receive_msgs: Transport endpoint is not connected<br>Mar 31 02:50:47 slurm-master01 slurmctld[220654]: error: slurm receive_msgs: Transport endpoint is not connected<br><div><br></div><div>According to <a href="https://github.com/SchedMD/slurm/blob/slurm-20-11-8-1/src/srun/libsrun/allocate.c#L182-L227">https://github.com/SchedMD/slurm/blob/slurm-20-11-8-1/src/srun/libsrun/allocate.c#L182-L227</a> , it seems OS issue? I've google for "transport endpoint is not connected", lots of references report that filesystem IO issue.So:</div><div>* How to avoid pending job will be cancelled for slurm</div><div>* What caused the slurmctld reported error</div><div><br></div><div>Thanks!</div></div></div></div></div></div>