<div dir="ltr">Hi,<div><br></div><div>Can you post the output of the following commands on your master node?:</div><div><br></div><div>sacctmgr show cluster<br></div><div><br></div><div>scontrol show nodes</div><div><br></div><div>Best,</div><div><div style="color:rgb(0,0,0)">Durai Arasan</div><div style="color:rgb(0,0,0)"><div dir="ltr"><div>Zentrum für Datenverarbeitung</div><div>Tübingen</div></div></div></div><div><br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Tue, Jun 30, 2020 at 10:33 AM Alberto Morillas, Angelines <<a href="mailto:angelines.alberto@ciemat.es" target="_blank">angelines.alberto@ciemat.es</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">





<div lang="ES">
<div>
<p class="MsoNormal"><span style="font-size:11pt">Hi, <u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:11pt"><u></u> <u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:11pt">We have slurm version 18.08.6
<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:11pt">One of my nodes is in drain state Reason=Kill task failed [root@2020-06-27T02:25:29]<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:11pt"><u></u> <u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:11pt">In the node I can see in the slurmd.log<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:11pt"><u></u> <u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:11pt">2020-06-27T01:24:26.242] task_p_slurmd_batch_request: 963771<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:11pt">[2020-06-27T01:24:26.242] task/affinity: job 963771 CPU input mask for node: 0x0FFFFFFFFF<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:11pt">[2020-06-27T01:24:26.242] task/affinity: job 963771 CPU final HW mask for node: 0x55FFFFFFFF<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:11pt">[2020-06-27T01:24:26.247] _run_prolog: run job script took usec=4537<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:11pt">[2020-06-27T01:24:26.247] _run_prolog: prolog with lock for job 963771 ran for 0 seconds<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:11pt">[<span style="color:red">2020-06-27T01:24:26.247]
</span>Launching batch job 963771 for UID 5200<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:11pt">[2020-06-27T01:24:26.276] [963771.batch] task/cgroup: /slurm/uid_5200/job_963771: alloc=147456MB mem.limit=147456MB memsw.limit=147456MB<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:11pt">[2020-06-27T01:24:26.284] [963771.batch] task/cgroup: /slurm/uid_5200/job_963771/step_batch: alloc=147456MB mem.limit=147456MB memsw.limit=147456MB<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:11pt">[2020-06-27T01:24:26.310] [963771.batch] task_p_pre_launch: Using sched_affinity for tasks<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:11pt;color:red">[2020-06-27T02:24:26.933</span><span lang="EN-US" style="font-size:11pt">] [963771.batch] error: *** JOB 963771 ON node0802
<span style="color:red">CANCELLED </span>AT 2020-06-27T02:24:26 <span style="color:red">
DUE TO TIME LIMIT </span>***<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:11pt">[2020-06-27T02:25:27.009] [963771.batch] error: *** JOB 963771 STEPD TERMINATED ON node0802 AT 2020-06-27T02:25:27 DUE TO JOB NOT ENDING WITH SIGNALS ***<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:11pt">[2020-06-27T02:25:27.009] [963771.batch] sending REQUEST_COMPLETE_BATCH_SCRIPT, error:4001 status 15<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:11pt">[2020-06-27T02:25:27.011] [963771.batch] done with job<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:11pt"><u></u> <u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:11pt">If I try to get information about this job nothing get<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:11pt"><u></u> <u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:11pt">sacct -j 963771 <u></u>
<u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:11pt">       JobID    JobName  Partition    Account  AllocCPUS      State   ExitCode
<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:11pt">     ------------ ----------     ----------      ----------     ----------      ----------   --------<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:11pt"><u></u> <u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:11pt">Why I don`t get information about this job???
<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:11pt"><u></u> <u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:11pt">Thanks in advance<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:11pt">Angelines<u></u><u></u></span></p>
<div>
<div>
<p class="MsoNormal"><span style="font-size:10pt;font-family:"Courier New";color:black">________________________________________________<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:10pt;font-family:"Courier New";color:black"><u></u> <u></u></span></p>
<p class="MsoNormal"><span style="font-size:10pt;font-family:"Courier New";color:black">Angelines Alberto Morillas<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:10pt;font-family:"Courier New";color:black"><u></u> <u></u></span></p>
<p class="MsoNormal"><span style="font-size:10pt;font-family:"Courier New";color:black">Unidad de Arquitectura Informática<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:10pt;font-family:"Courier New";color:black">Despacho: 22.1.32<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:10pt;font-family:"Courier New";color:black">Telf.: +34 91 346 6119<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:10pt;font-family:"Courier New";color:black">Fax:   +34 91 346 6537<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:10pt;font-family:"Courier New";color:black"><u></u> <u></u></span></p>
<p class="MsoNormal"><span style="font-size:10pt;font-family:"Courier New";color:black">skype: angelines.alberto<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:10pt;font-family:"Courier New";color:black"><u></u> <u></u></span></p>
<p class="MsoNormal"><span style="font-size:10pt;font-family:"Courier New";color:black">CIEMAT<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:10pt;font-family:"Courier New";color:black">Avenida Complutense, 40<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:10pt;font-family:"Courier New";color:black">28040 MADRID<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:10pt;font-family:"Courier New";color:black">________________________________________________
<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:11pt"><u></u> <u></u></span></p>
</div>
</div>
<p class="MsoNormal"><u></u> <u></u></p>
</div>
</div>

</blockquote></div>