<div dir="ltr"><div>Hi Kota,</div><div><br></div><div>This is from the job template that I give to my users:</div><div><br></div><div># Collect some information about the execution environment that may <br># be useful should we need to do some debugging.  <br><br>echo "CREATING DEBUG DIRECTORY"<br>echo<br><br>mkdir .debug_info<br>module list > .debug_info/environ_modules 2>&1<br>ulimit -a > .debug_info/limits 2>&1<br>hostname > .debug_info/environ_hostname 2>&1<br>env |grep SLURM > .debug_info/environ_slurm 2>&1<br>env |grep OMP |grep -v OMPI > .debug_info/environ_omp 2>&1<br>env |grep OMPI > .debug_info/environ_openmpi 2>&1<br>env > .debug_info/environ 2>&1<br><br>if [ ! -z ${CUDA_VISIBLE_DEVICES+x} ]; then<br>        echo "SAVING CUDA ENVIRONMENT"<br>        echo <br>        env |grep CUDA > .debug_info/environ_cuda 2>&1<br>fi</div><div><br></div><div>You could add something like this to one of the SLURM prologs to save the GPU list of jobs.</div><div><br></div><div>Best,</div><div><br></div><div>David<br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Thu, Jun 4, 2020 at 4:02 AM Kota Tsuyuzaki <<a href="mailto:kota.tsuyuzaki.pc@hco.ntt.co.jp">kota.tsuyuzaki.pc@hco.ntt.co.jp</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Hello Guys,<br>
<br>
We are running GPU clusters with Slurm and SlurmDBD (version 19.05 series) and some of GPUs seemed to get troubles for attached<br>
jobs. To investigate if the troubles happened on the same GPUs, I'd like to get GPU indices of the completed jobs.<br>
<br>
In my understanding `scontrol show job` can show the indices (as IDX in gres info) but cannot be used for completed job. And also<br>
`sacct -j` is available for complete jobs but won't print the indices.<br>
<br>
Is there any way (commands, configurations, etc...) to see the allocated GPU indices for completed jobs?<br>
<br>
Best regards,<br>
<br>
--------------------------------------------<br>
露崎 浩太 (Kota Tsuyuzaki)<br>
<a href="mailto:kota.tsuyuzaki.pc@hco.ntt.co.jp" target="_blank">kota.tsuyuzaki.pc@hco.ntt.co.jp</a><br>
NTTソフトウェアイノベーションセンタ<br>
分散処理基盤技術プロジェクト<br>
0422-59-2837<br>
---------------------------------------------<br>
<br>
<br>
<br>
<br>
<br>
</blockquote></div>