<div dir="ltr">Hi,<div><br></div><div>I'm running a GPU cluster, and I would like to know if there is a way to allocate resource for jobs without causing GPU fragmentation.</div><div><br></div><div>Currently, I'm using</div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">SelectType=select/cons_res<br>SelectTypeParameters=CR_Core,CR_CORE_DEFAULT_DIST_BLOCK,CR_ONE_TASK_PER_CORE</blockquote><div>and over-subscribing of CPU cores is set.</div><div><br></div><div>Let's say there are nodes A and B, and each of nodes A and B has 4 GPUs and 40 CPU cores.</div><div>The problem is, if jobs 1 and 2 request 1 GPU and 30 CPU cores each, both of nodes A and B are selected for those jobs, which prevents a future job requiring 4 GPUs from running on any of the two nodes.</div><div><br></div><div>If I'm not wrong, a simple workaround might be not managing CPU cores via Slurm (e.g. CR_Memory), but it comes with downsides.</div><div><br></div><div>Could someone suggest any select plugins/parameters that can prevent such GPU fragmentation, please?</div><div><br></div><div>Best,</div><div>Jaekyeom</div><div><br></div></div>