<div dir="ltr">Thank you for your input Jason, I wasn't trying to "chide" you in any way. I appreciate your contribution to the discussion.  </div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Fri, Jun 4, 2021 at 11:37 AM Jason Simms <<a href="mailto:simmsj@lafayette.edu">simmsj@lafayette.edu</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div>You don't need to chide me for making what is, to me, a reasonable solution. *You* may not be able to make hardware changes, but why the people who can would want failing GPUs remaining in a system is anathema to my approach to cluster management. In other words, I do not recommend you try to find a workaround to a solution that, in my opinion, is best solved by eliminating the faulty hardware. I understand the impulse, and if there is a simple solution to specifying a specific GPU, then fine, do that. But again it goes against treating such resources as generic - nodes and hardware should be thought of as cattle, not pets, and should be managed accordingly. Again, I believe you are trying to solve a problem that should not be yours to solve. Sorry if this irritates you.</div><div><br></div><div>JLS<br> </div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Fri, Jun 4, 2021 at 2:17 PM Ahmad Khalifa <<a href="mailto:underoath006@gmail.com" target="_blank">underoath006@gmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr">I can't make hardware changes, but I still want to make use of the cluster. Let's keep the discussion on how to get slurm to do it, if that's possible. </div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Fri, Jun 4, 2021 at 11:13 AM Jason Simms <<a href="mailto:simmsj@lafayette.edu" target="_blank">simmsj@lafayette.edu</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div>Unpopular opinion: remove the failing GPU.</div><div><br></div><div>JLS<br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Fri, Jun 4, 2021 at 2:07 PM Ahmad Khalifa <<a href="mailto:underoath006@gmail.com" target="_blank">underoath006@gmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr">Because there are failing GPUs that I'm trying to avoid. </div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Fri, Jun 4, 2021 at 5:04 AM Stephan Roth <<a href="mailto:stephan.roth@ee.ethz.ch" target="_blank">stephan.roth@ee.ethz.ch</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">On 03.06.21 07:11, Ahmad Khalifa wrote:<br>
> How to send a job to a particular gpu card using its ID (0,1,2...etc)?<br>
<br>
Why do you need to access a GPU based on its ID?<br>
<br>
If its to select a certain GPU type, there are other methods you can use.<br>
<br>
You could create partitions for the same GPU types or add features.<br>
Due to our heterogenous nodes with mixed GPU types we do the latter, we <br>
added a feature for the GPU architectures and one for the GPU types to <br>
each node.<br>
<br>
Cheers,<br>
Stephan<br>
<br>
</blockquote></div>
</blockquote></div><br clear="all"><br>-- <br><div dir="ltr"><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div style="color:rgb(0,0,0);font-family:Helvetica;font-size:14px;margin:0px"><span style="color:rgb(130,36,51)"><font face="Century Gothic"><b>Jason L. Simms, Ph.D., M.P.H.</b></font></span></div><div style="color:rgb(0,0,0);font-family:Helvetica;font-size:14px;margin:0px"><font face="Century Gothic"><span>Manager of Research and High-Performance Computing</span></font></div><div style="color:rgb(0,0,0);font-family:Helvetica;font-size:14px;margin:0px"><font face="Century Gothic"><span>XSEDE Campus Champion<br></span><span style="color:gray">Lafayette College<br>Information Technology Services<br>710 Sullivan Rd | Easton, PA 18042<br>Office: 112 Skillman Library<br>p: (610) 330-5632</span></font></div></div></div></div></div></div></div></div></div>
</blockquote></div>
</blockquote></div><br clear="all"><br>-- <br><div dir="ltr"><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div style="color:rgb(0,0,0);font-family:Helvetica;font-size:14px;margin:0px"><span style="color:rgb(130,36,51)"><font face="Century Gothic"><b>Jason L. Simms, Ph.D., M.P.H.</b></font></span></div><div style="color:rgb(0,0,0);font-family:Helvetica;font-size:14px;margin:0px"><font face="Century Gothic"><span>Manager of Research and High-Performance Computing</span></font></div><div style="color:rgb(0,0,0);font-family:Helvetica;font-size:14px;margin:0px"><font face="Century Gothic"><span>XSEDE Campus Champion<br></span><span style="color:gray">Lafayette College<br>Information Technology Services<br>710 Sullivan Rd | Easton, PA 18042<br>Office: 112 Skillman Library<br>p: (610) 330-5632</span></font></div></div></div></div></div></div></div></div></div>
</blockquote></div>