<html>
  <head>
    <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
  </head>
  <body>
    <p>You may also want to look at node weights. By setting them at
      different levels for each node, you can give a preference to one
      over the other.</p>
    <p>That may be a way to do a "try this node first" method of job
      placement.</p>
    <p>Brian Andrus<br>
    </p>
    <div class="moz-cite-prefix">On 8/10/2021 9:19 AM, Jack Chen wrote:<br>
    </div>
    <blockquote type="cite"
cite="mid:CADUsV6g81+iVfLoPHPKd2xpJhupTe870u7RRquj0TTJzQMknRA@mail.gmail.com">
      <meta http-equiv="content-type" content="text/html; charset=UTF-8">
      <div dir="ltr">
        <div dir="ltr">Thanks for your reply! It's certain that slurm
          will not place small jobs on same node if resources are not
          available. But I'm using default values in my issue, job cmd
          is : srun -n 1 --cpus-per-task=2 --gres=gpu:1 'sleep 12000'. 
          <div><br>
          </div>
          <div>When I submit another 8  one gpu jobs, they can run both
            on node A and B. So I believe we can exclude resource
            reasons.</div>
          <div><br>
          </div>
          <div>Slurm version >= 17 supports gpus parameters, it helps
            run jobs when resource fragments occur. But it would be
            great help if slurms support compact scheduling strategy to
            run these small GPU jobs on one node to avoid resource
            fragments occurring. </div>
          <div><br>
          </div>
          <div>Later I will setup slurm newest versions and test the
            above test case. There are thousands of machines in my
            cluster, users want to submit hundreds of small jobs, so
            fragments are really annoying.</div>
          <div><br>
          </div>
          <div>PS: I replied above to Diego, forget to reply all. (:<br>
            <br>
          </div>
        </div>
      </div>
      <br>
      <div class="gmail_quote">
        <div dir="ltr" class="gmail_attr">On Tue, Aug 10, 2021 at 11:44
          PM Brian Andrus <<a href="mailto:toomuchit@gmail.com"
            moz-do-not-send="true">toomuchit@gmail.com</a>> wrote:<br>
        </div>
        <blockquote class="gmail_quote" style="margin:0px 0px 0px
          0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
          <div>
            <p>You may want to look at your resources. If the memory
              allocation adds up such that there isn't enough left for
              any job to run, it won't matter that there are still GPUs
              available.</p>
            <p>Similar for any other resource (CPUs, cores, etc)</p>
            <p>Brian Andrus</p>
            <p><br>
            </p>
            <div>On 8/10/2021 8:07 AM, Jack Chen wrote:<br>
            </div>
            <blockquote type="cite">
              <div dir="ltr">
                <div dir="ltr">Does anyone have any ideas on this?</div>
              </div>
              <br>
              <div class="gmail_quote">
                <div dir="ltr" class="gmail_attr">On Fri, Aug 6, 2021 at
                  2:52 PM Jack Chen <<a
                    href="mailto:scsvip@gmail.com" target="_blank"
                    moz-do-not-send="true">scsvip@gmail.com</a>>
                  wrote:<br>
                </div>
                <blockquote class="gmail_quote" style="margin:0px 0px
                  0px 0.8ex;border-left:1px solid
                  rgb(204,204,204);padding-left:1ex">
                  <div dir="ltr">I'm using slurm15.08.11, when I submit
                    several 1 gpu jobs, slurm doesn't allocate nodes
                    using compact strategy. Anyone know how to solve
                    this? Will upgrading slurm latest version help ? <br>
                    <br>
                    For example, there are two nodes A and B with 8 gpus
                    per node, I submitted 8 1 gpu jobs, slurm will
                    allocate first 6 jobs on node A, then last 2 jobs on
                    node B. Then when I submit one job with 8 gpus, it
                    will pending because of gpu fragments: nodes A has 2
                    idle gpus, node b 6 idle gpus<br>
                    <div><br>
                    </div>
                    <div>Thanks in advance!</div>
                  </div>
                </blockquote>
              </div>
            </blockquote>
          </div>
        </blockquote>
      </div>
    </blockquote>
  </body>
</html>