<div dir="ltr"><div><div><div><div><div><div>Hi Loris,<br></div>Thanks for your explanation!<br></div>I would have interpreted as max(sum()).<br></div><br></div>Is there a way to get max(sum()) or at least sum form of sum()? The assumption that all processes are peaking at the same value is not a valid one unless all threads have essentially the same workload...<br></div>Thanks again!<br></div>Eli<br></div><div class="gmail_extra"><br><div class="gmail_quote">On Tue, Apr 17, 2018 at 2:09 PM, Loris Bennett <span dir="ltr"><<a href="mailto:loris.bennett@fu-berlin.de" target="_blank">loris.bennett@fu-berlin.de</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hi Eli,<br>
<span class=""><br>
"E.S. Rosenberg" <<a href="mailto:esr%2Bslurm-dev@mail.hebrew.edu">esr+slurm-dev@mail.hebrew.edu</a><wbr>> writes:<br>
<br>
> Hi fellow slurm users,<br>
> We have been struggling for a while with understanding how MaxRSS is reported.<br>
><br>
> This because jobs often die with MaxRSS not even approaching 10% of the requested memory sometimes.<br>
><br>
> I just found the following document:<br>
> <a href="https://research.csc.fi/-/a" rel="noreferrer" target="_blank">https://research.csc.fi/-/a</a><br>
><br>
> It says:<br>
> "maxrss = maximum amount of memory used at any time by any process in that job. This applies directly for serial jobs. For parallel jobs you need to multiply with the number of cores (max 16 or 24 as this is<br>
> reported only for that node that used the most memory)"<br>
><br>
> While 'man sacct' says:<br>
> "Maximum resident set size of all tasks in job."<br>
><br>
> Which explanation is correct? How should I be interpreting MaxRSS?<br>
<br>
</span>As far as I can tell, both explanations are correct, but the<br>
text in 'man acct' is confusing.<br>
<span class=""><br>
  "Maximum resident set size of all tasks in job."<br>
<br>
</span>is analogous to<br>
<br>
  "maximum height of all people in the room"<br>
<br>
rather than <br>
<br>
  "total height of all people in the room"<br>
<br>
More specifically it means<br>
<br>
  "Maximum individual resident set size out of the group of resident set<br>
  sizes associated with all tasks in job."<br>
<br>
It doesn't mean<br>
<br>
  "Sum of the resident set sizes of all the tasks"<br>
<br>
I'm a native English-speaker and I keep on stumbling over this in 'man<br>
sacct' and then remembering that I have already worked out how it was<br>
supposed to be interpreted.<br>
<br>
My suggestion for improving this would be<br>
<br>
  "Maximum individual resident set size of all resident set sizes<br>
  associated with the tasks in job."<br>
<br>
It's a little clunky, but I hope it is clearer.<br>
<br>
Cheers,<br>
<br>
Loris<br>
<span class="HOEnZb"><font color="#888888"><br>
-- <br>
Dr. Loris Bennett (Mr.)<br>
ZEDAT, Freie Universität Berlin         Email <a href="mailto:loris.bennett@fu-berlin.de">loris.bennett@fu-berlin.de</a><br>
<br>
</font></span></blockquote></div><br></div>