<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=Windows-1252">
<style type="text/css" style="display:none;"> P {margin-top:0;margin-bottom:0;} </style>
</head>
<body dir="ltr">
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0); background-color: rgb(255, 255, 255);" class="elementToProof">
<div class="x_elementToProof" style="font-size: 12pt; margin: 0px; color: rgb(0, 0, 0); background-color: rgb(255, 255, 255);">
<p class="x_ContentPasted0 ContentPasted0" style="margin:0px;font-weight:normal;font-size:13px;font-family:"Helvetica Neue"">
We’re seeing a repeated issue of long-running node allocations eventually disallowing SSH connections.</p>
<p style="margin:0px;font-weight:normal;font-size:13px;font-family:"Helvetica Neue";min-height:15px">
<br class="x_ContentPasted0 ContentPasted0">
</p>
<p class="x_ContentPasted0 ContentPasted0" style="margin:0px;font-weight:normal;font-size:13px;font-family:"Helvetica Neue"">
Our cluster configures the pam_slurm_adopt module, in order to allow users to access nodes they’ve allocated before. However, even if this allocated node is idle, after around 24 hours (we haven’t been able to pinpoint a more precise time frame yet), ssh via
 said module simply hangs until timeout.</p>
<p style="margin:0px;font-weight:normal;font-size:13px;font-family:"Helvetica Neue";min-height:15px">
<br class="x_ContentPasted0 ContentPasted0">
</p>
<p class="x_ContentPasted0 ContentPasted0" style="margin:0px;font-weight:normal;font-size:13px;font-family:"Helvetica Neue"">
Our admin users can access the same node perfectly, via a pam_listfile exception. Other users with allocations might access as well, until this limit is hit</p>
<p style="margin:0px;font-weight:normal;font-size:13px;font-family:"Helvetica Neue";min-height:15px">
<br class="x_ContentPasted0 ContentPasted0">
</p>
<p class="x_ContentPasted0 ContentPasted0" style="margin:0px;font-weight:normal;font-size:13px;font-family:"Helvetica Neue"">
Something I noticed recently, is that during these times the extern task for said allocation (generated by PrologFlags=Contain) would be stuck at 100% CPU usage, maxing out a single core</p>
<p style="margin:0px;font-weight:normal;font-size:13px;font-family:"Helvetica Neue";min-height:15px">
<br class="x_ContentPasted0 ContentPasted0">
</p>
<p class="x_ContentPasted0 ContentPasted0" style="margin:0px;font-weight:normal;font-size:13px;font-family:"Helvetica Neue"">
Please let us know which logs and/or command outputs to provide to further help debugging</p>
<br class="ContentPasted0">
</div>
<div class="x_elementToProof" style="font-size: 12pt; margin: 0px; color: rgb(0, 0, 0); background-color: rgb(255, 255, 255);">
<br class="ContentPasted0">
</div>
<div class="x_elementToProof" style="margin:0px"><span style="font-size: 12pt; margin: 0px; color: rgb(0, 0, 0);" class="ContentPasted0">Regards,</span></div>
</div>
<div class="elementToProof">
<div id="Signature">
<div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);">
<span style="font-size: 10pt; color: rgb(118, 62, 155);">Lucio Delelis</span><br>
</div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);">
<br>
</div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);">
<span style="font-size: 10pt; color: rgb(118, 62, 155);">Cloud Engineer | <a href="mailto:lucio.delelis@sixninesit.com" title="mailto:lucio.delelis@sixninesit.com">
lucio.delelis@sixninesit.com</a></span></div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);">
<img style="max-width: 100%;" data-outlook-trace="F:1|T:1" src="cid:abfc8ae4-6460-4097-865e-58c3eac23a70"><br>
</div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);">
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::<br>
</div>
</div>
</div>
</div>
</body>
</html>