<div dir="ltr">Hi,<div><br></div><div>I do not remember whether we had the same error message.</div><div>But, if the user's known_host has an old entry of the node he is trying to connect, the x11 won't connect properly.</div><div>Once the known_host entry has been deleted, the x11 connects just fine.</div><div><br></div><div>Hadrian</div></div><div class="gmail_extra"><br><div class="gmail_quote">On Thu, Jun 7, 2018 at 6:26 PM, Christopher Benjamin Coffey <span dir="ltr"><<a href="mailto:Chris.Coffey@nau.edu" target="_blank">Chris.Coffey@nau.edu</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hi,<br>
<br>
I've compiled slurm 17.11.7 with x11 support. We can ssh to a node from the login node and get xeyes to work, etc. However, srun --x11 xeyes results in:<br>
<br>
[cbc@wind ~ ]$ srun --x11 --reservation=root_58 xeyes<br>
X11 connection rejected because of wrong authentication.<br>
Error: Can't open display: localhost:60.0<br>
srun: error: cn100: task 0: Exited with exit code 1<br>
<br>
On the node in slurmd.log it says:<br>
<br>
[2018-06-07T15:04:29.932] _run_prolog: run job script took usec=1<br>
[2018-06-07T15:04:29.932] _run_prolog: prolog with lock for job 11806306 ran for 0 seconds<br>
[2018-06-07T15:04:29.957] [11806306.extern] task/cgroup: /slurm/uid_3301/job_11806306: alloc=1000MB mem.limit=1000MB memsw.limit=1000MB<br>
[2018-06-07T15:04:29.957] [11806306.extern] task/cgroup: /slurm/uid_3301/job_11806306/<wbr>step_extern: alloc=1000MB mem.limit=1000MB memsw.limit=1000MB<br>
[2018-06-07T15:04:30.138] [11806306.extern] X11 forwarding established on DISPLAY=cn100:60.0<br>
[2018-06-07T15:04:30.239] launch task 11806306.0 request from <a href="mailto:3301.3302@172.16.3.21">3301.3302@172.16.3.21</a> (port 32453)<br>
[2018-06-07T15:04:30.240] lllp_distribution jobid [11806306] implicit auto binding: cores,one_thread, dist 1<br>
[2018-06-07T15:04:30.240] _task_layout_lllp_cyclic <br>
[2018-06-07T15:04:30.240] _lllp_generate_cpu_bind jobid [11806306]: mask_cpu,one_thread, 0x0000001<br>
[2018-06-07T15:04:30.268] [11806306.0] task/cgroup: /slurm/uid_3301/job_11806306: alloc=1000MB mem.limit=1000MB memsw.limit=1000MB<br>
[2018-06-07T15:04:30.268] [11806306.0] task/cgroup: /slurm/uid_3301/job_11806306/<wbr>step_0: alloc=1000MB mem.limit=1000MB memsw.limit=1000MB<br>
[2018-06-07T15:04:30.303] [11806306.0] task_p_pre_launch: Using sched_affinity for tasks<br>
[2018-06-07T15:04:30.310] [11806306.extern] error: _handle_channel: remote disconnected<br>
[2018-06-07T15:04:30.310] [11806306.extern] error: _handle_channel: exiting thread<br>
[2018-06-07T15:04:30.376] [11806306.0] done with job<br>
[2018-06-07T15:04:30.413] [11806306.extern] x11 forwarding shutdown complete<br>
[2018-06-07T15:04:30.443] [11806306.extern] _oom_event_monitor: oom-kill event count: 1<br>
[2018-06-07T15:04:30.508] [11806306.extern] done with job<br>
<br>
It seems like its close, as srun, and the node can agree on the port to connect on, but there is a difference between slurmd specifying the node name and port, where srun is trying to connect via localhost and the same port. Maybe I have an ssh setting wrong somewhere? I've tried all combinations I believe in ssh_config, and sshd_config. No issues with /home either, it’s a shared filesystem that each node mounts, and we even tried no_root_squash so root can write to the .Xauthority file like some folks have suggested.<br>
<br>
Also, xauth list shows that there was no magic cookie written for host cn100:<br>
<br>
[cbc@wind ~ ]$ xauth list<br>
<a href="http://wind.hpc.nau.edu/unix:14" rel="noreferrer" target="_blank">wind.hpc.nau.edu/unix:14</a>  MIT-MAGIC-COOKIE-1  ac4a0f1bfe9589806f81dd45306ee3<wbr>3d<br>
<br>
Something preventing root from writing the magic cookie? The file is definitely writeable:<br>
<br>
[root@cn100 ~]# touch /home/cbc/.Xauthority <br>
[root@cn100 ~]#<br>
<br>
Anyone have any ideas? Thanks!<br>
<br>
Best,<br>
Chris<br>
<br>
—<br>
Christopher Coffey<br>
High-Performance Computing<br>
Northern Arizona University<br>
928-523-1167<br>
<br>
<br>
</blockquote></div><br><br clear="all"><div><br></div>-- <br><div class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div>Hadrian Djohari<br>Manager of Research Computing Services, [U]Tech<br>Case Western Reserve University<br>(W): 216-368-0395<br>(M): 216-798-7490<div></div><div></div><div></div></div></div></div></div></div></div></div>
</div>