
Hallo Servicedesk, Hallo HPC Team, Hallo Admins, vielleicht kann mir einer von euch folgendes Problem erklären: Ich habe einen Fileserver mit nfs4, einmal kernel Version 4.18 aus dem RHEL8 und einmal kernel Version 5.14 aus dem RHEL9 mount -v auf dem Client gibt in beiden Fällen: (rw,nosuid,relatime,vers=4.2,rsize=1048576,wsize=1048576,namlen=255,acregmin=300,acregmax=300,acdirmin=300,acdirmax=300,soft,proto=tcp6,timeo=600,retrans=2,sec=sys, clientaddr=...,local_lock=none,addr=....) Ich habe jetzt eine MPI Applikation (hdf5), die parallelen IO von 2 Systemen auf den Fileserver macht. Bei kernel 4.18 dauert das Schreiben der Daten gefühlt 5 Sekunden, bei kernel 5.14 gefühlt länger wie 5 Minuten. Bis auf den Kernel des Fileservers sind alle anderen Parameter gleich. Wenn ich mich mit dem debugger auf einen der parallelen Prozesse setze, sehe ich, dass der Prozess manchmal in einem poll oder einem lock hängt, gefühlt wartet der Prozess darauf, dass er mit dem Schreiben in der Datei loslegen kann. Kann mir einer erklären, wie ich das Problem im kernel 5.14 beheben kann oder woran das liegt? Ich habe den kernel 5.14 auch mit nfs3 anstelle von nfs4 ausprobiert. Da kam ein anderer Fehler. Das Schreiben der Daten ging zwar genauso schnell wie bei kernel 4.18, allerdings ergab die Visualisierung der Daten, dass das Schreiben der Daten wohl nicht richtig funktioniert hat und es in der Visualisierung Effekte gab, die mit kernel 4.18 nicht da waren. Viele Grüße Frank Knoben Institut für Geometrie und Praktische Mathematik
participants (1)
-
Frank Knoben