Status Datastorage.NRW nach Gaslöschung, Arbeiten im RZ2 der UzK

Hallo zusammen, um alle Beteiligten auf den gleichen Informationsstand zu bringen: Bereits am 21.2. wurde es am Standort Köln nach einem Schwelbrand die Gaslöschanlage ausgelöst. Dies hat beim hiesigen Bereich von Datastorage.NRW zu einem massiven Festplattenausfall (ca. 200 Platten) geführt. In einem Vor-Ort-Termin konnten Huawei und Storetrek die meisten Festplatten reaktivieren. Weitere Festplatten konnten in einem folgenden Remote-Termin mit chinesischen Experten von Huawei wieder online genommen werden. Eigentlich ist nur noch eine verschwindend kleine Zahl von Platten (8 Stück) nicht verfügbar. Trotzdem ist es bisher nicht gelungen, auch den Storage-Pool wieder online zu bekommen. Hier sind wir leider auf die Hilfe von Huawei angewiesen. Es wird nach aktuellem Stand ein weiterer Einsatz vor Ort notwendig, der immer noch nicht terminiert ist. Wir versuchen diesbezüglich beschleunigend auf Huawei einzuwirken. ############### Dann noch eine kleinere Information aus Köln: In den nächsten Tagen (18.3. - 21.03.) kommt es im RZ2-HA (Standort von RDS.NRW und Datastorage.NRW) zu zu einer Abschaltung der Stromversorgung auf Mittelspannungsebene. RZ2-HA wird aber dauerhaft über Netzersatzanlage versorgt, eine redundante Netzersatzanlage steht bereit und die automatische Übernahme wurde erfolgreich getestet. Daher ist für RZ2-HA - abgesehen von Temperaturschwankungen während der Umschaltungen (kurzzeitiger Ausfall der Kälteerzeugung) - nicht mit Betriebsstörung zu rechnen. Beste Grüße Reinhard Brunzema -- Reinhard Brunzema Leitung Abteilung High Availability Infrastructure Services Mail: reinhard.brunzema@uni-koeln.de Tel.: +49 221 470-89581 Universität zu Koeln IT Center University Of Cologne (ITCC) Weyertal 121 50931 Köln

Hallo zusammen, ein kleines Update dazu: Am 17.03.25 um 14:29 schrieb Reinhard Brunzema: ...
Trotzdem ist es bisher nicht gelungen, auch den Storage-Pool wieder online zu bekommen. Hier sind wir leider auf die Hilfe von Huawei angewiesen. Es wird nach aktuellem Stand ein weiterer Einsatz vor Ort notwendig, der immer noch nicht terminiert ist. Wir versuchen diesbezüglich beschleunigend auf Huawei einzuwirken. ...
der Folgetermin mit einem speziellen Herstellertool hat gestern stattgefunden, wenn auch online statt vor Ort. Leider ist es auch dieses Mal nicht gelungen, die verbliebenen Festplatten wiederzubeleben. Wir haben seitens Huawei noch keine Ankündigung erhalten, wie es jetzt weitergehen soll. Beste Grüße Reinhard Brunzema -- Reinhard Brunzema Leitung Abteilung High Availability Infrastructure Services Mail: reinhard.brunzema@uni-koeln.de Tel.: +49 221 470-89581 Universität zu Koeln IT Center University Of Cologne (ITCC) Weyertal 121 50931 Köln

Hallo zusammen, der aktuelle Status ist im Wesentlichen leider unverändert, die Festplatten sind noch defekt und der Storage-Pool ist weiterhin offline. Aus einem anderen Kontext heraus können wir mit einiger Sicherheit davon ausgehen, dass die Festplatten nicht mehr zu retten sind und ausgetauscht werden müssen. Dies ist aufgrund der außergewöhnlichen Umstände wohl nicht vom Supportvertrag gedeckt und muss separat beauftragt werden. Wir sind darüber sowohl von Aachener als auch Kölner Seite im Gespräch mit Itisio und Huawei und hoffen nun, dass wir zeitnah eine Lösung angeboten bekommen. Beste Grüße Reinhard Brunzema -- Reinhard Brunzema Leitung Abteilung High Availability Infrastructure Services Mail: reinhard.brunzema@uni-koeln.de Tel.: +49 221 470-89581 Universität zu Koeln IT Center University Of Cologne (ITCC) Weyertal 121 50931 Köln

Hallo zusammen, gestern wurden durch Stortrek die defekten Festplatten durch intakte aus dem Pool von Datensafe.NRW ersetzt. Offenbar waren 2 weitere Festplatten vorgeschädigt, so dass 10 Platten getauscht werden mussten. Die Hardware des Datastore-Clusters hier ist nun wieder intakt, allerdings muss nun noch der Storage-Pool wieder online gebracht werden. Dafür wird es voraussichtlich Anfang der kommenden Woche noch eine Session mit Huawei geben. Beste Grüße Reinhard Brunzema -- Reinhard Brunzema Leitung Abteilung High Availability Infrastructure Services Mail: reinhard.brunzema@uni-koeln.de Tel.: +49 221 470-89581 Universität zu Koeln IT Center University Of Cologne (ITCC) Weyertal 121 50931 Köln

Hallo zusammen, es hat heute eine Session mit Huawei mit absolut unbefriedigendem Ergebnis stattgefunden. Nicht nur ist es Huawei nicht gelungen, den Storage-Pool zu reaktivieren oder wenigstens neu anzulegen. Die aktuelle Empfehlung lautet, den Cluster neu zu installieren. Das erscheint uns keine angemessene Lösung. Mehr dazu in der Technikrunde. Beste Grüße Reinhard Brunzema -- Reinhard Brunzema Leitung Abteilung High Availability Infrastructure Services Mail: reinhard.brunzema@uni-koeln.de Tel.: +49 221 470-89581 Universität zu Koeln IT Center University Of Cologne (ITCC) Weyertal 121 50931 Köln
participants (1)
-
Reinhard Brunzema