Serverausfall am 03.01.2020 (vm03.ffrn.de)

Vor ein paar Minuten ist einer unserer 3 Server ausgefallen. Die Ursache ist unbekannt.

Da auf diesem Server 3 der 7 Gateways liefen dürfte es nicht möglich sein alle Router aufzufangen.

Wir werden uns dies anschauen. Bis dahin ist leider mit Einschränkungen zu rechnen.

Ein Reset hat es gebracht. Anschließend hat Hetzner uns noch den CPU Lüfter getauscht, da es auf dem Host ein Temperatur Problem gab (wahrscheinliche Ursache für den Absturz).

Die VMs auf dem Server wurden aber noch nicht wieder gestartet, da die Netzwerkkonfiguration vorher noch etwas Arbeit bedarf.

Lief darauf auch 1.ntp.ffrn.de? Der war nämlich heute Down, aber als ich mich hier melden wollte war er auf einmal wieder up.

Danke euch im Voraus!

image

1 „Gefällt mir“

Ja, lief da wohl auch drauf. Genauso wie tools.ffrn.de (chat.ffrn.de pads.ffrn.de register.freifunk-rhein-neckar.de, …)

Mittlerweile sollte alles wieder laufen. Ich weiß zwar nicht wie hoch die Temperatur auf vm03.ffrn.de (dem betroffenen vmhost) war, aber nun liegt sie bei kühlen 36 °C (allerdings ohne volle Last).

Vorankündigung: vm02.ffrn.de (gw06.ffrn.de gw08.ffrn.de forum.ffrn.de map.ffrn.de resolver1.ffrn.de unifi.ffrn.de) wird auch nochmal heruntergefahren werden müssen, da dort die CPU Temperatur ebenfalls viel zu hoch ist (etwa 95 °C).

1 „Gefällt mir“

Ist seit 5 Minuten wieder down.

1 „Gefällt mir“

Jup. Scheint doch noch was anderes zu geben.

Nachdem der Server nochmal ausgefallen war wurde nun durch Hetzner eine der SSDs ersetzt. Damit sollte der Server nun hoffentlich wieder stabil laufen.

1 „Gefällt mir“

Der Server ist leider ohne erkennbaren Grund am 25.01.2020 um 02:39 (gestern morgen) schon wieder ausgefallen. Wir haben ihn dann wieder mal resettet, das hat auch geholfen, in den Logs war aber leider nichts über die Ursache zu finden.

Da wir Anfang Januar schon einen neuen Server (AX41-NVMe) bei Hetzner bestellt hatten, welcher dann Donnerstag auch endlich freigeschaltet wurde, werden wir nun darauf hinarbeiten, das vm03.ffrn.de ersetzt wird. Eigentlich war zwischenzeitlich geplant vm02.ffrn.de durch den neuen Server zu ersetzen (da das Problem mit vm03.ffrn.de durch CPU-Lüfter Tausch und Ersatz einer der SSDs gelöst schien) und vm03 im Gegensatz zu vm01.ffrn.de und vm02.ffrn.de einen Intel Core i7-7700 (@ 3.60GHz) hat. Die anderen beiden haben nur einen Intel Core i7-6700.
(Der Ersatz von vm01.ffrn.de steht erst mal noch nicht zur Wahl, da über diesen das 2a01:4f8:171:fc00:: / 56 für das FFRN-Clientnetz läuft.)

Da auf ein paar der anderen Gateways auf vm01.ffrn.de und vm02.ffrn.de irgendein Problem mit „vollem RAM“ bestand kam es leider zu einem größeren Ausfall des Clientnetzes.