Ausfall Freifunk-Knoten mit unklarer Ursache

Der Knoten Ladenburg-INTAKT-001 war am 23.12.2022 gegen 16:20 Uhr nach gut einem Tag Betrieb nicht mehr erreichbar, Ursache unklar. Die Auslastungsanzeige zeigt für diesen Zeitpunkt einen sprunghaften Anstieg der Speicherauslastung an (von 20 auf 30 %). Was könnte dafür die Ursache sein?

Am 26.12.2022 war ich dann vor Ort und konnte mich über den angeschlossenen LTE-Router Speedbox 2 (ZTE MF281) mit dem Knoten per SSH verbinden. Er lief also noch und sendete auch brav seine beiden Freifunk-SSIDs. Nach einem Neustart von LTE-Router und Freifunk-Knoten lief alles wieder normal, und seitdem gab es auch keinen Ausfall mehr.

Zwei weitere Knoten mit identischer Hard- und Firmware sind per Mesh angebunden und zeigten keine Störungen.

Das könnte leider was auch immer gewesen sein (selbst ein Aufrufen der Statusseite könnte das vermutlich verursachen). Generell ist 20 bzw 30 % auch eher kein auffälliger Wert.

Sofern es nochmal auftritt wäre es gut wenn du dich wieder, vor einem neustart, lokal per SSH verbinden, ein paar Kommandos ausführen und das Ergebnis pasten (oder auch hier in einen Codeblock packen, …) könntest:

batctl n
batctl if
ip a
ip r
ip -6 r
dmesg
logread
1 „Gefällt mir“

Läuft gegen 16:30 immer der autoupdater (sofern konfiguriert)? Auf dem ausgefallenen Knoten ist er konfiguriert, und am 3. Januar um 16:30 Uhr gab es wieder einen Ausfall und sprunghaft angestiegenen Speicherbedarf. Allerdings sehe ich erst am 4. Januar eine Fehlermeldung des autoupdaters:

Wed Jan  4 16:30:05 2023 daemon.err micrond[2484]: autoupdater: warning: error downloading manifest: Connection failed
Wed Jan  4 16:30:05 2023 daemon.err micrond[2484]: autoupdater: error: no usable mirror found

Kann es sein, dass der Knoten Probleme mit Autoupdate hat, weil es für die Hardware noch keine als „stable“ markierte Firmware gibt?

Die beiden anderen Knoten, die nicht ausgefallen waren, haben Autoupdate deaktiviert.

Der Autoupdater läuft stündlich. Die Minute in der das passiert ist zufällig.
(Neue Updates werden in den ersten 24 Stunden nach Veröffentlichung aber nur zwischen 04:00 und 05:00 Uhr morgens installiert.)

Ich bin nicht genau drin, aber „Connection failed“ klingt eher danach als ob es Probleme bei der Verbindung zu den Gateways gab als das es selbst Probleme verursachen würde. Meine Erwartung wäre das da sowas wie „Modell not in manifest“ (keine Ahnung wie da die Formulierung genau ist) stehen würde.

Du kannst ja einfach mal autoupdater manuell ausführen und schauen.

autoupdater läuft unauffällig:

root@Ladenburg-INTAKT-001:~# autoupdater
Retrieving manifest from http://fw.gluon.ffrn.de/stable/sysupgrade/stable.manifest ...
autoupdater: warning: no matching firmware found (model zyxel-nwa50ax)
autoupdater: error: no usable mirror found

Nach dem Ausfall vom 3. Januar war der ausgefallene Knoten noch per ssh erreichbar.
Das komplette Protokoll – erzeugt mit den vorgeschlagenen Kommandos – ist online abrufbar. Insbesondere die Ausgabe von dmesg zeigt etliche Auffälligkeiten.

Die beiden per Mesh verbundenen Nachbarknoten waren erst nach einem Neustart des ausgefallenen Knotens wieder online.

Leider ist der Knoten vor 20 Minuten (gegen 14:00 Uhr) schon wieder ausgefallen und momentan für mich nicht erreichbar (wie beim ersten Ausfall müsste ich erst vor Ort sein).

Irgendwie ist ja wohl laut dmesg das WLAN weg gestorben. Ich befürchte das wird man noch etwas beobachten müssen um herauszufinden wann das passiert und ob es da ein Muster gibt.

Wie wird der denn mit Strom versorgt? Nutzt du da das beigelegte Netzteil oder PoE?

Eventuell macht es auch Sinn mal die Position der Nodes zu tauschen bzw. besser erstmal zu schauen was dort so im Log steht.

Bezüglich der Speedbox 2 hat mir heute aber auch jemand erzählt das er vermutet das die DNS Auflösungen ab und zu nicht klappen und in einen Timeout laufen. Das spiegelt aber das von dir gepostete Log nicht wieder. Das sieht eigentlich bis auf das WLAN problemlos aus. War das Ding zu dem Zeitpunkt wirklich offline?

Alle Knoten verwenden die mitgelieferten Netzteile.

Das Protokoll des Ausfalls vom 06.01.2022 ist jetzt ebenfalls online. Der Knoten Ladenburg-INTAKT-001 war gegen 14 Uhr ausgefallen und zunächst nicht mehr per ssh erreichbar, aber bei einem erneuten Versuch gegen 18:45 Uhr war dann eine Verbindung wieder möglich (siehe Diagramm), und ich konnte so das Protokoll erstellen und den Knoten neu starten. Danach lief er wieder normal, und auch die beiden weiteren Knoten, die per Mesh angebunden sind, waren schnell wieder online.

Leider ist gestern (07.01.2022 ca. 19:45 Uhr) erstmals einer dieser beiden weiteren Knoten (Ladenburg-INTAKT-002) ausgefallen und seitdem nicht mehr erreichbar.

Heute um 14:45 konnte Ladenburg-INTAKT-002 durch kurze Unterbrechung der Stromversorgung neu gestartet werden. Danach lief das Mesh mit allen drei Knoten zunächst normal. Leider sind sie aber jetzt anscheinend seit 16:30 schon wieder offline (nicht per ssh erreichbar).

Ich überlege momentan, ob die Knoten sich bei einem Verbindungsausfall nicht automatisch neu starten könnten. Gibt es dafür schon eine Lösung, oder müsste ich die mir selbst bauen?

Keine vollständige Antwort, aber mal wenigstens mal kurz das folgende:

Die NWA50AX haben auch einen gut zugänglichen seriellen Port neben den LAN Port. Wenn ssh nicht klappt ist es dort mit so einem USB TTL 3,3 V Adapter (wo man nicht die VCC / 3,3V verbinden darf, also nur GND, TX und RX) auch möglich sich direkt zu verbinden und zu schauen was Sache ist.

Der Knoten Ladenburg-INTAKT-001 war beim ersten Ausfall auch noch über die angeschlossene Speedbox erreichbar, und die Speedbox wiederum über ihr eigenes WLAN. Dafür muss ich aber erst zum Standort fahren, und vor Ort sind alle Knoten in abgeschlossenen Räumen, die nur tagsüber zu bestimmten Zeiten jemand aufmachen kann. Also leider nicht ganz so einfach.

Bezüglich automatischem Neustart nach Verbindungsausfall habe ich eben gefunden, dass es einen Watchdog gibt. Ist dieser in der Firmware standardmässig aktiviert und gibt es Erfahrungen damit? Wenn er aktiviert ist, hätte ich erwartet, dass er bei den obigen Ausfällen automatisch einen Neustart auslöst (und damit alles wieder funktioniert).

Die Ausfallhäufigkeit nimmt tendenziell eher zu. Da die Dokumentation zuviel Platz hier im Forum benötigen würde, habe ich sie in ein GitHub Wiki ausgelagert, das auch die letzten Protokolle enthält.

Für die typisch rund 20 Nutzer (in der Spitze auch mal über 30) ist die Situation unbefriedigend, und für mich auch, weil ich bisher keine Lösung habe und bei den meisten Ausfällen vor Ort gehen muss, was mindestens eine Stunde kostet.

War der ZyXEL NWA50AX vielleicht doch die falsche Wahl, weil zu neu? Vor dem letzten Ausfall hatte ich das 5-GHz-WLAN ausgeschaltet, um wenigstens eine möglich Fehlerursache auszuschließen. Leider ist der Knoten trotzdem nach zwei Stunden ausgefallen.

Beim nächsten Versuch würde ich das Mesh ausschalten, also nur einen Knoten anbieten.

Oder ist die Verbindung des ersten Knotens mit dem Mobilfunkrouter nicht robust? Heute kam ich wieder zunächst nicht über den Mobilfunkrouter auf den Knoten. Nach Neustart des Mobilfunkrouters konnte ich den Knoten per ssh erreichen, aber WLAN und Mesh funktionierten offenbar nicht richtig. Erst nach Neustart des Knoten lief alles wieder zumindest für zwei Stunden.

Übrigens sind anscheinend beide NTP-Server, die sich hinter ntp.ffrn.de verbergen, nicht in Betrieb, was zu einer falschen Zeitangabe in den Knotenprotokollen führt. Wäre es sinnvoll, grundsätzlich noch einen weiteren NTP-Server (z. B. de.pool.ntp.org) fest als Alternative einzutragen?

Probier mal bitte die Gateway IPs als Alternative zu hinterlegen falls das wirklich zu Teilen ein DNS Problem mit der Speedbox 2 ist:

uci add_list fastd.mesh_vpn_backbone_peer_gw02.remote='"94.130.243.232" port 10000'
uci add_list fastd.mesh_vpn_backbone_peer_gw02.remote='"2a01:4f8:140:4093:0:5eff:fe82:f3e8" port 10000'
uci add_list fastd.mesh_vpn_backbone_peer_gw03.remote='"138.201.30.247" port 10000'
uci add_list fastd.mesh_vpn_backbone_peer_gw03.remote='"2a01:4f8:171:3242:0:8aff:fec9:1ef7" port 10000'
uci add_list fastd.mesh_vpn_backbone_peer_gw04.remote='"94.130.243.233" port 10000'
uci add_list fastd.mesh_vpn_backbone_peer_gw04.remote='"2a01:4f8:140:4093:0:5eff:fe82:f3e9" port 10000'
uci add_list fastd.mesh_vpn_backbone_peer_gw05.remote='"88.198.112.220" port 10000'
uci add_list fastd.mesh_vpn_backbone_peer_gw05.remote='"2a01:4f8:160:624c:5054:ff:fea8:53a5" port 10000'
uci add_list fastd.mesh_vpn_backbone_peer_gw06.remote='"88.198.112.221" port 10000'
uci add_list fastd.mesh_vpn_backbone_peer_gw06.remote='"2a01:4f8:160:624c:5054:ff:fed2:43c1" port 10000'
uci add_list fastd.mesh_vpn_backbone_peer_gw07.remote='"94.130.243.235" port 10000'
uci add_list fastd.mesh_vpn_backbone_peer_gw07.remote='"2a01:4f8:140:4093:0:5eff:fe82:f3eb" port 10000'
uci add_list fastd.mesh_vpn_backbone_peer_gw08.remote='"88.198.112.222" port 10000'
uci add_list fastd.mesh_vpn_backbone_peer_gw08.remote='"2a01:4f8:160:624c:5054:ff:fe3f:c2ea" port 10000'
uci add_list fastd.mesh_vpn_backbone_peer_gw09.remote='"138.201.30.244" port 10000'
uci add_list fastd.mesh_vpn_backbone_peer_gw09.remote='"2a01:4f8:171:3242:0:8aff:fec9:1ef4" port 10000'
uci commit fastd
/etc/init.d/fastd restart

Danke, das ist jetzt so aktiviert.

Leider ist der Knoten auch mit der neuen Konfiguration wieder ausgefallen, siehe Details.

Interessanterweise sehe ich die oben gemachten Änderungen nicht in den erfassten Protokollen, wohl aber in /etc/config/fastd.

Leider gab es ja gestern schon wieder einen Ausfall.

Ich habe es mir das dann mal genauer angeschaut und interessanterweise gab es in dem Moment (als ich geschaut habe) eine VPN Verbindung. Jedoch war wohl irgendwas beim Verbindungsaufbau schief gegangen und der Knoten war trotzdem offline.

Ich habe dann mal die Verbindung vom Gateway aus getrennt und den Knoten eine neue aufbauen lassen. Anschließend ging es dann.

Uptime (Daten gibt es nur wenn der Knoten online ist)


Verbundenes Gatewy ( Daten gibt es auch wenn nur die fastd (vpn) Verbindung besteht)

Das komische ist nur das die beiden Graphen zeitlich nicht zueinander passen. Es kann halt eigentlich nicht sein das es Uptime Daten gibt, aber zu dem entsprechenden Zeitpunkt kein Gateway verbunden war.
Generell sieht es aber für mich schon danach aus das die Speedbox 2 ab und zu Verbindungsprobleme hat und der Freifunk Knoten das nicht gut verkraftet. Aber das ist nur mein Bauchgefühl diesbezüglich.

1 „Gefällt mir“