Ausfall Freifunk-Knoten mit unklarer Ursache

… und wieder war er vier Tage ausgefallen, was ich leider heute erst bemerkte. @TomH, damit muss ich leider feststellen, dass diese Firmware die Stabilität nicht verbessert. Immerhin muss ich dank der Ethernet-Verbindung zum Knoten Ladenburg-INTAKT-005 nur noch selten vor Ort gehen, um den Ladenburg-INTAKT-001 neu zu starten.

Übrigens zeigt auch der Ladenburg-INTAKT-005 Auffälligkeiten. Dieser TP-Link TL-WR1043N v5 fällt sehr oft aus (14 x in den letzten 24 Stunden), startet dabei aber glücklicherweise immer wieder neu und bleibt so erreichbar. Da aber das gesamte Mesh am ausgefallenen Ladenburg-INTAKT-001 und am ständig neu startenden Ladenburg-INTAKT-005 hängt, war die Nutzbarkeit in den letzten Tagen schon sehr beeinträchtigt. Im Juni lief Ladenburg-INTAKT-005 auch mal 13 Tage durch, aber lange Laufzeiten sind bei diesem Knoten eher die Ausnahme.

Momentan ist im Mesh noch ein ausgefallener Knoten (Ladenburg-INTAKT-003). Vermutlich sendet er immer noch seine SSID aus. Da sollte es doch im Prinzip funktionieren, einen der anderen Knoten als WLAN-Client mit dem ausgefallenen Knoten zu verbinden, um sich dann per SSH einzuloggen und den Knoten neu zu starten. Gibt es für so etwas schon eine Anleitung / hat das jemand schon mal gemacht?

Gestern um 13:33 neueste unstable Firmware von @TomH installiert, lief bis 17:32, dann wieder Ausfall mit bekannten timeout-Fehlermeldungen. Eben neu gestartet.

… und nach einer Stunde Laufzeit vorhin wieder ausgefallen.

Gibt es denn irgendwo einen Export dessen was du in der Konsole siehst?

Ja. Die Ausgaben von dmesg und logread beim letzten Ausfall stehen hier.

Ein sicherer Indikator für Ausfall ist immer diese Meldung mit timeout:

Fri Sep  1 11:55:28 2023 kern.err kernel: [ 7841.692065] mt7915e 0000:02:00.0: Message 00005aed (seq 2) timeout

Und oft sieht man auch sehr viele Prozesse und steigenden Speicherverbrauch im Kontext mit Meldungen dieser Art:

Fri Sep  1 11:55:48 2023 daemon.notice netifd: wan6 (2809): Command failed: ubus call network.interface notify_proto { "action": 0, "link-up": true, "data": { }, "keep": false, "ip6addr": [ { "ipaddr": "2a01:599:b04:1ac4:70a2:96ff:fecb:fe80", "mask": "64", "preferred": 14400, "valid": 86400, "offlink": true } ], "routes6": [ { "target": "::", "netmask": "0", "gateway": "fe80::a48a:acff:fe67:32b7", "metric": 640, "valid": 30 }, { "target": "2a01:599:b04:1ac4::", "netmask": "64", "metric": 256, "valid": 86400 } ], "dns": [ "fe80::a48a:acff:fe67:32b7" ], "interface": "wan6" } (Request timed out)