ich habe jetzt doch immer mal wieder Knoten die sich aufhängen.
Wobei es wohl stark von der Last abhängt. (mehr als 10 Clients) Der Uplink-Knoten der Flüchtingsunterkunft hier in Lorsch hängte sich z.B. alle 1-2 Tage auf.
Was aber wohl (meistens) statt einem Reboot auch schon hilft ist das WLAN kurz abschalten Also “Wifi down” und dann “Wifi” - dauert alles zusammen nur Sekunden. Ist viel schneller als ein Reboot. und hilft wohl trotzdem. Der UPlink Knoten war im Fehlerfall auch noch ganz normal über IPv6 erreichbar. Nur eben Clients = 0 und die Mesh knoten dahinter Offline.
Was ich jetzt auf dem Knoten am laufen habe ist ein Cronjob der genau das alle 5 minuten macht. und zwar abhänging davon ob die Client-Anzahl auf 0 steht.
*/5 * * * * count=grep -cEo "\[.*W.*\]+" /sys/kernel/debug/batman_adv/bat0/transtable_local ; if [ $count -eq “0” ] ; then wifi down ; sleep 2 ; wifi ; fi
(alles in einer Zeile)
Hab zwar jetzt zur Sicherheit noch einmal die Woche ein Reboot Eintrag dazu gemacht und in die reinen Mesh-Knoten dahinter einmal jede Nacht. Aber das ist nur zur Sicherheit gewesen.
Die Zeile oben hat wohl soweit erst mal alle Probleme gelöst. Die Ausfallzeiten sind damit auf jeden Fall auf maximal ein paar Minuten alle 1-2 Tage reduziert.
Magst du uns auch die Namen der betroffenen Knoten nennen? Deine Lösung ist zwar schön und gut, ist aber gleichzeitig nur ein Workarround für das eigentliche Problem.
Klar ist es nur ein Workarround - aber da das Problem bei anderen und bei mir ja jetzt schon so lange da ist und sich in allen Versionen auch nicht verändert hat bin ich froh zumindest den zu haben.
Ein echte Lösung wäre mir natürlich auch viel lieber :-)
Uplink ist Lorsch-020
Die Mesh Knoten sind Lorsch-021 und seit gestern auch Lorsch-022
So ich hab mal die History der Knoten Werte gecheckt. Die sehen eigentlich ganz ok aus. Die Load ist zwar manchmal recht hoch, aber das steht in keinem Zusammenhang mit den Aufhängern. Sprich ich kann dir leider aktuell nicht sagen woran es liegt.
Hab das gerade mal für die letzen 30 Tage gecheckt und muss dir leider widersprechen. Es sieht zwar so aus als gäbe es einen direkten Zusammenhang, aber dafür sind die Ausfällte zu schwankend. Es gibt sowohl Ausfälle bei Hoher als auch bei einer mittleren Zahl an Clients. Das müsste, wenn es wirklich die Clients sind, deutlich gleichförmiger auftreten.
Könnte es sein, dass hier wieder der Bug im WLAN Treiber vom Ad-Hock Modus mitspielt? Mit Gluon scheint das wohl deutlich seltener zu passieren, aber irgendwie schafft man es dann trotzdem, dass der Knoten abstürzt, bzw. sich dann irgendwie rebootet.
Gibt es denn da neben kompletten Reboots und Hängern auch das Problem, dass nur WLAN hängt und ein Wifi down && Wifi hilft ? Genau das Problem habe ich hier so gut wie immer gesehen. Wobei man das auf den ersten Blick ja nur bei Up-link Knoten von einem kompletten Hänger unterscheiden kann.
Das würde passen. In den letzten Tagen gibt es dort in der Unterkunft auf allen Knoten doch immer öfter wieder reboots. Die stören zwar nicht so sehr wie Hänger- sollte aber ja auch nicht sein.