Fix für hängende Knoten

ich habe jetzt doch immer mal wieder Knoten die sich aufhängen.

Wobei es wohl stark von der Last abhängt. (mehr als 10 Clients) Der Uplink-Knoten der Flüchtingsunterkunft hier in Lorsch hängte sich z.B. alle 1-2 Tage auf.

Was aber wohl (meistens) statt einem Reboot auch schon hilft ist das WLAN kurz abschalten Also “Wifi down” und dann “Wifi” - dauert alles zusammen nur Sekunden. Ist viel schneller als ein Reboot. und hilft wohl trotzdem. Der UPlink Knoten war im Fehlerfall auch noch ganz normal über IPv6 erreichbar. Nur eben Clients = 0 und die Mesh knoten dahinter Offline.

Was ich jetzt auf dem Knoten am laufen habe ist ein Cronjob der genau das alle 5 minuten macht. und zwar abhänging davon ob die Client-Anzahl auf 0 steht.

*/5 * * * * count=grep -cEo "\[.*W.*\]+" /sys/kernel/debug/batman_adv/bat0/transtable_local ; if [ $count -eq “0” ] ; then wifi down ; sleep 2 ; wifi ; fi

(alles in einer Zeile)
Hab zwar jetzt zur Sicherheit noch einmal die Woche ein Reboot Eintrag dazu gemacht und in die reinen Mesh-Knoten dahinter einmal jede Nacht. Aber das ist nur zur Sicherheit gewesen.

Die Zeile oben hat wohl soweit erst mal alle Probleme gelöst. Die Ausfallzeiten sind damit auf jeden Fall auf maximal ein paar Minuten alle 1-2 Tage reduziert.

Was meint ihr dazu?
Wer es brauchen kann - use it

Magst du uns auch die Namen der betroffenen Knoten nennen? Deine Lösung ist zwar schön und gut, ist aber gleichzeitig nur ein Workarround für das eigentliche Problem.

Klar ist es nur ein Workarround - aber da das Problem bei anderen und bei mir ja jetzt schon so lange da ist und sich in allen Versionen auch nicht verändert hat bin ich froh zumindest den zu haben.

Ein echte Lösung wäre mir natürlich auch viel lieber :-)

Uplink ist Lorsch-020
Die Mesh Knoten sind Lorsch-021 und seit gestern auch Lorsch-022

So ich hab mal die History der Knoten Werte gecheckt. Die sehen eigentlich ganz ok aus. Die Load ist zwar manchmal recht hoch, aber das steht in keinem Zusammenhang mit den Aufhängern. Sprich ich kann dir leider aktuell nicht sagen woran es liegt.

Der Zusammenhang war schon, dass es meistens dann passiert ist wenn viele Clients für einige Zeit Online waren.

Hab das gerade mal für die letzen 30 Tage gecheckt und muss dir leider widersprechen. Es sieht zwar so aus als gäbe es einen direkten Zusammenhang, aber dafür sind die Ausfällte zu schwankend. Es gibt sowohl Ausfälle bei Hoher als auch bei einer mittleren Zahl an Clients. Das müsste, wenn es wirklich die Clients sind, deutlich gleichförmiger auftreten.

Könnte es sein, dass hier wieder der Bug im WLAN Treiber vom Ad-Hock Modus mitspielt? Mit Gluon scheint das wohl deutlich seltener zu passieren, aber irgendwie schafft man es dann trotzdem, dass der Knoten abstürzt, bzw. sich dann irgendwie rebootet.

Möglich. Man müsste beobachten ob das besser wird sobald Gluon 2015.2 draußen ist und wir damit von BB auf CC hoch gehen.

Gibt es denn da neben kompletten Reboots und Hängern auch das Problem, dass nur WLAN hängt und ein Wifi down && Wifi hilft ? Genau das Problem habe ich hier so gut wie immer gesehen. Wobei man das auf den ersten Blick ja nur bei Up-link Knoten von einem kompletten Hänger unterscheiden kann.

die 0.5.1 hat doch schon CC? oder?
Hab ich auch schon getestet, aber leider war kein wesentlicher Unterschied zur 0.4.x zu sehen

Kann es sein, dass die Probleme hiermit zusammenhängen?

Enthält die aktuelle experimental diesen Fix schon? Falls nicht, könntest Du eine neue experimental machen, die den Fix drin hat?

Das würde passen. In den letzten Tagen gibt es dort in der Unterkunft auf allen Knoten doch immer öfter wieder reboots. Die stören zwar nicht so sehr wie Hänger- sollte aber ja auch nicht sein.

Ja der Fix ist in der aktuellen Experimental Firmware enthalten. Der Fix war schon am 2.11 im Master, der letzte Experimental Build ist vom 12.12.

D.h., deine Experimental-Builds basieren normalerweise auf dem Gluon-Master von genau dem Tag?

Jap, exakt so ist es.