In den letzten Wochen kam immer wieder das Thema auf, ob unser Netz denn nicht zu groß ist und es deshalb Probleme in Heppenheim gibt. Die beschriebenen Probleme waren eine schlechte Link Qualität (TQ) und ein geringer Durchsatz.
Von Beginn an hatten @Cheatha, @lukasbisdorf und ich damit argumentiert, dass es zu wenige Uplinks gibt und auch die schlechten Links zwischen den Knoten weitere, schwer zu analysierende Probleme verursachen.
Das mit den Uplinks wurde dann nach einiger Zeit auch angegangen. Das war ein erster wichtiger Schritt.
Leider ist dann dieses Thema und ein paar weitere Themen eskaliert, so das wir viel Zeit in schwierige, zum Teil leider unsachliche, Diskussionen statt Debugging stecken mussten. Letztlich wurde das, eigentlich lokale, Thema in das Deuschland-Forum gebracht, vermutlich, da es eine Unzufriedenheit mit unseren Antworten gab. Leider ist uns bis heute nicht klar woran das genau lag. Dort im Forum wurde dann die Theorie aufgestellt, dass Netze mit mehr als 100-200 Knoten zu groß sind und das Grundrauschen das Problem ist. So ist dann auch der Vorschlag eines Domänensplits entstanden und ins Spiel gebracht worden. Unsere, auf Daten und Zahlen basierende, Gegenargumentation fand im Forum leider kein Gehör.
Zu den Themen Meshing und Geschwindigkeit habe ich auch zwei weiterführende FAQ Artikel geschrieben, die ihr hier findet: Wie viele Mesh Knoten kann ich ohne Uplink hintereinander schalten? und Wird das Netz durch mehr Knoten langsam?
Leider wurden unsere Argumente, wie bereits erwähnt, nicht wirklich angenommen und es wurden stattdessen andere Argumente angebracht, die nicht fundiert belegt wurden. Trotz allem haben wir permanent weiter die Probleme untersucht und sind froh, jetzt endlich eine ausführliche Analyse und Handlungsempfehlung vorstellen zu können.
Diese untermauert unseren Standpunkt und unsere bisherige Argumentation und spricht eindeutig gegen die Größe des Netzes als Ursache.
Mitte letzter Woche hat mich Lukas in einem Gespräch über die Probleme in HP noch einmal darauf angesprochen, den Fehler doch im lokalen Netz in Heppenheim zu suchen. Daraus entstanden ist dann dieses Ergebnis.
Zuerst habe ich ein Tool geschrieben, dass es ermöglicht die TQ Werte in einem bestimmten Gebiet zu überwachen. Das hat sich dann zu einer immer weitergehenen Untersuchung entwickelt, die viele der Thesen aus dem Deutschland-Forum anhand von realen Daten widerlegen kann.
Aber erstmal auf Anfang. Dabei habe ich begonnen die Links in einem Gebiet in und um die Fußgängerzone in HP zu beobachten und dafür Graphen im Grafana zu erzeugen. Dabei hat sich gezeigt, das die TQ hier währen dem Tag (Werktags) bei etwa 40% liegt. Das ist wirklich sehr wenig. Gleichzeitig hat sich gezeigt, dass dieser Wert Nachts auf bis zu 70% ansteigt. Hier könnte man noch die Theorie aufstellen, dass es mit einem Nachts geringeren Grundrauschen zu tun hat. Dies ist jedoch nicht so, das können wir widerlegen.
Zusätzlich zu den TQ-Werten habe ich auch den oben zu sehenden Graph mit der Anzahl der Links im Vergleich zur TQ erzeugt. Dieser zeigt insbesondere morgens zwischen 8 und 9 Uhr einen starken Anstieg der Links und einen Abfall der TQ. Das ist der Moment, in dem die Knoten angeschaltet werden, die Nachts abgeschaltet waren.
Es zeigt sich, dass die TQ besser ist, wenn Nachts einige der Knoten abgeschaltet sind und sie ebenfalls sinkt wenn die Zahl der Mesh Verbindungen steigt. Das bestätigt die Theorie, dass sich die Knoten gegenseitig stören. Die Ursache ist das Hidden Station Problem: Dieses Problem führt dazu, dass z.B. Knoten A und C (die sich über Funk nicht sehen) gleichzeitig zu senden beginnen und B (der beide empfängt) dann diese Daten verwirft und beiden meldet, dass sie gleichzeitig gesendet haben. Es geht also für einen ganzen Moment gar nichts mehr. Das Problem ist schon bei drei Knoten problematisch, daran erkennt man, wie schwer es erst in einem Setup wie in der Fußgängerzone wird.
Es liegt aber nicht ausschließlich an dem Hidden Station Problem. Leider sind die Verbindungen an sich auch nicht sehr gut. Dies liegt vermutlich an einer nicht optimalen Positionierung der Knoten. Diese sollten so nah an der Fensterfront wie möglich positioniert werden.
Das zeigt sich, wenn wir die Daten aus HP mit dem übrigen Netz vergleichen.
Im obigen Graphen erkennt man, dass die TQ in der Fußgängerzone um etwa 42% geringer ist, als im übrigen Netz wenn man Heppenheim raus rechnet. Gleichzeitig gibt es die oben bereits beschriebenen Probleme auch in den Unterkünften in HP. Denn die TQ von ganz Heppenheim im Vergleich zum übrigen Netz liegt noch immer 27% niedriger.
Diese Werte sind ohne die VPN Verbindungen zu unseren Gateways, rechnet man diese mit rein, sind die Verbindungen in HP sogar noch mal 1-2% schlechter als im Schnitt.
Daher ist die klare Handlungsempfehlung um die Probleme zu lösen: die Positionen der Knoten muss verbessert werden. Überflüssige Knoten müssen abgeschaltet werden, sie stören mehr als dass sie helfen. Hier muss man dann auch etwas experimentieren, bis die richtigen Positionen gefunden sind.
Damit ist die Analyse jedoch nicht abgeschlossen, es gilt schließlich noch zu belegen, dass die Größe des Netzes keinen direkten Effekt auf die TQ hat.
Dazu habe ich weitere Daten, auch von anderen Communities, analysiert. Beispielhaft sind hier FFRN, Freifunk Hamburg (etwa 300 Knoten größer als wir), Darmstadt (etwa 300 Knoten kleiner als wir) und Düsseldorf (etwa 200 Knoten). Bei diesen Messungen wurden alle Link Werte erfasst, also sowohl VPN TQ als auch WLAN Mesh TQ.
Hier zeigt sich schon recht deutlich, dass eine Schwankung um bis zu 300 Knoten in beide Richtungen keinen Effekt auf die TQ erzeugt. Einzig Düsseldorf hat eine merkbar höhere TQ. Aber auch das lässt sich erklären und hängt nicht mit der Zahl der Knoten zusammen.
Obige Grafik zeigt dabei, dass die Zahl der Links steigt, wenn die Zahl der Knoten steigt. Das ist ein Verhalten das zu erwarten ist.
Die letzte Grafik zeigt, dass es jedoch einen Zusammenhang zwischen TQ und dem Verhältnis zwischen Zahl der Knoten und Zahl der Links gezogen werden kann. Dies zeigt sich auch dadurch, dass Communities mit einer ähnlichen TQ eine ähnliche Mesh Ratio haben, wie z.B. FFRN und Darmstadt. Gleichzeigt erklärt dieses Verhältnis auch, warum größere und kleinere Communities eine bessere TQ haben können, denn diese haben eine viel geringere Zahl von Mesh Verbindungen pro Knoten und damit auch eine statistisch signifikant niedrigere Wahrscheinlichkeit für komplexe und damit fehleranfälligere Mesh Konstrukte.
Somit zeigt sich, dass es aktuell keinen direkten Zusammenhang zwischen TQ und irgendwelchen, nicht lokalen, Netzvariablen gibt.