Blue Flower

Nachdem wir uns die Regionalmeisterschaften O19 und U19 im Einzel und Doppel angeschaut haben, betrachten wir alle Ligaspiele im Einzel im Januar 2016. Ausgangangspunkt sind wieder die Ratings von Anfang Januar 2016. Im Ligaspielbetrieb findet man die ganze Bandbreite: von jung bis alt, Aushilfsspieler bis Regelspieler, Anfänger bis Könner, Kreisklasse bis Bundesliga. Da nicht alle Ratingssysteme auch eine genügende Anzahl von Spielen in allen Ligen werten können, ist die Auswertung in Blöcke unterteilt. Im ersten Block sind die Ligen, für die alle Ratingsystem genügend Spiele werten. Im zweiten Block die Ligen, die BAX, MADU und PBR genug vertreten sind. Im dritten Block ist nur noch PBR. Mangels genügend Spiele bleibt die Liga von Sachsen-Anhalt außen vor. 

  Spieler Spiele BAX BADRAT MADU PBR
Liga     Spieler Spiele Wertung Spieler Spiele Wertung Spieler Spiele Wertung Spieler Spiele Wertung
BAY 1647 1346 1306 934 0,214 1376 1021 0,222 1586 1260 0,209 1475 1166 0,209
DBV 354 351 346 337 0,247 343 333 0,236 351 345 0,254 351 346 0,216
HES 1498 1476 1264 1147 0,212 1349 1254 0,228 1489 1456 0,212 1439 1394 0,203
THÜ 161 164 125 125 0,215 133 127 0,210 159 162 0,206 154 157 0,199
Insgesamt 3660 3337 83% 76% 0,222 87% 82% 0,224 98% 97% 0,220 93% 92% 0,206
Gewichteter Durchschnitt       0,217     0,226     0,215     0,206
Genauigkeit         60,6%     59,5%     60,9%     62,2%

 In der ersten Gruppen sind die Ligen von Bayern, Hessen und Thüringen sowie die Bundesligen. Am meisten Spieler kennt MADU (98%). Schon deutlich weniger sind es bei PBR mit 93%. BADRAT kommt mit 87% dahinter. Etwas überraschend ist BAX mit 83% auf dem letzten Platz.

Bzgl. der Genauigkeit sind alle Ratingsystem im Vergleich zu den Regionalmeisterschaften enger zusammengerückt. Auf dem letzten Platz liegt BADRAT mit 59,5%. Knapp 12% besser ist BAX. 3% besser als BAX liegt MADU und nochmal 12% besser ist PBR.

 

  Spieler Spiele BAX BADRAT MADU PBR
Turnier     Spieler Spiele Wertung Spieler Spiele Wertung Spieler Spiele Wertung Spieler Spiele Wertung
BAY 1647 1346 1306 934 0,214 1376 1021 0,222 1586 1260 0,209 1475 1166 0,209
BRE 248 178 212 142 0,244 7 0   247 176 0,208 242 170 0,209
BVRP 440 368 347 237 0,271 36 6   414 322 0,263 420 338 0,205
DBV 354 351 346 337 0,247 343 333 0,236 351 345 0,254 351 346 0,216
HES 1498 1476 1264 1147 0,212 1349 1254 0,228 1489 1456 0,212 1439 1394 0,203
HAM 512 492 450 408 0,272 40 11   505 481 0,220 492 463 0,241
NIS 2341 2580 1977 2058 0,215 79 13   2310 2515 0,216 2177 2360 0,213
NRW 6452 4958 5864 4268 0,213 299 107   6424 4901 0,206 6310 4781 0,203
SAC 459 387 413 335 0,229 46 8   453 380 0,232 436 359 0,229
SAR 431 340 409 317 0,219 42 5   430 337 0,212 417 325 0,218
SHV 709 712 577 536 0,223 28 4   693 685 0,207 679 667 0,197
THÜ 161 164 125 125 0,215 133 127 0,210 159 162 0,206 154 157 0,199
Insgesamt 15252 13352 87% 81% 0,231 25% 22%   99% 98% 0,220 96% 94% 0,212
Gewichteter Durchschnitt       0,220           0,213     0,208
Genauigkeit         60,3%           61,2%     61,9%

Beim nächsten Schwung Ligen sind mit NRW und Niedersachsen die zwei größten dabei (zumindest was die Spiele im Januar 2016 angeht). Die Genauigkeiten haben sich ein wenig verschoben: MADU konnte sich um 0,3%-Punkte verbessern, BAX und PBR verloren 0,3%-Punkte. Damit liegt PBR nur noch 6% vor MADU (0,7% / 11,2%).

Bei den letzten drei Ligen (Berlin-Brandenburg, Baden-Württemberg und Rheinland liefert nur PBR noch genügend Spiele ab:

  Spieler Spiele BAX BADRAT MADU PBR
Turnier     Spieler Spiele Wertung Spieler Spiele Wertung Spieler Spiele Wertung Spieler Spiele Wertung
BB 791 820 85 13   62 6   449 292   751 769 0,227
BVR 260 207 18 1   41 14   110 57   238 183 0,216
BW 1296 697 4 0   75 6   270 41   1214 614 0,207
Insgesamt 2347 1724 5% 1%   8% 2%   35% 23%   94% 91% 0,216
Gewichteter Durchschnitt                         0,218
Genauigkeit                           60,6%

 Zusammenfassung:

- Die meisten Spieler deutschlandweit sind PBR bekannt. Läßt von die drei Ligen in der letzten Tabelle außen vor, ist MADU am besten vertreten (99%!) vor PBR (96%) und BAX (87%). BADRAT ist leider nur in Bayern, Hessen und Türingen sowie in den Bundesligen vertreten.

- Die besten Vorhersagen liefert PBR vor MADU. Etwas dahinter ist BAX. Am Ende ist BADRAT zu finden, wenn auch immer noch mit einer ordentlichen Performancen.

 

Achtung: dieser Artikel wurde am 18. Februar 2016 überarbeitet:

  • Die Deutschen Meisterschaften wurden berücksichtigt.
  • Es werden Einzel- und Doppeldisziplinen ausgewertet.
  • Im Einzel werden Herren und Damen gewertet, im Doppel Herren, Damen und Mixed.
  • Die Qualität der Auswertung wurde durch Überprüfung der Spielernamen verbessert (Traurig, aber wahr: Auch bei diesen Turnieren gibt es etliche Tipfehler in den Namen und IDs der Spieler. Deshalb wurde das Rating einiger Spieler falsch und gar nicht gefunden).

Dieser Block der Vergleich der vier Ratingsysteme besteht in den Einzeln und Doppeln/Mixed der Regional- und Deutschen Meisterschaft O19 2016

  • Nordeutsche Meisterschaft U13-U19 2016
  • Westdeutsche Meisterschaft U11-U19 2016
  • Südwestdeutsche Meisterschaft U13-U19 2016
  • Südostdeutsche Meisterschaft U13-U19 2016
  • Deutsche Meisterschaft U15-U19 2016

Da MADU nur ein Rating für alle Disziplinen berechnet, während BAX, BADRAT und PBR Einzel, Doppel/Mixed getrennt werten, werden hier Einzel und Mixed getrennt ausgewertet.

Alle Ratings stammen von Anfang Januar (es wurden also auch für die Deutschen Meisterschaften im Februar 2016 keine aktualisierten Ratings (von MADU und PBR) verwendet, um die Voraussetzungen gleich zu halten (BAX und BADRAT aktualisieren in größeren Abständen)). 

Einzel

In der Übersicht:

  Spieler Spiele BAX BADRAT MADU PBR
Turnier     Spieler Spiele Wertung Spieler Spiele Wertung Spieler Spiele Wertung Spieler Spiele Wertung
NDEM U13-U19 2016 120 111 112 103 0,344 9 3   120 111 0,204 120 111 0,194
WDM U11-U19 2016 217 206 214 200 0,228 15 8   217 206 0,174 217 206 0,164
SWD U13-U19 2016 102 94 85 74 0,267 48 29   101 92 0,216 100 92 0,196
SOD U13-U19 2016 146 138 116 82 0,289 57 17   146 138 0,177 146 138 0,160
DM U15-U19 2016 147 141 142 134 0,294 79 56   147 141 0,240 147 141 0,246
Insgesamt 732 690 91% 86% 0,285 28% 16%   100% 100% 0,202 100% 100% 0,192
Genauigkeit         51,9%           62,8%     64,3%

 

Erklärung:

Zu jedem Turnier ist die Anzahl der Spieler und Spiele angegeben.

Für jedes Ratingsystem ist

  • die Anzahl der Spieler, für die ein Rating vorlag,
  • die Anzahl der Spiele, für die eine Prognose berechnet werden konnte,
  • eine durchschnittliche Wertung, für die Spiele, die alle Ratingsysteme werten konnten (d.h. Spiele, bei denen ein Ratingsystem keine Prognose abgeben konnte, weil mind. ein Spieler unbekannt war, werden bei allen Ratingsysteme nicht berücksichtigt

Sind zu viele Spieler einem Ratingsystem unbekannt, so wird das Ratingsystem für dieses Turnier aus der Wertung genommen. BADRAT konnte bspw. bei den Westdeutschen Meisterschaften nur 1 von 172 Spiele eine Prognose abgeben.

Je kleine die Wertung, desto besser das Ratingsystem. Grün ist das jeweils beste System markiert, rot das schlechteste.

Genauigkeit rechnet die Wertung in eine Prozentzahl um: 50% (= Wertung von 0,301) erreicht ein Ratingsystem, das jeden Spieler gleich stark einschätzt, also keine (bzw 50:50) Gewinnvorhersage macht. 100% bedeutet, daß ein Ratingsystem perfekt arbeitet: Für den späteren Sieger wird vorausgesagt, daß er mit 100% Wahrscheinlichkeit gewinnt. Zum Vergleich: Das bekannte ELO-System erreicht eine Genauigkeit von 56%.

Auswertung:

Im Einzel ergibt sich folgendes Bild:

- MADU und PBR sind fast alle Spieler bekannt bzw. haben ein Einzelrating. BAX kommt auf 91%, während mit BADRAT nur 28% kennt und in diesem Bereich nicht brauchbar ist.

- Die höchste Genauigkeit erreicht PBR und vor MADU: 12% höhere Genauigkeit. BAX ist unerklärlich schwach: 51,9% Genauigkeit ist kaum besser als die 50%, die man erreicht, wenn mal Spieler gleich stark einschätzt.

Doppel

 Die Übersicht im Doppel:

  Spieler Spiele BAX BADRAT MADU PBR
Turnier     Spieler Spiele Wertung Spieler Spiele Wertung Spieler Spiele Wertung Spieler Spiele Wertung
NDEM U13-U19 2016 108 95 98 78 0,267 4 0   108 95 0,217 107 92 0,200
WDM U11-U19 2016 184 172 176 160 0,206 7 1   184 172 0,180 184 172 0,165
SWD U13-U19 2016 89 76 69 55 0,250 34 19   88 74 0,167 87 74 0,187
SOD Meisterschaft U13-U19 2016 133 121 119 96 0,185 46 14   132 119 0,175 132 120 0,170
DM U15-U19 2016 156 147 152 143 0,211 65 45   156 147 0,213 156 147 0,178
Insgesamt 670 611 92% 87% 0,224 23% 13%   100% 99% 0,190 99% 99% 0,180
Genauigkeit         59,7%           64,5%     66,1%

Auswertung:

Im Doppel ergibt sich folgendes Bild:

- MADU und PBR sind fast alle Spielerpaare bekannt bzw. haben einDoppelrating. BAX kommt auf 92%, während mit BADRAT nur 23% kennt und in diesem Bereich nicht brauchbar ist.

- Die höchste Genauigkeit erreicht mit Abstand PBR und vor MADU. BAX ist deutlich dahinter: Nimmt man wieder 50% Genauigkeit als Bezugsgröße, so ist PBR 76% besser als BAX und 11% besser als MADU.

Wie genau ist ein Ratingsystem?

 

Für den eiligen Leser: Am Ende ist eine Zusammenfassung der Ergebnisse.

 

Neben anderen Eigenschaft, wie Aktualität, Vollständigkeit ist natürlich interessant, wie gut ein Ratingssystem ist. Eine einfache Einschätzung kann jeder auf Anhieb machen: Er nimmt ein paar Spieler (bspw. aus seinem Verein), deren Spielstärke er gut kennt, und schaut deren Rating nach, bringt sie eine Reihenfolge und vergleicht diese Reihenfolge mit seiner eigenen Einschätzung. Das Ergebnis ist kann dann sein: passt / passt nicht / passt fast, bis auf eine Ausnahmen / ... Damit kann man Zutrauen zu einem Ratingsystem gewinnen, aber nicht entscheiden, wie gut es ist oder die Güte zweier Ratingssysteme vergleichen.

 

Neben einer Reihenfolge der Spieler (was eine Ranking macht) ordnet ein Rating jedem Spieler eine Zahl zu, die eine Bedeutung haben soll: wie stark ist ein Spieler im Vergleich zu einem anderen. Damit macht ein Ratingsystem eine Vorhersage über zukünftige Spielergebnisse. BAX und BADRAT sagen die Wahrscheinlicheit voraus, mit Spieler A gegen Spieler B gewinnt. MADU und PBR sagen voraus, mit welchem Ergebnis ein Satz zwischen den beiden Spielern endet. Damit haben wir auch schon den Ansatzpunkt für den Vergleich von Ratingsytemen: Wir vergleichen die Vorhersagen von Spielergebnissen bspw. aller Spieler eines Turniers. Wer die besten Vorhersagen macht, ist das genauste Ratingssystem.

 

Als Vorhersage nehmen wir nicht, ob der Sieger des Spiels richtig vorausgesagt wurde, sondern mit welcher Wahrscheinlichkeit der Sieger vorausgesagt wurde. Es ist besser, wenn der Sieg des Siegers mit 90%er Wahrscheinlichkeit vorausgesagt wurde, als wenn er nur mit 55%er Wahrscheinlichkeit. Ebenso wenn ist es besser wenn der Verlierer nur eine 60%-Siegchance hatte, als wenn er eine 80%ige hätte. In Anlehnung an den Wettbewerb des besten Schachratingsystem auf kaggle benutzen wir folgende Formel, um die Vorhersage für ein Spiel von Spieler A gegen Spieler B zu bewerten. Bei einem 3-Satz-Sieg (gelbe Kurve )sagt man den Sieger am besten mit 66%iger Wahrscheinlichkeit voraus. Das ergibt eine Strafwertung von 0,276.

 

  1. 1. Berechnung der Siegwahrscheinlichkeit E von Spieler A anhand der Ratings von A und B (dies ist abhängig vom Ratingssystem)
  2. 2. Bestimmen das Spielergebnis Y: 0 = Spieler A verliert in 2 Sätzen, 0.3333 = A verliert in 3 Sätzen, 0.6666 = A gewinnt in 3 Sätzen, 1 = A gewinnt in 2 Sätzen.
  3. 3. Berechnung der Vorhersagegenauigkeit V = - (Y * LOG10(E)  +  (1-Y) * LOG10(1-E)) (Achtung: Je größer V ist, desto schlechter ist die Vorhersage! Kleine Zahlen sind also gut.)

 

Die Herleitung oder Begründung der Formel brauch uns hier nicht zu kümmern. Wer interessiert ist, kann hier mehr nachlesen :-) Schauen wir uns die Formel als Grafik an:

 

 

 

Die blaue Kurve zeigt die Bewertung für einen 2-Satz-Sieg von Spieler A. Wird ein Sieg mit 1%-Wahrscheinlichkeit vorhergesagt, ergibt diese "Strafwertung" von 2 (ganz links im Diagramm). Bei 50% (in der Mitte), sind es nur noch 0,301 und wird der Sieg mit 99%iger Sicherheit prognostiziert, so sind es nur noch 0,004.

 

Schön zu sehen ist auch das Ergebnis, wenn man keine Vorhersage macht, das heisst beiden Spielern eine 50%-Siegwahrscheinlichkeit zuspricht (Schnittpunkt der vier Kurven in der Mitte). Egal wie das Spiel ausgeht, man erhält eine Strafwertung von 0,301.

 

Einen Schönheitsfehler hat diese Vorgehensweise: nur zwei (BAX, BADRAT) der vier Ratingsyteme geben direkt eine Wahrscheinlichkeit für einen Spielergebnis an. MADU und PBR tun dies nicht, sie geben ja eine Punktedifferenz pro Satz an. Hier behelfen wir uns mit einer Umrechnung von Punktedifferenz in eine Gewinnwahrscheinlichkeit. Bei MADU bedeuten 320 Punkteunterschied eine Gewinnwahrscheinlichkeit von 90%, bei PBR sind es 2,4.

 

Damit haben wir alle Zutaten für den Vergleich von Ratingsystemen zusammen:

1. Wähle verschiedene Turniere, anhand derer die Ratingsysteme verglichen werden sollen

    2. Für jedes Turnier wähle eine Disziplin aus

    3. Für jedes Ratingsystem:

            4. Bestimmt die Spielstärke jedes Spielers, die der Spieler vor dem Turnier in dem Ratingsystem hatte

            5. Berechne für jedes Spiel die Strafwertung

            6. Berechne den Durchschnitt der Starfwertungen

    7. Vergleiche die Durchschnitte der Strafwertungen. Je niedriger der wert, desto besser das Ratingssystem

8. Vergleiche die Ergebnisse der verschiedenen Systeme über alle Turnier

 

 

Achtung: dieser Artikel wurde am 08. Februar 2016 überarbeitet:

  • Die Deutschen Meisterschaften wurden berücksichtigt.
  • Es werden Einzel- und Doppeldisziplinen ausgewertet.
  • Im Einzel werden Herren und Damen gewertet, im Doppel Herren, Damen und Mixed.
  • Die Qualität der Auswertung wurde durch Überprüfung der Spielernamen verbessert (Traurig, aber wahr: Auch bei diesen Turnieren gibt es etliche Tipfehler in den Namen und IDs der Spieler. Deshalb wurde das Rating einiger Spieler falsch und gar nicht gefunden).

Dieser Block der Vergleich der vier Ratingsysteme besteht in den Einzeln und Doppeln/Mixed der Regional- und Deutschen Meisterschaft O19 2016

  • Nordeutsche Meisterschaft O19 2016
  • Westdeutsche Meisterschaft O19 2016
  • Südwestdeutsche Meisterschaft O19 2016
  • Südostdeutsche Meisterschaft O19 2016
  • Deutsche Meisterschaft O19 2016

Da MADU nur ein Rating für alle Disziplinen berechnet, während BAX, BADRAT und PBR Einzel, Doppel/Mixed getrennt werten, werden hier Einzel und Mixed getrennt ausgewertet.

Einzel

In der Übersicht:

  Spieler Spiele BAX BADRAT MADU PBR
Turnier     Spieler Spiele Wertung Spieler Spiele Wertung Spieler Spiele Wertung Spieler Spiele Wertung
NDEM O19 2016 62 59 61 58 0,323 44 36   62 59 0,240 62 59 0,243
WDM O19 2016 79 76 79 76 0,220 49 41   79 76 0,361 79 76 0,196
SWD O19 2016 73 71 72 68 0,222 65 61 0,229 73 71 0,209 73 71 0,191
SOD O19 2016 71 69 66 63 0,288 64 60 0,266 71 69 0,241 69 67 0,246
DM O19 2016 97 95 97 95 0,205 87 81 0,195 97 95 0,180 97 95 0,151
Insgesamt 382 370 98% 97% 0,251 81% 75%   100% 100% 0,246 99% 99% 0,206
Genauigkeit         56,0%           56,7%     62,3%

Erklärung:

Zu jedem Turnier ist die Anzahl der Spieler und Spiele angegeben.

Für jedes Ratingsystem ist

  • die Anzahl der Spieler, für die ein Rating vorlag,
  • die Anzahl der Spiele, für die eine Prognose berechnet werden konnte,
  • eine durchschnittliche Wertung, für die Spiele, die alle Ratingsysteme werten konnten (d.h. Spiele, bei denen ein Ratingsystem keine Prognose abgeben konnte, weil mind. ein Spieler unbekannt war, werden bei allen Ratingsysteme nicht berücksichtigt

Sind zu viele Spieler einem Ratingsystem unbekannt, so wird das Ratingsystem für dieses Turnier aus der Wertung genommen. BADRAT konnte bspw. bei den Norddeutschen Meisterschaften nur 36 von 59 Spiele eine Prognose abgeben.

Je kleine die Wertung, desto besser das Ratingsystem. Grün ist das jeweils beste System markiert, rot das schlechteste.

Genauigkeit rechnet die Wertung in eine Prozentzahl um: 50% (= Wertung von 0,301) erreicht ein Ratingsystem, das jeden Spieler gleich stark einschätzt, also keine (bzw 50:50) Gewinnvorhersage macht. 100% bedeutet, daß ein Ratingsystem perfekt arbeitet: Für den späteren Sieger wird vorausgesagt, daß er mit 100% Wahrscheinlichkeit gewinnt. Zum Vergleich: Das bekannte ELO-System erreicht eine Genauigkeit von 56%.

Auswertung:

Im Einzel ergibt sich folgendes Bild:

- BAX, MADU und PBR sind fast alle Spieler bekannt bzw. haben ein Einzelrating. MADU kennt sogar alle Spieler. Bei BADRAT sind es nur 81%, was verständlich ist, da vor allem süddeutsche Ligen ausgewertet. Aus der anderen Seite hätte mann bei diesen höheren Turnieren vielleicht auch mehr erwarten können.

- Die höchste Genauigkeit erreicht mit Abstand PBR und gewinnt klar. Aber Achtung: MADU ist bei auf die Westdeutsche Meisterschaft auch gut im Renne. Bei WDM verhagelt der spätere Sieger Alexander Schmitz das Ergebnis. Weil es mehrere Spieler diesen Namens gibt, ist das MADU-Rating eine Mischung dieser Spieler und liegt viel zu niedrig.

Doppel

Die Übersicht im Doppel:

  Spieler Spiele BAX BADRAT MADU PBR
Turnier     Spieler Spiele Wertung Spieler Spiele Wertung Spieler Spiele Wertung Spieler Spiele Wertung
NDEM O19 2016 75 71 73 69 0,237 50 43   75 71 0,203 75 71 0,199
WDM O19 2016 101 98 100 97 0,224 66 60   101 98 0,239 101 98 0,207
SWD O19 2016 84 83 80 76 0,199 63 60 0,188 84 83 0,243 84 83 0,200
SOD O19 2016 67 64 60 52 0,235 59 55 0,253 65 62 0,249 62 55 0,222
DM O19 2016 120 117 117 107 0,208 114 108 0,228 120 117 0,188 120 117 0,199
Insgesamt 447 433 96% 93% 0,221 79% 75%   100% 100% 0,224 99% 98% 0,205
Genauigkeit         60,2%           59,6%     62,3%

Auswertung:

Im Doppel/Mixed ergibt sich folgendes Bild:

- Fast alle Spieler sind BAX, MADU und PBR bekannt. BADRAT schwächelt wieder bei zwei Turnieren.

- Wieder hat PBR die höchste Genauigkeit. Wesentlich besser liegen aber BAX und MADU. Vor allem BAX meldet sich eindrucksvoll zurück. Bei MADU hatte sich im Einzel ja bereits be einigen Turnieren gezeigt, daß es besser kann.

- BADRAT zeigt ein durchwachsenes Bild. Beim Heimturnier (Südwest) ist es bester, bei der DM mit Abstand schlechtester.

- Der Abstand zwischen BAX und PBR scheint gering zu sein (2,1%-Punkte). Wenn aber berücksicht, daß 50% ja das Nicht-Rating liegt, so sind  2,1%-Punkte 20,5% besser! Die Genauigkeit von PBR ist also über 20% besser also die von BAX.