Blue Flower

Wie genau ist ein Ratingsystem?

 

Für den eiligen Leser: Am Ende ist eine Zusammenfassung der Ergebnisse.

 

Neben anderen Eigenschaft, wie Aktualität, Vollständigkeit ist natürlich interessant, wie gut ein Ratingssystem ist. Eine einfache Einschätzung kann jeder auf Anhieb machen: Er nimmt ein paar Spieler (bspw. aus seinem Verein), deren Spielstärke er gut kennt, und schaut deren Rating nach, bringt sie eine Reihenfolge und vergleicht diese Reihenfolge mit seiner eigenen Einschätzung. Das Ergebnis ist kann dann sein: passt / passt nicht / passt fast, bis auf eine Ausnahmen / ... Damit kann man Zutrauen zu einem Ratingsystem gewinnen, aber nicht entscheiden, wie gut es ist oder die Güte zweier Ratingssysteme vergleichen.

 

Neben einer Reihenfolge der Spieler (was eine Ranking macht) ordnet ein Rating jedem Spieler eine Zahl zu, die eine Bedeutung haben soll: wie stark ist ein Spieler im Vergleich zu einem anderen. Damit macht ein Ratingsystem eine Vorhersage über zukünftige Spielergebnisse. BAX und BADRAT sagen die Wahrscheinlicheit voraus, mit Spieler A gegen Spieler B gewinnt. MADU und PBR sagen voraus, mit welchem Ergebnis ein Satz zwischen den beiden Spielern endet. Damit haben wir auch schon den Ansatzpunkt für den Vergleich von Ratingsytemen: Wir vergleichen die Vorhersagen von Spielergebnissen bspw. aller Spieler eines Turniers. Wer die besten Vorhersagen macht, ist das genauste Ratingssystem.

 

Als Vorhersage nehmen wir nicht, ob der Sieger des Spiels richtig vorausgesagt wurde, sondern mit welcher Wahrscheinlichkeit der Sieger vorausgesagt wurde. Es ist besser, wenn der Sieg des Siegers mit 90%er Wahrscheinlichkeit vorausgesagt wurde, als wenn er nur mit 55%er Wahrscheinlichkeit. Ebenso wenn ist es besser wenn der Verlierer nur eine 60%-Siegchance hatte, als wenn er eine 80%ige hätte. In Anlehnung an den Wettbewerb des besten Schachratingsystem auf kaggle benutzen wir folgende Formel, um die Vorhersage für ein Spiel von Spieler A gegen Spieler B zu bewerten. Bei einem 3-Satz-Sieg (gelbe Kurve )sagt man den Sieger am besten mit 66%iger Wahrscheinlichkeit voraus. Das ergibt eine Strafwertung von 0,276.

 

  1. 1. Berechnung der Siegwahrscheinlichkeit E von Spieler A anhand der Ratings von A und B (dies ist abhängig vom Ratingssystem)
  2. 2. Bestimmen das Spielergebnis Y: 0 = Spieler A verliert in 2 Sätzen, 0.3333 = A verliert in 3 Sätzen, 0.6666 = A gewinnt in 3 Sätzen, 1 = A gewinnt in 2 Sätzen.
  3. 3. Berechnung der Vorhersagegenauigkeit V = - (Y * LOG10(E)  +  (1-Y) * LOG10(1-E)) (Achtung: Je größer V ist, desto schlechter ist die Vorhersage! Kleine Zahlen sind also gut.)

 

Die Herleitung oder Begründung der Formel brauch uns hier nicht zu kümmern. Wer interessiert ist, kann hier mehr nachlesen :-) Schauen wir uns die Formel als Grafik an:

 

 

 

Die blaue Kurve zeigt die Bewertung für einen 2-Satz-Sieg von Spieler A. Wird ein Sieg mit 1%-Wahrscheinlichkeit vorhergesagt, ergibt diese "Strafwertung" von 2 (ganz links im Diagramm). Bei 50% (in der Mitte), sind es nur noch 0,301 und wird der Sieg mit 99%iger Sicherheit prognostiziert, so sind es nur noch 0,004.

 

Schön zu sehen ist auch das Ergebnis, wenn man keine Vorhersage macht, das heisst beiden Spielern eine 50%-Siegwahrscheinlichkeit zuspricht (Schnittpunkt der vier Kurven in der Mitte). Egal wie das Spiel ausgeht, man erhält eine Strafwertung von 0,301.

 

Einen Schönheitsfehler hat diese Vorgehensweise: nur zwei (BAX, BADRAT) der vier Ratingsyteme geben direkt eine Wahrscheinlichkeit für einen Spielergebnis an. MADU und PBR tun dies nicht, sie geben ja eine Punktedifferenz pro Satz an. Hier behelfen wir uns mit einer Umrechnung von Punktedifferenz in eine Gewinnwahrscheinlichkeit. Bei MADU bedeuten 320 Punkteunterschied eine Gewinnwahrscheinlichkeit von 90%, bei PBR sind es 2,4.

 

Damit haben wir alle Zutaten für den Vergleich von Ratingsystemen zusammen:

1. Wähle verschiedene Turniere, anhand derer die Ratingsysteme verglichen werden sollen

    2. Für jedes Turnier wähle eine Disziplin aus

    3. Für jedes Ratingsystem:

            4. Bestimmt die Spielstärke jedes Spielers, die der Spieler vor dem Turnier in dem Ratingsystem hatte

            5. Berechne für jedes Spiel die Strafwertung

            6. Berechne den Durchschnitt der Starfwertungen

    7. Vergleiche die Durchschnitte der Strafwertungen. Je niedriger der wert, desto besser das Ratingssystem

8. Vergleiche die Ergebnisse der verschiedenen Systeme über alle Turnier