Reise um zu Gewinnen

Der Zusammenhang von Reisedistanz und Siegen in den 1. Ligen

Sport
R
Author

Markus Burkhardt

Published

02.27.2023

Lernziele in R

  • Extraktion der Koordinaten (Geolocation) von Orten

  • Distanzberechnung

Motivation

Auswärtsspiele sind elementarer Bestandteil des Ligabetriebs im Sport. Spielt eine Mannschaft auswärts, muss sie in einer fremden Umgebung antreten, in der das gegnerische Team einen Heimvorteil, also eine höhere Gewinnwahrscheinlichkeit besitzt. Für den Heimvorteil werden im wesentlichen drei Faktoren diskutiert (Nevill & Holder, 1999):

  • Unterstützung durch eigene Fans1 (z. B. durch Auswirkungen auf Schiedsrichterentscheidungen)
  • Vertrautheit mit der Spielstätte (z. B. der Zustand des Platzes, Beleuchtung, Umkleidekabinen etc.)

  • Reisestrapazen (z. B. Ermüdung und Jetlag)

Wir wollen uns hier der potenziellen Auswirkung langer Anreisen widmen und dieses Thema mit frei verfügbaren Daten statistisch analysieren.

Reisestrapazen im Sport

Huyghe und Calleja-Gonzalez (2020) argumentieren unter dem Begriff cumulative travel fatigue, dass lange Anreisen als erschöpfend wahrgenommen werden. Das führt dazu, dass Sportler langsamer reagieren, weniger aufmerksam sind und mehr Fehler machen. Außerdem werden lange Anreisen auch mit Verletzungen in Verbindung gebracht (z. B. durch Steifheit und Anspannung von Muskeln und Gelenken) und auch psychologischen Faktoren Stimmung oder Orientierungsreaktionen bzw. das Gefühl, weniger Energie zu haben.

Die Befunde stammen vornehmlich aus dem US-amerikanischen Raum (wo Jetlag aufgrund verschiedener Zeitzonen besonders bedeutsam ist), dennoch sind das gute Gründe für folgende Hypothese:

Mannschaften, die in einer Saison größere Distanzen zu Auswärtsspielorten zurücklegen, gewinnen seltener.

Analysestrategie

1 - Die Daten

Der Ausgangpunkt unserer Analyse sind die Abschlusstabellen der 1. Fußballbundesliga von 1963/64 bis 2021/22 (wie sie z. B. in der Wikipedia angegeben sind. Zunächst haben wir die Namen der Fußballteams durch die Städte, in der die Mannschaften ansässig sind ersetzt. (Daher findet sich beispielsweise nicht Hoffenheim, sondern Sinsheim in den Tabellen). Starten wir mit dem Einelsen und der Inspektion unserer Ausgangsdaten:

# Einlesen der Daten: Fussball 1. Liga Herren
library(readr)
FBL1 <- read_delim("https://www-user.tu-chemnitz.de/~burma/blog_data/Fussball_BL_1_Herren.csv", 
    delim = ";", escape_double = FALSE, locale = locale(encoding = "ISO-8859-1"), 
    trim_ws = TRUE)
head(FBL1)
# A tibble: 6 x 7
    tab games  wins  draw  lost  year City     
  <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <chr>    
1     1    30    17    11     2    63 Köln     
2     2    30    13    13     4    63 Duisburg 
3     3    30    16     7     7    63 Frankfurt
4     4    30    14     5    11    63 Dortmund 
5     5    30    13     7    10    63 Stuttgart
6     6    30    11    10     9    63 Hamburg  

2 - Die Geolocation und Entfernung von Städten

Die Geolocation ermitteln wir mit dem Paket tmaptools, welches über OSM die Koordinaten der Stadt ausgibt. Wir zeigen das exemplarisch für die Entfernung von Chemnitz und Dresden.

# Geolocation von Chemnitz und Dresden
library(tmaptools)
gc_C <- geocode_OSM("Chemnitz")$coords
gc_D <- geocode_OSM("Dresden")$coords

# Die Koordinaten für Chemnitz
gc_C
       x        y 
12.92530 50.83226 

Nun ermitteln wir mit geosphere die Entfernung beider Städte.

# Entfernung von Chemnitz und Dresden
library(geosphere)
distHaversine(
  p1 = gc_C,
  p2 = gc_D
)
[1] 61925.64

Wir erhalten als Luftlinie die Entfernung von 61,9 km beider Städte.

Nun ist die Entfernung aller Städte in einer Saison zu ermitteln. Anschließend bilden wir die Summe aus den Entfernungen zu den einzelnen Städten. Diese Entfernungen lassen sich aus dem Datensatz FBL1 in eine Distanzmatrix überführen. Wir haben hier bereits eine Liste mit den Distanzmatrizen hinterlegt. Zum Verständnis berechnen wir aus der letzten Saison 21/22 den Zusammenhang von Reisedistanz und der Anzahl an gewonnenen Spielen:

# Einlesen der Distanzmatrizen
dist_fbl1 <- readRDS(
  url("https://www-user.tu-chemnitz.de/~burma/blog_data/dist_fbl1.RData")
  )
dist_S21_22 <- dist_fbl1[[59]]
dist_S21_22
   TAB    DIST WINS            CITY
1   14 5591635   10        Augsburg
2    5 6850924   16          Berlin
3   16 6850924    9          Berlin
4   17 4611090    5       Bielefeld
5   13 4436463   12          Bochum
6    2 4348259   22        Dortmund
7   11 3780749   10       Frankfurt
8    6 6139305   15        Freiburg
9   18 4623054    3           Fürth
10   7 4337291   14            Köln
11   4 5363877   17         Leipzig
12   3 4332216   19      Leverkusen
13   8 3895236   13           Mainz
14  10 4840309   12 Mönchengladbach
15   1 6254542   24         München
16   9 4256836   13        Sinsheim
17  15 4720597    7       Stuttgart
18  12 5345185   12       Wolfsburg

Betrachten wir die erste Zeile der Tabelle:

  • CITY steht für den 1. FC Augsburg.
  • TAB ist die Tabellenplatzierung nach der Saison (hier 14. Platz)
  • DIST gibt die Summe der zurückgelegten km für Auswärtsspiele an (hier: 5591,635 km)
  • WINS enthält die Anzahl der Siege.

Der 1. FC Augsburg ist in der Saison 2021/22 zweimal nach Berlin (zu Hertha und Union), nach Bielefeld und so weiter, gefahren. Die Summe all dieser Entfernungen beträgt 5591,635 km.

3 - Der Zusammenhang von Sieg und Distanz

Im nächsten Schritt benötigen wir nur noch die Korrelation von Distanz und gewonnenen Spielen. Wir haben uns hier für die Pearson Korrelation \(r\) entschieden (mit Spearmans \(\rho\) wird die Korrelation etwas kleiner aber die Tendenz bleibt!)

# Einlesen der Distanzmatrizen
plot(dist_S21_22$DIST/1000, dist_S21_22$WINS, 
     xlab = "Entfernung in km", ylab = "Gewonnene Spiele")

cor(dist_S21_22$DIST, dist_S21_22$WINS) 
[1] 0.1803106

Ergebnis

Dieser Zusammenhang ist mit \(r = 0.18\) klein und positiv. Aber halt! Erwarten wir nicht den umgekehrten Fall? Je mehr Kilometer ein Team im Verlauf der Saison gefahren ist, umso geringer sollte die Anzahl der Siege ausfallen? Betrachten wir nun die Zusammenhänge der letzten 59 Jahre:

r_fbl1 <- NULL
for(i in 1:59){
  r_fbl1[i] <- cor(dist_fbl1[[i]]$WINS, dist_fbl1[[i]]$DIST)
}
scatter.smooth(1963:2021, r_fbl1,span = .5, ylab = "Distanzkorrelation", xlab = "Jahr",
               main = "Fussball - Herren 1.Liga")
abline(h = 0, lty = 2)

median(r_fbl1)
[1] 0.1539815

Oha! Über die letzten 59 Jahre finden wir einen \(r_{Median} = 0.15\), also das genau Gegenteil von unserer Hypothese! Je weiter die Anreise, umso mehr Spiele werden sogar gewonnen. Reisestress scheint also den Spielern eher gutzutun(?).

Aber ist dieser Befund spezifisch für den Fußball? Betrachten wir andere Sportarten bzw. die Frauenteams zeigt sich ein ähnliches Bild:

Sport Liga Saison r_Median N
Fussball 1. Bundesliga Herren 1963 - 2022 0.15 59
Fussball 1. Bundesliga Damen 1997 - 2018 0.10 11
Handball 1. Bundesliga Herren 1978 - 2018 0.28 40
Handball 1. Bundesliga Damen 1986 - 2018 0 32
Volleyball 1. Bundesliga Herren 1974 - 2018 0.31 44
Volleyball 1. Bundesliga Damen 1996 - 2018 0.24 22
Basketball 1. Bundesliga Herren 1995 - 2018 0.21 23

Diskussion

Grundsätzlich können wir nur spekulieren. Möglicherweise hilft uns ein Konzept aus der Biologie - das Revier. Ein Revier ist ein Gebiet mit einer Ansammlung von Ressourcen. Im Fußball könnten das Fans, Nachwuchsspieler, Sponsoren etc. sein. Je größer ein Revier, umso größer die potenziellen Ressourcen und ein Revier ist dann größer, wenn es weniger Konkurrenten in der Umgebung sprich: Wenig Konkurrenz - weite Anfahrtswege zu den gegnerischen Mannschaften. Zur Veranschaulichung haben wir eine kleine Karte erstellt. (Eine Anleitugn für die Karte gebe ich in meinem Blogbeitrag Landkarten in R)

FBL1_coord <- read_delim("https://www-user.tu-chemnitz.de/~burma/blog_data/FBL1_coord.csv", 
    delim = ";", escape_double = FALSE, locale = locale(decimal_mark = ",", 
        encoding = "ISO-8859-1"), trim_ws = TRUE)
# 

Bemerkenswert ist außerdem, dass wir europaweite Ligen außer Acht gelassen haben. Gerade die besseren Mannschaften haben dadurch einen vermehrten Reisestress, was den von uns ermittelten Effekt eher unterschätzt.

Etwas überraschend scheint mir die Korrelation von gewonnenen Spielen und Distanz noch aus einem weiteren Grund. Mannschaftssport in den ersten Ligen hat in Deutschland eine nie da gewesene Professionalisierung und Kommerzialisierung erlangt. Distanzen werden nicht mehr mit dem Reisebus, sondern zum Teil mit dem Flugzeug zurückgelegt. Anreisen findet nicht mehr am Spieltag, sondern zum Teil Tage vorher statt. Gerade vor diesem Hintergrund ist der Zusammenhang überraschend.

Literatur

Huyghe, T., & Calleja-Gonzalez, J. (2020). Long-Distance Traveling in Basketball: Practical Applications Based on Scientific Evidence. Basketball Sports Medicine and Science, 929-946.

Nevill, A. M., & Holder, R. L. (1999). Home advantage in sport: An overview of studies on the advantage of playing at home. Sports Medicine, 28, 221-236.

Sors, F., Grassi, M., Agostini, T., & Murgia, M. (2021). The sound of silence in association football: Home advantage and referee bias decrease in matches played without spectators. European journal of sport science, 21(12), 1597-1605.

Footnotes

  1. Zum Bedeutung von Fans gibt es eine Vielzahl neuer Studien unter Berücksichtigung von Geisterpielen durch die COVID-19 Pandemie (Sors & Grassi, 2021)↩︎