Tutorial 3: Poisson Regression
Lernziele
- Grundlagen der Poisson Regression verstehen
- Anwendung der Poisson Regression in R
- Interpretation und Validierung von Poisson-Modellen
Setup
Erstellen Sie ein neues R-Projekt für dieses Tutorial und richten Sie eine passende Ordnerstruktur ein. Dieses Mal konzentrieren wir uns auf die Modellierung von Zähldaten mit Poisson-Regression. Wir werden Daten zur Analyse von Fußballspielergebnissen verwenden, um das Verständnis von Ereigniszählungen und deren Abhängigkeit von erklärenden Variablen zu vertiefen. Die Daten befinden sich in der Datei bundesliga_vorhersage.csv. Erforderliche R-Packages sind data.table
, ggplot2
, und MASS
(für glm.nb
, falls wir Überdispersion behandeln).
Los gehts: Arbeiten mit Poisson-Daten
- Initialisieren Sie Ihr R-Projekt und die entsprechenden Unterordner.
- Installieren und laden Sie die erforderlichen Packages:
data.table
,ggplot2
, undMASS
. - Laden Sie die Fußballdaten aus der Datei
bundesliga_vorhersage.csv
in Ihr R-Script. Nutzen Siefread()
oderread.csv()
zum Einlesen. - Betrachten Sie die Daten mit
head()
oderView()
. Plotten Sie die Verteilung der geschossenen Tore, um ein Gefühl für die Daten zu bekommen. - Schätzen Sie ein einfaches lineares Modell mit dem Befehl
lm()
. Berechnen Sie die vorhergesagten Werte für unterschiedliche Werte der Spieltagsvariablen. Was fällt Ihnen auf? Sie können dies auch mit der Funktionpredict()
tun. - Erstellen Sie ein einfaches Poisson-Modell, das die Tore als Funktion der Spieltagsvariablen modelliert. Nutzen Sie
glm()
mit der Familiepoisson
für die Schätzung. - Überprüfen und interpretieren Sie die Ergebnisse des Modells. Welche Schlüsse können Sie über die Bedeutung der Spieltagsvariablen für die Toranzahl ziehen?
- Validieren Sie das Modell durch Überprüfung der Modellannahmen: Ist die Varianz gleich dem Mittelwert (Prüfung auf Überdispersion)? Nutzen Sie ggplot2, um die Residuen zu plotten.
- Falls nötig, passen Sie ein negatives Binomialmodell an, um Überdispersion zu behandeln. Vergleichen Sie die Ergebnisse mit dem Poisson-Modell.
- Führen Sie eine Monte Carlo-Simulation durch, um die restlichen Spieltage der Saison zu simulieren. Generieren Sie daraus eine wahrscheinliche Tabelle für den Saisonabschluss.