Tutorial 3: Poisson Regression

Zurück zur Startseite

Lernziele

  • Grundlagen der Poisson Regression verstehen
  • Anwendung der Poisson Regression in R
  • Interpretation und Validierung von Poisson-Modellen

Setup

Erstellen Sie ein neues R-Projekt für dieses Tutorial und richten Sie eine passende Ordnerstruktur ein. Dieses Mal konzentrieren wir uns auf die Modellierung von Zähldaten mit Poisson-Regression. Wir werden Daten zur Analyse von Fußballspielergebnissen verwenden, um das Verständnis von Ereigniszählungen und deren Abhängigkeit von erklärenden Variablen zu vertiefen. Die Daten befinden sich in der Datei bundesliga_vorhersage.csv. Erforderliche R-Packages sind data.table, ggplot2, und MASS (für glm.nb, falls wir Überdispersion behandeln).

Los gehts: Arbeiten mit Poisson-Daten

  1. Initialisieren Sie Ihr R-Projekt und die entsprechenden Unterordner.
  2. Installieren und laden Sie die erforderlichen Packages: data.table, ggplot2, und MASS.
  3. Laden Sie die Fußballdaten aus der Datei bundesliga_vorhersage.csv in Ihr R-Script. Nutzen Sie fread() oder read.csv() zum Einlesen.
  4. Betrachten Sie die Daten mit head() oder View(). Plotten Sie die Verteilung der geschossenen Tore, um ein Gefühl für die Daten zu bekommen.
  5. Schätzen Sie ein einfaches lineares Modell mit dem Befehl lm(). Berechnen Sie die vorhergesagten Werte für unterschiedliche Werte der Spieltagsvariablen. Was fällt Ihnen auf? Sie können dies auch mit der Funktion predict() tun.
  6. Erstellen Sie ein einfaches Poisson-Modell, das die Tore als Funktion der Spieltagsvariablen modelliert. Nutzen Sie glm() mit der Familie poisson für die Schätzung.
  7. Überprüfen und interpretieren Sie die Ergebnisse des Modells. Welche Schlüsse können Sie über die Bedeutung der Spieltagsvariablen für die Toranzahl ziehen?
  8. Validieren Sie das Modell durch Überprüfung der Modellannahmen: Ist die Varianz gleich dem Mittelwert (Prüfung auf Überdispersion)? Nutzen Sie ggplot2, um die Residuen zu plotten.
  9. Falls nötig, passen Sie ein negatives Binomialmodell an, um Überdispersion zu behandeln. Vergleichen Sie die Ergebnisse mit dem Poisson-Modell.
  10. Führen Sie eine Monte Carlo-Simulation durch, um die restlichen Spieltage der Saison zu simulieren. Generieren Sie daraus eine wahrscheinliche Tabelle für den Saisonabschluss.

Zurück zur Startseite