Tutorial 4: Logistische Regression

Zurück zur Startseite

Lernziele

  • Grundlagen der logistischen Regression verstehen
  • Anwendung der logistischen Regression in R
  • Interpretation von logistischen Modellen

Setup

Erstellen Sie ein neues R-Projekt für dieses Tutorial und richten Sie eine passende Ordnerstruktur ein. Wir konzentrieren uns auf die Modellierung binärer Outcome-Daten mit der logistischen Regression. Wir verwenden Daten zum Überleben der Passagiere der Titanic, um das Verständnis von Wahrscheinlichkeiten und deren Abhängigkeit von erklärenden Variablen zu vertiefen. Die Daten befinden sich in der Datei titanic.csv. Erforderliche R-Packages sind data.table, mgcv und ggplot2.

Los geht’s: Arbeiten mit binären Daten

  1. Initialisieren Sie Ihr R-Projekt und die entsprechenden Unterordner.
  2. Nutzen Sie einen package manager um die die erforderlichen Packages ggf. zu installieren und zu laden.
  3. Laden Sie die Titanic-Daten aus der Datei titanic.csv in Ihr R-Script. Nutzen Sie fread() zum Einlesen.
  4. Betrachten Sie die Daten mit head() oder View(). Plotten Sie die Überlebensrate, um ein Gefühl für die Daten zu bekommen.
  5. Nutzen Sie ein lineares Wahrscheinlichkeitsmodell um die Überlebensrate zu modellieren. Interpretieren Sie die Koeffizienten, und diskutieren Sie etwaige Probleme.
  6. Visualisieren Sie mithilfe von gam() und P-Splines die Zusammenhänge zwischen der Überlebensrate und den Prädiktoren. Interpretieren Sie auch diese Ergebnisse.
  7. Erstellen Sie nun ein logistisches Modell, das das Überleben als Funktion von Geschlecht, Alter und Ticketklasse modelliert. Nutzen Sie glm() mit der Familie binomial für die Schätzung.
  8. Überprüfen und interpretieren Sie die Ergebnisse des Modells. Welche Schlüsse können Sie über die Bedeutung der verschiedenen Variablen für das Überleben ziehen?

Zurück zur Startseite