Parametrische Regression
Logistische Regression
(Vor-)letzte Woche
Parametrische Regression: Poisson Regression
Nichtparametrische Regression: Splines
Heute
April 1846: eine Gruppe von insg. 87 Siedlern — die “Donner Party” — macht sich in Illinois auf den Weg nach Kalifornien, in der Hoffnung auf ein besseres Leben.
insgesamt 40 der 87 Siedler kamen ums Leben
Überlebt | Geschlecht | Alter | Familiengröße | |
---|---|---|---|---|
Antoine | Nein | M | 23 | 1 |
Edward | Ja | M | 13 | 9 |
Isabella | Ja | W | 1 | 9 |
James | Ja | M | 4 | 9 |
Elisabeth | Nein | W | 45 | 16 |
Margaret | Nein | W | 1 | 4 |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
Sarah | Ja | W | 22 | 12 |
Quelle: Grayson (1990, Journal of Anthrop. Research)
Zusammenhang zwischen Überlebenswahrscheinlichkeit und Alter, Geschlecht & Familiengröße quantifizieren
Definiere \[ Y_i = \begin{cases} 1 & \text{falls das $i$-te Mitglied der Reisegruppe überlebt hat}; \\ 0 & \text{sonst, d.h. falls das $i$-te Mitglied der Reisegruppe gestorben ist}, \end{cases} \]
\(x_{i}\) das Alter dieser \(i\)-ten Person, \(\ldots\)
Warum nicht einfach das herkömmliche lineare Regressionsmodell verwenden? \[ E(Y_i) = \beta_0 + \beta_1 x_i \]
Linearer Prädiktor, \(\eta_i = \beta_0 + \beta_1 x_i\), würde für bestimmte \(x_i\)-Werte Überlebenswahrscheinlichkeiten \(\pi_i < 0\) und \(\pi_i > 1\) vorhersagen!
Wie bei der Poissonregression transformieren wir den linearen Prädiktor: \[ \pi_i = P(Y_i=1) = E(Y_i) = h(\beta_0 + \beta_1 x_i) \]
Idee: Hohe Werte des linearen Prädiktors \(\eta_i\) sollen hohen Überlebenswahrscheinlichkeiten \(\pi_i\) entsprechen
Wir suchen also Funktion \(h\) von \(\mathbb{R}\) nach \([0,1]\), so dass:
\[ h: \mathbb{R} \longrightarrow [0,1], \quad \eta \mapsto \frac{e^\eta}{1+e^\eta} \]
plogis()
in R)\[ \pi_i = P(Y_i=1) = E(Y_i) = \frac{e^{\beta_0 + \beta_1 x_i}}{1 + e^{\beta_0 + \beta_1 x_i}} \]
\[ \begin{align} Y_i & \sim Bern(\pi_i); \\ \pi_i & = P(Y_i=1) = E(Y_i) = \frac{e^{\eta_i}}{1 + e^{\eta_i}}; \\ \eta_i & = \beta_0 + \beta_1 x_{i1} + \ldots + \beta_p x_{ip} \end{align} \]
mit \(\pi_i = \frac{e^{\eta_i}}{1+e^{\eta_i}}\) und \(\eta_i=\beta_0 + \beta_1 x_{i1} + \ldots + \beta_p x_{ip}\)
Unter \(H_0\) (d.h. für \(\beta_j = 0\)) gilt
\[ Z = \frac{\widehat{\beta}_j}{\widehat{\sigma}_{\widehat{\beta}_j}} \sim N(0,1) \text{ approx.} \]
Wie können wir hier \(\hat{\beta}_1 = -0.03237\) interpretieren?
“Wenn sich der Wert der erklärenden Variable um eins erhöht, dann … (?)”
Odds: \[ \text{Odds}(\text{Erfolg}) = \frac{P(\text{Erfolg})}{P(\text{kein Erfolg})} \]
Beispiel: wenn 90%-Chance die Klausur zu bestehen, dann Odds 9/1
Odds Ratio: Maß für die Änderung der Odds bei Änderung der erklärenden Variablen \(x\) um 1: \[ \text{Odds Ratio} = \frac{\text{Odds}(\text{Erfolg für } x+1)}{\text{Odds}(\text{Erfolg für } x)} \]
Für einfaches logistisches Modell, \({E} (Y) = \frac{e^{\beta_0 + \beta_1 x}}{1+e^{\beta_0 + \beta_1 x}}\), erhalten wir
\[ \begin{align} \text{Odds Ratio} &= \frac{\text{Odds}^{x + 1}}{\text{Odds}^{x}} \\ &= \frac{e^{\beta_0 + \beta_1 (x + 1)}}{e^{\beta_0 + \beta_1 (x)}} \\ &= e^{\beta_1} \end{align} \]
\[ \begin{align} \text{Odds Ratio} &= \frac{\text{Odds}^{x + 1}}{\text{Odds}^{x}} \\ &= \frac{e^{\beta_0 + \beta_1 (x + 1)}}{e^{\beta_0 + \beta_1 (x)}} \\ &= e^{\beta_1} \end{align} \]
Interpretation: Odds zu überleben verringern sich um den Faktor \(e^{\beta_1}\) für jedes zusätzliche Lebensjahr
Interpretation im Donner Party Beispiel: \(e^{\widehat{\beta}_1}=e^{-0.03237}=0.968\), d.h. Odds zu überleben verringern sich um Faktor 0.968 für jedes zusätzliche Lebensjahr
mod <- glm(ueberleben ~ alter + geschlecht + fam.groesse, family=binomial)
summary(mod)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.14052 0.57884 0.243 0.8082
alter -0.02829 0.01558 -1.816 0.0694 .
geschlecht 0.91151 0.49551 1.840 0.0658 .
fam.groesse 0.02942 0.04395 0.669 0.5033
(hierbei ist Geschlecht \(=1\) für die weiblichen Reisenden; sonst \(=0\))
Genauere Betrachtung des Streudiagramms zeigt:
Genau wie im linearen Regressionsmodell kann man quadratischen Term im Prädiktor abbilden \[ \eta_i = \beta_0 + \beta_1 \cdot \text{alter}_i + \beta_2 \cdot \text{alter}_i^2 + \beta_3 \cdot \text{geschlecht}_i + \beta_4 \cdot \text{fam.groesse}_i \]
mod <- glm(ueberleben ~ alter + I(alter^2) + geschlecht + fam.groesse, family=binomial)
summary(mod)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.164255 0.941828 -2.298 0.02157 *
alter 0.199589 0.074621 2.675 0.00748 **
I(alter^2) -0.004871 0.001672 -2.913 0.00358 **
geschlecht 1.271679 0.580658 2.190 0.02852 *
fam.groesse 0.091228 0.051350 1.777 0.07564 .
SCHUFA nutzt logistische Regression, um Verbraucherinnen und Verbrauchern ihre individuellen Kreditausfallswahrscheinlichkeiten zuzuordnen: Meine SCHUFA
In Kurzform:
Relevante Variablen:
Hier:
kredit = 0
: nicht vereinbarungsgemäß zurückgezahltNun kommt ein 24-jähriger in die Bank und möchte einen Kredit über 10 Tsd. DM aufnehmen. Er gibt an:
Kreditausfallwahrscheinlichkeit gemäß des Modells: 1-plogis(eta)
Als nächstes kommt ein 55-jähriger in die Bank und möchte einen Kredit über 4 Tsd. DM aufnehmen. Er gibt an:
Lineare Regression (mit Annahme der Normalität): \[ Y_i \sim N(\mu_i,\sigma^2), \quad \mu_i = E(Y_i) = \eta_i \]
Poissonregression: \[ Y_i \sim Po(\lambda_i), \quad \lambda_i = E(Y_i) = e^{\eta_i} \]
Logistische Regression: \[ Y_i \sim Bern(\pi_i), \quad \pi_i = E(Y_i) = \frac{e^{\eta_i}}{1+e^{\eta_i}} \]
hier immer: \(\eta_i\) linearer Prädiktor für Beobachtung \(i\), \(i=1\ldots,n\): \[ \eta_i = \beta_0 + \beta_1 x_{i1} + \ldots + \beta_p x_{ip} \]