Modellwahl
Bisher
Heute
Entscheidungen bei Regressionsanalyse:
Wie kann man bei einer Vielzahl plausibler Modelle eine geeignete Wahl treffen?
→ genau darum geht es bei der Modellwahl (oder auch: Modellselektion)
Verschiedene Anwendungen und verschiedene Ziele:
Beispiel Donner Party Modell:
\[ M_1: \; \pi_i = h(\beta_0 + \beta_1 \cdot \text{alter}_i) \]
weniger Potenzial als das Modell
\[ \begin{align*} M_2: \; \pi_i &= h \bigl( \beta_0 + \beta_1 \cdot \text{alter}_i + \beta_2 \cdot \text{alter}_i^2 + \beta_3 \cdot \text{geschlecht}_i \\ &\quad + \beta_4 \cdot \text{fam.groesse}_i + \beta_5 \cdot \text{fam.groesse}_i^2 + \beta_6 \cdot \text{fam.groesse}_i \cdot \text{alter}_i \bigr) \end{align*} \]
Simuliere 100 Datenpunkte aus \(Y_i = 1 + 2 x_i - 2 x_i^2 + \epsilon_i\), \(\epsilon_i \stackrel{\text{iid}}{\sim} N (0,1)\)
Passe die folgenden linearen Modelle an:
\[ \begin{align*} \text{Modell 1:} \qquad Y_i & = \beta_0 + \beta_1 x_i + \epsilon_i \quad \\ \text{Modell 2:} \qquad Y_i & = \beta_0 + \beta_1 x_i + \beta_2 x_i^2 + \epsilon_i \quad \\ \text{Modell 3:} \qquad Y_i & = \beta_0 + \beta_1 x_i + \beta_2 x_i^2 + \beta_3 x_i^3 + \epsilon_i \quad \\ \text{Modell 4:} \qquad Y_i & = \beta_0 + \beta_1 x_i + \beta_2 x_i^2 + \beta_3 x_i^3 + \beta_4 x_i^4 + \epsilon_i \quad \\ \end{align*} \]
\[ \text{ISE} = \int \bigl( f(x) - \widehat{f} (x) \bigr)^2 dx, \]
wobei \(f(x)\) die wahre und \(\widehat{f} (x)\) die geschätzte Regressionsfunktion ist
Ein gutes Modell sollte:
also: Komplexität von Modell nur erhöhen, wenn es Sinn macht!
Problemstellungen bei gegebener Modellformulierung (z.B. Poissonregression):
geeignete Modellformulierung auswählen
\(\rightarrow\) z.B. lineares Modell vs. Variablentransformation vs. Splines …
wähle erklärende Variablen aus, die ins Modell aufgenommen werden sollen
entscheide ob polynomiale Terme und/oder Interaktionsterme aufgenommen werden sollen
für 2. und 3. können im Prinzip Hypothesentests genutzt werden
z.B. bei linearer Regression kann man \(H_0: \beta_j=0\) gegen \(H_1: \beta_j \neq 0\) testen
Iiteratives Verfahren, um Variablen auszuwählen:
Vorwärtsselektion:
Rückwärtsselektion:
Relevanz messen wir i.d.R. mit \(p\)-Werten (niedriger \(p\)-Wert = hohe Relevanz).
Achtung: Bei Aufnahme einer Interaktion oder eines quadratischen Terms bleiben die dazugehörigen Haupteffekte im Modell — sonst (u.a.) schwierige Interpretation.
Rückwärtsselektion am Beispiel der Donner Party. Das komplexeste logistische Regressionsmodell, das wir betrachten, ist:
\[ \begin{align} \pi_i &= h \left( \beta_0 + \beta_1 \cdot \text{alter}_i + \beta_2 \cdot \text{geschlecht}_i + \beta_3 \cdot \text{fam.groesse}_i \right. \\ & \left. + \beta_4 \cdot \text{alter}_i^2 + \beta_5 \cdot \text{fam.groesse}_i^2 + \beta_6 \cdot \text{alter}_i \cdot \text{fam.groesse}_i \right. \\ & \left. + \beta_7 \cdot \text{alter}_i \cdot \text{geschlecht}_i + \beta_8 \cdot \text{fam.groesse}_i \cdot \text{geschlecht}_i \right) \end{align} \]
(maximal quadratische Effekte & alle Interaktionen)
Zur Erinnerung: Die Likelihood,
\[ \mathcal{L}(\boldsymbol{\theta}) = f(y_1,\ldots,y_n | \boldsymbol{\theta}), \]
ist die gemeinsame Dichte der Beobachtungen \(y_1,\ldots,y_n\) aufgefasst als Funktion des Parametervektors \(\boldsymbol{\theta}\).
Im linearen Regressionsmodell,
\[ Y_i = \beta_0 + \beta_1 x_{i} + \epsilon_i, \quad \epsilon_i \stackrel{\text{iid}} \sim N(0,\sigma^2), \quad i=1,\ldots,n, \]
ist der Parametervektor \(\boldsymbol{\theta}= \bigl( \beta_0, \beta_1, \sigma^2 \bigr)\), die Beobachtungen \(Y_1,\ldots,Y_n\) sind unabhängig voneinander und die Likelihood somit
\[ \mathcal{L}(\boldsymbol{\theta}) = \mathcal{L} \bigl( \beta_0, \beta_1, \sigma^2 \bigr) = \prod_{i=1}^n f_{N(\beta_0 + \beta_1 x_{i}, \sigma^2)}(y_i). \]
Log-Likelihood im LSD-Beispiel:
Modell | linearer Prädiktor | max. Log-Lik. |
---|---|---|
1 | \(\beta_0\) | \(-58.62\) |
2 | \(\beta_0 + \beta_1 \cdot \text{Alter}_i\) | \(-55.12\) |
3 | \(\beta_0 + \beta_1 \cdot \text{Alter}_i + \beta_2 \cdot \text{Alter}_i^2\) | \(-52.53\) |
4 | \(\beta_0 + \beta_1 \cdot \text{Alter}_i + \beta_2 \cdot \text{Alter}_i^2 + \beta_3 \cdot \text{Alter}_i^3\) | \(-51.48\) |
Bei der Modellwahl geht es immer um den Bias-Varianz-Trade-off:
Akaike konnte 1974 zeigen, dass — unter einigen Annahmen — der Schätzfehler approximativ der Anzahl der Modellparameter entspricht.
Wenn man den naiven Schätzer entsprechend korrigiert, erhält man \[ \log \mathcal{L}_{\hat{M}} - \text{Anz. Parameter} \] als zu maximierendes Kriterium.
Kriterium wird meist mit \(-2\) multipliziert: \[ -2 \log \mathcal{L}_{\hat{M}} + 2 \cdot \text{Anz. Parameter}, \] eine Größe welche wir dann minimieren wollen.
wobei \(\mathcal{L}_{\widehat{M}}\) der maximale Wert der Log-Likelihood ist - Modellen wählen wir jenes, welches das niedrigste AIC aufweist
\(\rightarrow\) “bestes” Modell liegt irgendwo in der Mitte
Das komplexeste logistische Regressionsmodell, das wir betrachten, ist: \[ \begin{align} \pi_i &= h \left( \beta_0 + \beta_1 \cdot \text{alter}_i + \beta_2 \cdot \text{geschlecht}_i + \beta_3 \cdot \text{fam.groesse}_i \right. \\ & \left. + \beta_4 \cdot \text{alter}_i^2 + \beta_5 \cdot \text{fam.groesse}_i^2 + \beta_6 \cdot \text{alter}_i \cdot \text{fam.groesse}_i \right. \\ & \left. + \beta_7 \cdot \text{alter}_i \cdot \text{geschlecht}_i + \beta_8 \cdot \text{fam.groesse}_i \cdot \text{geschlecht}_i \right) \end{align} \]
alt | ges | fam.g | alter² | fam.g² | alt:ges | alt:fam.g | ges:fam.g | AIC | |
---|---|---|---|---|---|---|---|---|---|
✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | 90.921 | ||
✓ | ✓ | ✓ | ✓ | ✓ | ✓ | 90.964 | |||
✓ | ✓ | ✓ | ✓ | ✓ | ✓ | 92.226 | |||
✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | 92.821 | ||
✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | 92.847 | |
✓ | ✓ | ✓ | ✓ | ✓ | 93.108 |
AIC wählt ein komplexeres Modell aus als Hypothesentest-basierte Rückwärtsselektion
AIC neigt allgemein dazu, tendenziell eher zu komplexe Modelle zu wählen: Strafterm für Komplexität recht niedrig
Alternative bietet Bayesian Information Criterion (BIC) \[ \text{BIC} = -2 \log \mathcal{L}_{\hat{M}} + \log(n) \cdot \text{Anz. Parameter}, \] wobei \(n\) die Anzahl der Beobachtungen ist.
Für \(n \geq 8\) bestraft BIC Komplexität stärker als das AIC
Die besten Modelle gemäß BIC (ausgenommen jene, welche einen Interaktionsterm ohne dazugehörigen Haupteffekt beinhalten):
alt | ges | fam.g | alter² | fam.g² | alt:ges | alt:fam.g | ges:fam.g | BIC | |
---|---|---|---|---|---|---|---|---|---|
✓ | ✓ | ✓ | ✓ | 107.627 | |||||
✓ | ✓ | ✓ | ✓ | ✓ | 108.764 | ||||
✓ | ✓ | ✓ | ✓ | ✓ | ✓ | 108.063 | |||
✓ | ✓ | ✓ | ✓ | ✓ | ✓ | 109.324 | |||
✓ | ✓ | ✓ | ✓ | ✓ | 110.198 | ||||
✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | 110.462 |
Bestes Modell gemäß BIC: \[ \pi_i = h \left( \beta_0 + \beta_1 \cdot \text{alter}_i + \beta_2 \cdot \text{fam.groesse}_i + \beta_3 \cdot \text{alter}_i^2 + \beta_4 \cdot \text{fam.groesse}_i^2 \right) \]
\(\rightarrow\) für nichtparametrische Regressionsmodelle ist 2. nicht einfach
Modellwahl in der Praxis:
“Since all models are wrong the scientist cannot obtain a ‘correct’ one by excessive elaboration. On the contrary following William of Occam he should seek an economical description of natural phenomena. Just as the ability to devise simple but evocative models is the signature of the great scientist so overelaboration and overparameterization is often the mark of mediocrity.”
“[…] there is no need to ask the question ‘Is the model true?’. If ‘truth’ is to be the ‘whole truth’ the answer must be ‘No’. The only question of interest is ’Is the model illuminating and useful?”
“[…] Essentially, all models are wrong, but some are useful.”