Willkommen bei Stats by Randolph. Hier geht es zur Hauptseite mit weiteren Informationen und Inhalten.

Autor:innen dieser Seite: An den Inhalten dieser Seite haben mitgearbeitet: Markus Janczyk und Valentin Koob. Der Inhalt dieser Seite wird in der Lehre in den Studiengängen Psychologie von der AG Forschungsmethoden und Kognitive Psychologie an der Universität Bremen verwendet, steht aber allen Interessierten zur Verfügung. Rückmeldungen/Fehler/Vorschläge können gesendet werden an .

Versionshistory:

  • v1.0: erste online-gestellte Version (14.2.2024)
  • v1.1: leichte Änderungen bei Einführung von Likelihood und Likelihood Funktion (3.5.2024)

6 Maximum-Likelihood Schätzung, AIC/BIC

In Statistik I hatten wir uns bereits ausgiebig mit Schätzern und deren Gütekriterien beschäftigt. In den bisherigen Fällen haben wir die jeweiligen Schätzer analytisch hergeleitet (mit Ausnahme der Koeffizienten im Fall der multiplen Regression, was wir in Teil 13 von Statistik II nachholen werden). Die wichtigsten Kriterien die wir dabei betrachtet haben waren, dass ein Schätzer (mindestens) erwartungstreu und konsistent sein soll. Es gibt aber noch eine andere Heransgehensweise um Schätzer zu bestimmen, die insbesondere auch dann zum Tragen kommt, wenn es keine analytisch bestimmbare Lösung gibt: die Maximum-Likelihood (ML) Schätzung.

# Pakete die in diesem Teil benutzt werden:
library(MASS)
library(dfoptim)

6.1 Maximum-Likelihood Schätzung von Parametern

Wir sind bereits des Öfteren Fragen begegnet wie “Mit welcher Wahrscheinlichkeit treten Werte \(\geq 100\) auf?”, wenn angenommen wird, die zugrunde liegende Variable sei normalverteilt mit \(\mu = 50\) und \(\sigma = 20\). Hierbei sind die Parameter der Verteilung bereits bekannt und wir fragen nach der Wahrscheinlichkeit von Daten. Allerdings sind in vielen (Forschungs-)Situationen genau diese Parameter unbekannt und sie müssen auf Basis von Daten (d.h. den vorliegenden Werten einer Stichprobe) bestimmt werden. Dafür benötigen wir die ML Methode und die resultierenden Schätzer für diese Parameter heißen dann ML Schätzer.

ML Schätzung kann als eine Methode aufgefasst werden, mit der (Populations-)Parameter verschiedenster Verteilungen so aus Daten geschätzt werden, dass die “Wahrscheinlichkeit” – oder genauer: die Likelihood – der beobachteten Daten maximiert wird.

6.1.1 Beispieldaten

Als Beispiel für die folgenden Argumentationen und Berechnungen verwenden wir die gemessenen Größen (in Zentimetern) von \(n=10\) Personen. Da wir die Daten hier simulieren, wissen wir bereits, dass diese aus einer Normalverteilung mit \(\mu = 170\) und \(\sigma=20\) stammen. Natürlich ist in der generierten Stichprobe der Mittelwert \(M\) und die Standardabweichung \(S\) (bzw. \(\hat{S}\)) von diesen Parametern aber abweichend:

set.seed(1)
data <- round(rnorm(n = 20,
                    mean = 170,
                    sd = 20))
data
##  [1] 157 174 153 202 177 154 180 185 182 164 200 178 158 126 192 169 170 189 186
## [20] 182
mean(data)               # Mittelwert
## [1] 173.9
n <- length(data)        # Anzahl Datenpunkte... für:
sqrt(var(data)*(n-1)/n)  # Stichproben-Standardabweichung
## [1] 17.7395

6.1.2 Grundlagen

Im Folgenden bezeichnen wir mit \(X\) die empirischen Daten \(x_1,\ldots,x_n\) der \(n\)-vielen Versuchspersonen. Den Satz an Parametern bezeichnen wir mit \(\theta\) (einem kleinen Theta), im Fall der Normalverteilung also \(\theta = (\mu,\sigma\)).

Das Ziel wird sein, diejenige Dichtefunktion (oder Wahrscheinlichkeitsfunktion) \(f(X;\theta)\) aus allen möglichen Parametrisierungen zu bestimmen, die die beobachteten Daten \(X\) am “wahrscheinlichsten” produziert hat. Auf dem Weg dahin machen wir uns zunächst eine Sache (noch einmal) klar. Die Normalverteilung wird üblicherweise geschrieben als: \[ f(x; \mu, \sigma)=\frac{1}{\sqrt{2\pi\sigma^2}}\cdot e^{-\frac{(x-\mu)^2}{2\sigma^2}} \] Streng genommen ist sie also eine Funktion von drei Variablen, die allesamt variiert werden können und dann den entsprechenden Funktionswert \(f\) liefert. Was wir aber üblicherweise getan haben, ist sie als Funktion von \(x\) zu betrachten während \(\mu\) und \(\sigma\) feststehen. In der folgenden Abbildung ist \(\mu=2\) und \(\sigma=1.5\) und wir fragen: Welchen Wert nimmt die Normalverteilung dann für z.B. \(x=1\) an. Die Antwort ist dann \(f(1)=0.213\):