Willkommen bei Stats by Randolph. Hier geht es zur Hauptseite mit weiteren Informationen und Inhalten.

Autor:innen dieser Seite: An den Inhalten dieser Seite haben mitgearbeitet: Markus Janczyk und Valentin Koob. Der Inhalt dieser Seite wird in der Lehre in den Studiengängen Psychologie von der AG Forschungsmethoden und Kognitive Psychologie an der Universität Bremen verwendet, steht aber allen Interessierten zur Verfügung. Rückmeldungen/Fehler/Vorschläge können gesendet werden an .

Versionshistory:

  • v1.0: erste online-gestellte Version (04.03.2024)

1 Maximum-Likelihood Schätzung

Wir haben in der Vorlesung zur logistischen Regression (Teil 9 von Statistik II) nur in Worten erläutert, was eine iterative Maximum-Likelihood (ML) Schätzung ist. In dieser Ergänzung wollen wir darauf noch einmal etwas genauer eingehen, da die ML-Schätzmethode durchaus in vielen Feldern ihre Anwendung findet. Im Allgemeinen versteht man unter ML-Schätzung, dass wir denjenigen Parameter(satz) auswählen, der am wahrscheinlichsten den empirischen Daten zugrunde liegt. Für weitere Ausführungen sei auch auf Teil 6 von Statistik II verwiesen; hier wenden wir die Grundlagen auf den Fall der logistischen Regression an.

1.1 Likelihood

Der Begriff Likelihood an sich beschreibt erstmal nur einen Wert auf einer Wahrscheinlichkeitsverteilung. Als Beispiel betrachten wir im Folgenden einen einzelnen Münzwurf, dessen Ergebnisse Kopf (kodiert mit 1) und Zahl (kodiert mit 0) sind. Wir gehen allerdings nun davon aus, dass wir nicht wissen mit welcher Wahrscheinlichkeit Kopf bzw. Zahl (also 1 bzw. 0) auftreten (uns ist also unklar, ob die Münze wirklich fair ist). Aus Teil 9 von Statistik I wissen wir schon, dass sich ein solches Zufallsexperiment durch eine bernoulli-verteilte Zufallsvariable \(Y\) mit einem unbekannten Parameter modellieren lässt; diesen unbekannten Parameter der Wahrscheinlichkeit nennen wir hier \(P\). Wir können also die Wahrscheinlichkeit für Kopf und Zahl als eine Funktion von \(P\) ausdrücken: \[\begin{equation*} \begin{aligned} \text{Kopf: }&P(Y=1|P)=P\\ \text{Zahl: }&P(Y=0|P)=1-P\\ \end{aligned} \end{equation*}\] Etwas verallgemeinert können wir somit für einen beliebigen Münzwurf \(i\) mit Ausgang \(y_i\) (also 1 oder 0) die Likelihood des Wurfs bestimmen durch: \[ P(Y = y_i | P) = P^{y_i}\cdot (1-P)^{(1-y_i)} \] Wenn \(y_i=1\) ist, dann steht dort genau \(P(Y=1|P)=P\) und wenn \(y_i=0\) ist, dann bleibt stehen \(P(Y=0|P)=1-P\).

1.2 Likelihood-Funktion

Typischerweise haben wir aber nicht nur eine Beobachtung (also einen Münzwurf), sondern \(n\)-viele Beobachtungen \(y_1,\ldots,y_n\), wobei alle Beobachtungen voneinander unabhängig seien. Die Variable \(y\) beinhalte nun alle diese einzelnen Beobachtungen. Die gemeinsame Wahrscheinlichkeit aller Würfe in Abhängigkeit des unbekannten Parameters \(P\) kann durch das Produkt der einzelnen Likelihoods jeden einzelnen Wurfs beschrieben werden. Hier bedienen wir uns des Produktzeichens \(\Pi\) (ein großes Pi), welches im Prinzip wie das Summenzeichen \(\Sigma\) zu verstehen ist, nur dass die einzelnen Terme nicht addiert, sondern multipliziert werden: \[P(Y=y | P) = \left[P^{y_1}\cdot(1-P)^{1-y_1}\right]\cdot\,\ldots\,\cdot \left[P^{y_n}\cdot(1-P)^{1-y_n}\right] =\prod_{i=1}^n \left[P^{y_i}\cdot(1-P)^{1-y_i}\right]\]

Wir schreiben diese Gleichung nun noch einmal auf und lassen dabei den Mittelteil weg, der nur deutlich machen sollte, wie das Produktzeichen zu verstehen ist: \[P(Y=y | P) = \prod_{i=1}^n \left[P^{y_i}\cdot(1-P)^{1-y_i}\right]\] Hier haben wir rechts vom Gleichheitszeichen einen Ausdruck, der sowohl \(P\) als auch \(y\) beinhaltet und der Teil links vom Gleichheitszeichen besagt, dass wir die Werte auf \(y\) unter der Bedingung \(P\) betrachten, also für bestimmte Werte für \(P\). Davon kann man sich aber auch lösen, denn eigentlich kennen wir ja \(y\), also die Ergebnisse aller Würfe in der Stichprobe. Das heißt aber auch, die einzige unbekannte Variable ist \(P\) und wir können somit unsere gemeinsam verteilte Wahrscheinlichkeitsfunktion (also den Teil rechts vom Gleichheitszeichen) auch als eine bedingte Funktion von \(P\) (gegeben die bekannten Daten \(y\)) schreiben: \[\mathcal{L}(P | y) = \prod_{i=1}^n [P^{y_i}\cdot(1-P)^{1-y_i}]\] Diese wird dann als sog. Likelihood-Funktion \(\mathcal{L}\) bezeichnet, da sie die “Likelihood” eines Parameters gegeben eine bestimmte Stichprobe darstellt.

1.3 Maximum-Likelihood

Was wir gerade getan haben heißt nun: Unter der Bedingung, dass wir die Ausgänge des Zufallsexperiments kennen, können wir bestimmen, wie wahrscheinlich es ist, dass ein bestimmter Parameter \(P\) diesen zugrunde liegt! Falls wir also tippen müssten, mit welcher Wahrscheinlichkeit wir Kopf werfen, dann würden wir denjenigen Wert \(\widehat{P}\) wählen, für den die Likelihood-Funktion \(\mathcal{L}\) ihr Maximum erreicht. Dieser Wert \(\widehat{P}\) wird dann als Schätzer für den gesuchten Parameter \(P\) herangezogen und daher kommt der Name Maximum-Likelihood Schätzung.

Diesen letzten Punkt schauen wir noch an einem kurzen Beispiel an: Nehmen wir an, wir haben 120-mal Kopf und 80-mal Zahl geworfen (d.h. die Variable \(y\) enthält 120-mal eine 1 und 80-mal eine 0). Wenn wir diese Werte in die Likelihood-Funktion \(\mathcal{L}\) einsetzen, ergibt sich: \[\mathcal{L}(P|y) = P^{120} \cdot (1-P)^{80} \] Nun könnten wir (hier noch sehr einfach) das Maximum dieser Funktion analytisch bestimmen; wir gehen allerdings den einfacheren Weg und plotten diese Funktion einfach (beachten Sie die sehr kleine Skalierung der \(y\)-Achse):

P  <- seq(0,1,0.01)          # Vektor für P von 0 bis 1
L <-  P^120 *(1-P)^80        # Werte auf Likelihood-Funktion 
plot(P, 
     L,
     type = "l",
     ylab = "L(P|y)",
     xlab = "P")
index <- which(L == max(L))  # wo ist...
P_max <- P[index]            # ...das Maximum?
abline(v = P_max)            # einzeichnen