Willkommen bei Stats by Randolph. Hier geht es zur Hauptseite mit weiteren Informationen und Inhalten.

Autor:innen dieser Seite: An den Inhalten dieser Seite haben mitgearbeitet: Markus Janczyk und Valentin Koob. Der Inhalt dieser Seite wird in der Lehre in den Studiengängen Psychologie von der AG Forschungsmethoden und Kognitive Psychologie an der Universität Bremen verwendet, steht aber allen Interessierten zur Verfügung. Rückmeldungen/Fehler/Vorschläge können gesendet werden an .

Versionshistory:

  • v1.0: erste online-gestellte Version (03.3.2024)

9 Logistische Regression

In den Teilen 7-8 haben wir uns mit Varianten der (multiplen) Regression beschäftigt. Während wir für die Prädiktoren bereits verschiedene Skalenniveaus zugelassen haben, sind wir immer von einem (mindestens) intervallskalierten Kriterium ausgegangen. In diesem Teil 9 behandeln wir nun die logistische Regression, bei der ein binäres Kriterium vorhergesagt wird; also eines, welches nur die Werte 0 und 1 annimmt. Dies trifft auf viele Variablen zu, die potenziell erhoben werden und bei denen “ja” vs. “nein” gemessen wird (z.B. Krankheit ja vs. nein, Gabelstaplerschein ja vs. nein, …). Auch auf kognitionspsychologische Experimenten trifft dies zu, wenn z.B. fehlerhafte vs. korrekte Durchgänge unterschieden werden. Weitergehende Regressionsmodelle werden wir gegen Ende dieses Teils als Ausblick nur knapp behandeln.

# Pakete die in diesem Teil benutzt werden:
library(car)

9.1 Grundlagen

9.1.1 Warum logistische Regression? Das “Verallgemeinerte Lineare Modell”

Wir gehen nun immer davon aus, dass die binäre abhängige Variable nur die Werte 0 und 1 annehmen kann. In einer (fiktiven) Studie wurde nun einerseits das Alter von Versuchspersonen erhoben und andererseits, ob die Versuchspersonen verheiratet sind oder nicht. Zur Vorhersage des letzteren Status soll nun das Alter benutzt werden: “Alter” ist also der Prädiktor und “Verheiratet” ist das Kriterium, welches aber nur die Werte 0 (“nein”) und 1 (“ja”) annehmen kann. Die Ergebnisse sind in der folgenden Abbildung eingezeichnet. Mit diesen Daten können wir natürlich eine normale einfache lineare Regression berechnen und wir erhalten dann auch Koeffizienten und können eine Regressionsgerade in die Abbildung einzeichnen. Dies ist die blaue Linie in der folgenden Abbildung:

modell <- lm(verheiratet ~ alter, 
             data = daten)          # Regression berechnen
coef(modell)                        # Koeffizienten ausgeben
## (Intercept)       alter 
## -1.63795510  0.07144378

Hierbei wird ein Problem allerdings sehr deutlich: Benutzt man zur Vorhersage ein normales Regressionsmodell, so können Werte vorhergesagt werden, die außerhalb des zulässigen Wertebereichs (hier also 0 und 1) liegen.

Nun ist das Ziel der logistischen Regression aber auch, eine Funktion zu finden, die die Daten möglichst gut beschreibt: Anstatt einer Geraden wie bei der einfachen linearen Regression wird hier die sog. logistische Funktion benutzt (die die Verteilungsfunktion der logistischen Verteilung ist). Die logistische Funktion hat den Vorteil, dass sie nur Werte zwischen 0 und 1 annimmt, also Werte im zulässigen Wertebereich. In der folgenden Abbildung sind nochmals die Datenpunkte von gerade eingezeichnet, allerdings ist die blaue Linie die logistische Funktion, mit denjenigen Parametern, die sich aus der logistischen Regression ergeben: