Willkommen bei Stats by Randolph. Hier geht es zur Hauptseite mit weiteren Informationen und Inhalten.

Autor:innen dieser Seite: An den Inhalten dieser Seite haben mitgearbeitet: Markus Janczyk und Valentin Koob. Der Inhalt dieser Seite wird in der Lehre in den Studiengängen Psychologie von der AG Forschungsmethoden und Kognitive Psychologie an der Universität Bremen verwendet, steht aber allen Interessierten zur Verfügung. Rückmeldungen/Fehler/Vorschläge können gesendet werden an .

Versionshistory:

  • v1.0: erste online-gestellte Version (03.3.2024)

7 Multiple Regression: Einführung

In Statistik I haben wir uns bereits mit der einfachen linearen Regression beschäftigt (Teil 6 in Statistik I). “Einfach” meint in diesem Kontext, dass wir nur eine Variable als Prädiktor berücksichtigt haben. Nach einer kurzen Wiederholung stellen wir dann einige Ergänzungen vor, die erst jetzt Sinn ergeben, nachdem wir andere Konzepte und Verfahren bereits kennen.

In der Regel sind messbare Dinge aber nicht nur von einem Umstand abhängig, sondern von mehreren. Um mehrere Einflussgrößen und ihre (kombinierte) Wirkung auf eine Variable zu erfassen, können wir die einfache lineare Regression (mit einem Prädiktor) so erweitern, dass mehrere Prädiktoren im Modell berücksichtigt werden. Wir reden dann von einer multiplen Regression. Weitgehend ist dies eine Verallgemeinerung, aber ein paar Besonderheiten z.B. bezüglich der Interpretation der Koeffizienten kommen hierbei ins Spiel. Wir werden das Grundprinzip zunächst am besonderen Beispiel zweier nicht-korrelierter Prädiktoren einführen und dann im Folgenden den allgemeinen Fall mit \(q\)-vielen Prädiktoren betrachten.

# Pakete die in diesem Teil benutzt werden:
library(car)
library(effects)
library(scatterplot3d)
libary(schoRsch)

7.1 Einfache lineare Regression: Kurze Wiederholung und Ergänzungen

7.1.1 Kurze Wiederholung der einfachen, linearen Regression

Die Grundidee der einfachen, linearen Regression ist das Bestimmen einer optimalen Geraden zur Beschreibung empirischer Daten. Die schwarzen Punkte der folgenden Abbildung stellen dabei empirische Werte \((x_i,y_i)\) dar und die roten Punkte sind diejenigen Werte, die die eingezeichnete Gerade für die jeweiligen \(x_i\)-Werte vorhergesagen würde, also \((x_i,\hat{y}_i)\). Als Residuum \(e_i\) wird die vertikale Distanz der empirischen und vorhergesagten Werte bezeichnet, also \(e_i=y_i-\hat{y}_i\).