Willkommen bei Stats by Randolph. Hier geht es zur Hauptseite mit weiteren Informationen und Inhalten.

Autor:innen dieser Seite: An den Inhalten dieser Seite haben mitgearbeitet: Valentin Koob, Eva Röttger und Markus Janczyk. Der Inhalt dieser Seite wird in der Lehre in den Studiengängen Psychologie von der AG Forschungsmethoden und Kognitive Psychologie an der Universität Bremen verwendet, steht aber allen Interessierten zur Verfügung. Rückmeldungen/Fehler/Vorschläge können gesendet werden an .

Versionshistory:

  • v1.0: erste online-gestellte Version (3.5.2023)

1 Ergänzungen zur Kovarianz

1.1 Datenbeispiel

Im Zuge einer Umfrage soll anhand von \(n = 5\) Studierenden der Zusammenhang zwischen der Anzahl von Stunden, die ein Student bzw. eine Studentin für die Prüfungsvorbereitung aufwendet, und der Punktzahl, die er bzw. sie in einer Prüfung erzielt, untersucht werden. Ergeben haben sich die folgenden Daten: \[x_1 = 1 \quad x_2 = 2 \quad x_3 = 3 \quad x_4 = 4 \quad x_5 = 5 \quad \quad (M_X = 3)\] \[y_1 = 4 \quad y_2 = 7 \quad y_3 = 5 \quad y_4 = 8 \quad y_5 = 11 \quad \quad (M_Y = 7)\]

Die Kovarianz zwischen dem Lernaufwand und der Punktzahl lautet somit:

\[\begin{align*} \text{Kov}(X,Y) &= \frac{1}{n} \sum_{i = 1}^n (x_i - M_X) (y_i - M_Y) \\\\ &=\frac{1}{5} \cdot [(1 - 3)(4-7) + (2 - 3)(7-7) + \\\\ &\phantom{=} \quad\quad (3 - 3)(5-7) + (4 - 3)(8-7) \\\\ &\phantom{=} \quad\quad (5 - 3)(11-7)] = 3 \end{align*}\]

An Stelle der klassischen Formel kann man auch die alternative Berechnungsformel nutzen (Beweis, siehe unten). Hierfür wird das Produkt der Mittelwerte vom Mittelwert aller paarweisen Produkte abgezogen.

\[\begin{align*} \text{Kov}(X,Y) &= M_{XY} - M_X M_Y \\\\ &= \frac{1}{5} \cdot (1\cdot 4 + 2\cdot 7 + 3\cdot 5 4\cdot 8 + 5\cdot 11) - 3 \cdot 7 \\\\ &= 3 \end{align*}\]

1.2 Beweise zur Kovarianz

1.2.1 Die Kovarianz von \(X\) und \(Y\) ist gleich der Kovarianz von \(Y\) und \(X\)

trivial, da

\[\begin{align*} \text{Kov}(X,Y) &= \frac{1}{n} \sum_{i = 1}^n (x_i - M_X) (y_i - M_Y) \\\\ &= \frac{1}{n} \sum_{i = 1}^n (y_i - M_Y) (x_i - M_X) = \text{Kov(Y, X)} \end{align*}\]

1.2.2 Die Kovarianz einer Variablen mit sich selber, ist die Varianz der Variablen

trivial, da

\[\begin{align*} \text{Kov(X,X)} &= \frac{1}{n} \sum_{i = 1}^n (x_i - M_X) (x_i - M_X) \\ \\ &= \frac{1}{n} \sum_{i = 1}^n (x_i - M_X)^2 = S_X^2 \end{align*}\]

1.2.3 Alternative Berechnungsformel zur Kovarianz

Die (unkorrigierte) Kovarianz kann anstelle von \[\text{Kov}(X,Y) = \frac{1}{n} \sum_{i = 1}^n (x_i - M_X) (y_i - M_Y)\] auch durch \[\text{Kov}(X,Y) = M_{XY} - M_X\cdot M_Y\] berechnet werden.

Für den Beweis wenden wir die binomische Formel an und formen im Anschluss etwas um.

\[\begin{align*} \text{Kov}(X,Y) &= \frac{1}{n} \sum_{i = 1}^n (x_i - M_X) (y_i - M_Y) \\\\ &= \frac{1}{n} \sum_{i = 1}^n [x_i\cdot y_i - x_i \cdot M_Y - M_X \cdot y_i + M_X \cdot M_Y ] \\\\ &= \frac{1}{n} \sum_{i = 1}^n x_i\cdot y_i - \sum_{i = 1}^n x_i \cdot M_Y - \sum_{i = 1}^n M_X \cdot y_i + \sum_{i = 1}^n M_X \cdot M_Y \\\\ &= M_{XY} - M_Y \sum_{i = 1}^n x_i - M_X \sum_{i = 1}^n y_i + n \cdot M_X \cdot M_Y)\\\\ &= M_{XY} - M_Y \cdot n \cdot M_X - M_X \cdot n\cdot M_Y + n \cdot M_X \cdot M_Y \\\\ &= M_{XY} - 2\cdot n \cdot M_Y \cdot M_X + n \cdot M_X \cdot M_Y \\\\ &= M_{XY} - M_X\cdot M_Y \quad \quad \square \end{align*}\]

1.2.4 Kovarianz einer linearen Transformationen

Die Kovarianz von linear-transformierten Variablen berechnet werden aus der Kovarianz der ursprünglichen Werte als: \[\text{Kov}(a\cdot X +b,c\cdot Y +d)=a\cdot c\cdot\text{Kov}(X,Y)\]

Für den Beweis müssen wir nur die Formel der Kovarianz einer linear-transformierten Variablen ausschreiben und leicht umformen:

\[\begin{align*} \text{Kov}(a\cdot X +b,c\cdot Y +d) &= \frac{1}{n} \sum_{i = 1}^n (a\cdot x_i + b - M_{aX+b}) (c\cdot y_i + d - M_{cY+d}) \\\\ &= \frac{1}{n} \sum_{i = 1}^n (a\cdot x_i + b - [a\cdot M_X + b]) (c\cdot y_i + d - [c \cdot M_Y + d]) \\\\ &= \frac{1}{n} \sum_{i = 1}^n (a\cdot x_i + b - a\cdot M_X - b) (c\cdot y_i + d - c \cdot M_Y - d) \\\\ &= \frac{1}{n} \sum_{i = 1}^n (a\cdot [x_i - M_X]) (c\cdot [y_i - M_Y]) \\\\ &= a \cdot c \cdot \frac{1}{n} \sum_{i = 1}^n (x_i - M_X) (y_i - M_Y) = a \cdot c \cdot \text{Kov}(X,Y) \quad \quad \square \\\\ \end{align*}\]

1.2.5 Kovarianz von Summen von Variablen

Die Kovarianz zwischen der Summe zweier Variablen mit einer dritten Variable errechnet sich als: \[\text{Kov}(X+Y,Z)=\text{Kov}(X,Z) + \text{Kov}(Y,Z)\]

Für den Beweis setzen wir die Summe der Variablen entsprechend in die Kovarianz ein, formen leicht um, und wenden anschließend die binomischen Formeln an:

\[\begin{align*} \text{Kov}(X+Y,Z) &= \frac{1}{n} \sum_{i = 1}^n ([x_i + y_i] - M_{X+Y}) (z_i - M_Z) \\\\ &= \frac{1}{n} \sum_{i = 1}^n ([x_i + y_i] - [M_X + M_Y] ) (z_i - M_Z) \\\\ &= \frac{1}{n} \sum_{i = 1}^n ([x_i + y_i] \cdot z_i - [x_i + y_i] \cdot M_Z - [M_X + M_Y] \cdot z_i + [M_X + M_Y]\cdot M_Z) \\\\ &= \frac{1}{n} \sum_{i = 1}^n (x_i z_i + y_i z_i - x_i M_Z - y_i M_Z - M_X z_i - M_Y z_i + M_X M_Z + M_Y M_Z) \end{align*}\]

Stellt man nun die einzelnen Terme geschickt um und bezieht anschließend die Summe auf zwei Teile dieser umgestellten Terme, so ergibt sich:

\[\begin{align*} \text{Kov}(X+Y,Z) &= \frac{1}{n} \sum_{i = 1}^n (x_i z_i - x_i M_Z - M_X z_i + M_X M_Z + y_i z_i - y_i M_Z - M_Y z_i + M_Y M_Z) \\\\ &= \frac{1}{n} \sum_{i = 1}^n (x_i z_i - x_i M_Z - M_X z_i + M_X M_Z) + \frac{1}{n} \sum_{i = 1}^n (y_i z_i - y_i M_Z - M_Y z_i + M_Y M_Z) \\\\ &= \frac{1}{n} \sum_{i = 1}^n (x_i - M_X) (z_i - M_Z) + \frac{1}{n} \sum_{i = 1}^n (y_i - M_Y) (z_i - M_Z) \\\\ &= \text{Kov}(X,Z) + \text{Kov}(Y,Z) \quad \quad \square \end{align*}\]

1.2.6 Maximum bzw. Minimum der Kovarianz

Die Kovarianz von \(X\) und \(Y\) hat ein Minimum von \(-S_XS_Y\) und ein Maximum von \(+S_XS_Y\): \[-S_XS_Y \leq \text{Kov}(X,Y) \leq S_XS_Y\]

Für den Beweis halten wir fest, dass die Standardabweichung einer Linearkombination \(Y=aX+b\) ist: \[S_Y=\sqrt{S_{aY+b}^2}=\sqrt{a^2S_Y^2} = |a| S_Y\] Die Betragsstriche um \(a\) rühren daher, dass \(\sqrt{a^2}\) zwei Lösungen hat: \(-a\) und \(a\). Da die Standardabweichung (genau wie die Varianz) aber nie kleiner als Null werden kann, wird nur der positive Wert \(a\) bzw \(|-a|\) betrachtet. Darüber hinaus erreicht die Kovarianz ihr Maximum bzw. Minimum bei vollständiger positiver bzw. negativer linearer Abhängigkeit, d.h., wenn die eine Variable \(Y\) als Linearkombination der anderen Variablen \(X\) geschrieben werden kann, also \(Y=aX+b\). Wie groß ist dann die Kovarianz? \[\begin{equation*} \begin{aligned} \text{Kov}(X,Y)&=\text{Kov}(X,aX+b)\\ &=a\text{Kov}(X,X)\\ &=a S_X^2\\ &=a S_X S_X\hspace{1cm}|\text{Erweiterung mit }\frac{|a|}{|a|}\\ &=\frac{|a|}{|a|}a S_X S_X \\\\ &=\frac{a}{|a|} S_X |a| S_X \hspace{1cm}|\text{Einsetzen von }S_Y\\ &=\frac{a}{|a|}S_X S_Y \end{aligned} \end{equation*}\]

Im Falle eines positiven Zusammenhangs ist \(a>0\), d.h. \(\frac{a}{|a|}=1\); im Falle eines negativen Zusammenhangs ist \(a<0\), d.h. \(\frac{a}{|a|}=-1\). Insgesamt ergibt sich daraus, dass im Falle eines positiven vollständigen Zusammenhangs die Kovarianz \(+1S_XS_Y\) ist und im Falle eines negativen Zusammenhangs die Kovarianz \(-1S_XS_Y\) ist.

Da die Standardabweichung bzw. Varianz von z-transformierten Variablen immer \(1\) beträgt, folgt automatisch, dass das Maximum bzw. Minimum der Kovarianz zweier \(z\)-transformierter Variablen zwischen \(-1\) und \(1\) liegen muss.

\[-S_{z_X}S_{z_Y} \leq \text{Kov}(z_X,z_Y) \leq S_{z_X}S_{z_Y}\] \[-1 \leq \text{Kov}(z_X,z_Y) \leq 1\]