Willkommen bei Stats by Randolph. Hier geht es zur Hauptseite mit weiteren Informationen und Inhalten.
Autor:innen dieser Seite: An den Inhalten dieser Seite haben mitgearbeitet: Valentin Koob, Eva Röttger und Markus Janczyk. Der Inhalt dieser Seite wird in der Lehre in den Studiengängen Psychologie von der AG Forschungsmethoden und Kognitive Psychologie an der Universität Bremen verwendet, steht aber allen Interessierten zur Verfügung. Rückmeldungen/Fehler/Vorschläge können gesendet werden an randolph@uni-bremen.
Versionshistory:
Im Zuge einer Studie wurde von \(n = 5\) Personen Reaktionszeiten in Sekunden zum Einleiten einer Gefahrenbremsung vor (Variable \(X\)) und nach (Variable \(Y\)) dem Konsum von Alkohol gemessen. Ergeben haben sich die folgenden Daten: \[x_1 = 0.9 \quad x_2 = 1.0 \quad x_3 =0.85 \quad x_4 = 1.1 \quad x_5 = 1.2\] \[y_1 = 1.5 \quad y_2 = 1.6 \quad y_3 = 1.4 \quad y_4 = 2.0 \quad y_5 = 1.4\]
Die mittlere Reaktionszeit vor und nach der Einnahme von Alkohol lautet somit: \[M_X = \frac{1}{n} \sum_{i = 1}^n x_i = \frac{0.9 + 1.0 + 0.85 + 1.1 + 1.2}{5} = 1.01\] \[M_Y = \frac{1}{n} \sum_{i = 1}^n y_i = \frac{1.5 + 1.6 + 1.4 + 2.0 + 1.4}{5} = 1.58\]
Im Folgenden werden einige Eigenschaften des Mittelwerts bewiesen.
Sei \(a \cdot X + b\) eine lineare Transformation einer Variable \(X\) mit \(a,b \in \mathbb{R}\). Dann gilt: \[M_{a\cdot X +b} = a \cdot M_X + b\] Für den Beweis schreiben wir die Formel des Mittelwerts für die linear-transformierte Variable explizit aus und wenden im Anschluss ein paar Rechenregeln für das Summenzeichen an:
\[\begin{align*} M_{a\cdot X +b} &= \frac{1}{n}\cdot \sum_{i=1}^n (a\cdot x_i + b) \\\\ &= \frac{1}{n}\cdot \left(\sum_{i=1}^n (a\cdot x_i) + \sum_{i=1}^n b \right) \\\\ &= \frac{1}{n}\cdot \left(a \sum_{i=1}^n x_i + n\cdot b \right) \\\\ &= a \cdot \frac{1}{n} \cdot \sum_{i=1}^n x_i + \frac{1}{n} \cdot n \cdot b \\\\ &= a \cdot M_X + b \quad \square \end{align*}\]
Seien \(X\) und \(Y\) zwei Variablen, dann gilt: \[M_{X+Y} = M_X + M_Y\] Für den Beweis schreiben wir wieder die Formel des Mittelwerts für die Summe der beiden Variablen aus und wenden ein paar Summen-Rechenregeln an:
\[\begin{align*} M_{X+Y} &= \frac{1}{n}\cdot \sum_{i=1}^n (x_i + y_i) \\\\ &= \frac{1}{n}\cdot \left( \sum_{i=1}^n x_i + \sum_{i=1}^n y_i \right) \\\\ &= \frac{1}{n} \cdot \sum_{i=1}^n x_i + \frac{1}{n} \cdot \sum_{i=1}^n y_i \\\\ &= M_X + M_Y \quad \square \end{align*}\]
Im Allgemeinen gilt, dass die Summe der Abweichungen einzelner Werte \(x_i\) von ihrem Mittelwert \(M_X\) immer Null ergibt: \[\sum_{i=1}^n (x_i - M_X) = 0\] Für den Beweis beziehen wir die Summe auf die beiden Terme der Subtraktion und drücken den ersten Term dann in Form des Mittelwerts aus: \[\begin{align*} \sum_{i=1}^n (x_i - M_X) &= \sum_{i=1}^n x_i - \sum_{i=1}^n M_X \\\\ &= n \cdot \frac{1}{n} \sum_{i=1}^n x_i - n \cdot M_X \\\\ &= n \cdot M_X - n \cdot M_X = 0 \quad \square \end{align*}\]
Wenn eine Variable nur die Werte 0 und 1 annimmt, dann berechnet sich ihr Mittelwert als \[M_X = \frac{k}{n} = p \quad ,\] wobei \(k\) die Anzahl der Einsen in der Stichprobe ist.
Einen richtigen Beweis gibt es nicht, aber man kann sich das Folgende schnell klarmachen. Sei \(x_1,\dots,x_n\) eine Datenreihe in der zuerst \(k\) viele Einsen und dann \(l\) viele Nullen vorkommen, dann gilt: \[\begin{align*} \frac{1}{n} \sum_{i=1}^n x_i &= \frac{1}{n} \cdot (x_1 + \dots + x_n) \\ &= \frac{1}{n} \cdot (\underbrace{1 + \dots + 1}_{k\;\text{-mal}} + \underbrace{0 + \dots + 0}_{l\;\text{-mal}}) \\ &= \frac{1}{n} \cdot (k\cdot 1 + l \cdot 0) = \frac{k}{n} \end{align*}\]
Im Zuge einer Studie wurde von \(n = 5\) Personen Reaktionszeiten in Sekunden zum Einleiten einer Gefahrenbremsung vor (Variable \(X\)) und nach (Variable \(Y\)) dem Konsum von Alkohol gemessen. Ergeben haben sich die folgenden Daten: \[x_1 = 0.9 \quad x_2 = 1.0 \quad x_3 =0.85 \quad x_4 = 1.1 \quad x_5 = 1.2 \quad \quad (M_X = 1.01)\] \[y_1 = 1.5 \quad y_2 = 1.6 \quad y_3 = 1.4 \quad y_4 = 2.0 \quad y_5 = 1.4 \quad \quad (M_Y = 1.58)\]
Die Stichprobenvarianz vor und nach der Einnahme von Alkohol lautet somit:
\[\begin{align*} S_X^2 &= \frac{1}{n} \sum_{i = 1}^n (x_i - M_X) ^2 \\\\ &=\frac{1}{5} \cdot [(0.9 - 1.01)^2 + (1.0 - 1.01)^2 + (0.85 - 1.01)^2 + \\\\ &\phantom{=} \quad\quad (1.1 - 1.01)^2 + (1.2 - 1.01)^2 ] = 0.0164 \end{align*}\]
\[\begin{align*} S_Y^2 &= \frac{1}{n} \sum_{i = 1}^n (y_i -M_Y)^2 \\\\ &= \frac{1}{5} \cdot [(1.5 - 1.58)^2 + (1.6 - 1.58)^2 + (1.4 - 1.58)^2 + \\\\ &\phantom{=} \quad\quad (2.0 - 1.58)^2 + (1.4 - 1.58)^2] = 0.0496 \end{align*}\]
An Stelle der klassischen Formel kann man auch die alternative Berechnungsformel nutzen (Beweis, siehe unten). Hierfür wird der quadrierte Mittelwert vom Mittelwert der quadrierten Werte abgezogen. Für die variable \(X\) ergibt sich beispielswe:
\[\begin{align*} S_X^2 &= M_{X^2} - M_X^2 \\\\ &= \frac{1}{5} \cdot (0.9^2 + 1.0^2 + 0.85^2 +1.1^2 +1.2^2) - \left( \frac{1}{5} \cdot (0.9 + 1.0 + 0.85 +1.1 +1.2 ) \right)^2 \\\\ &= \frac{5.1825}{5} - \left( \frac{5.05}{5} \right)^2 \\\\ &= 0.0164 \end{align*}\]
Im Folgenden werden einige Eigenschaften der Varianz bewiesen.
Gegeben sei eine Variable, die ausschließlich gleiche Werte annimmt, das heißt, \(x_1 = a, \dots , x_n = a\). Dann gilt für den Mittelwert \[M_X = \frac{1}{n} \sum_{i = 1}^n x_i = \frac{1}{n} \sum_{i = 1}^n a = \frac{1}{n} \cdot n \cdot a = a\] und damit für die Varianz: \[S_X^2 = \frac{1}{n} \cdot \sum_{i=1}^n (x_i - M_X)^2 = \frac{1}{n} \cdot \sum_{i=1}^n (a - a)^2 = 0\]
Die Varianz von linear-transformierten Variablen kann berechnet werden aus der Varianz der Originalwerte als: \[S_{a\cdot X + b} = a^2 \cdot S_X^2\] Für den Beweis müssen wir nur die Formel der Varianz einer linear-transformierten Variable ausschreiben und uns den Mittelwert der linear-transformierten Variable ansehen:
\[\begin{align*} S_X^2 &= \frac{1}{n} \cdot \sum_{i=1}^n (a\cdot x_i +b - M_{a\cdot X+b})^2 \\\\ &= \frac{1}{n} \cdot \sum_{i=1}^n \left(a\cdot x_i + b - (a\cdot M_X + b) \right)^2 \\\\ &= \frac{1}{n} \cdot \sum_{i=1}^n \left(a\cdot x_i + b - a\cdot M_X - b \right)^2 \\\\ &= \frac{1}{n} \cdot \sum_{i=1}^n \left(a\cdot x_i - a\cdot M_X \right)^2 \\\\ &= \frac{1}{n} \cdot \sum_{i=1}^n \left(a\cdot (x_i - M_X) \right)^2 \\\\ &= \frac{1}{n} \cdot \sum_{i=1}^n \left(a^2 \cdot (x_i - M_X)^2 \right) \\\\ &= a^2 \cdot \frac{1}{n} \cdot \sum_{i=1}^n \cdot (x_i - M_X)^2 = a^2 S_X^2 \quad \square \\\\ \end{align*}\]
Die Varianz einer Summe bzw. Differenz zweier Variablen benötigt die Kovarianz der Variablen, denn es gilt:
\[S^2_{X+Y}=S_X^2+S_Y^2+2\cdot \text{Kov}(X,Y)\] \[S^2_{X-Y}=S_X^2+S_Y^2-2\cdot \text{Kov}(X,Y)\]
Für den Beweis setzen wir die Summe der Variablen in die Varianzformel ein und verwenden mehrfach die binomischen Formeln:
\[\begin{align*} S^2_{X+Y} &= \frac{1}{n} \cdot \sum_{i=1}^n \left([x_i + y_i) - M_{X+Y}\right)^2 \\\\ &= \frac{1}{n} \cdot \sum_{i=1}^n \left((x_i + y_i) - (M_X + M_Y)\right)^2 \\\\ &= \frac{1}{n} \cdot \sum_{i=1}^n \left((x_i + y_i)^2 -2 \cdot (x_i + y_i) \cdot (M_X + M_Y) + (M_X + M_Y)^2\right) \\\\ &= \frac{1}{n} \cdot \sum_{i=1}^n \left(x_i^2 + 2\cdot x_i y_i + y_i^2 -2 \cdot (x_i M_X + x_i M_Y + y_i M_X + y_i M_Y) + M_X^2 + 2 \cdot M_Y M_X + M_Y^2\right) \\\\ &= \frac{1}{n} \cdot \sum_{i=1}^n \left(x_i^2 + 2\cdot x_i y_i + y_i^2 -2 \cdot x_i M_X - 2 \cdot x_i M_Y - 2 \cdot y_i M_X - 2 \cdot y_i M_Y + M_X^2 + 2 \cdot M_Y M_X + M_Y^2\right) \\\\ \end{align*}\]
Durch geschicktes umstellen ergibt sich:
\[\begin{align*} S^2_{X+Y} &= \frac{1}{n} \cdot \sum_{i=1}^n \left(x_i^2 -2 \cdot x_i M_X + M_X^2 + y_i^2 - 2 \cdot y_i M_Y + M_Y^2 + 2\cdot x_i y_i - 2 \cdot x_i M_Y - 2 \cdot y_i M_X + 2 \cdot M_Y M_X \right) \\\\ &= \frac{1}{n} \cdot \sum_{i=1}^n \left(x_i^2 -2 \cdot x_i M_X + M_X^2 \right) + \frac{1}{n} \cdot \sum_{i=1}^n \left(y_i^2 - 2 \cdot y_i M_Y + M_Y^2 \right) + \frac{1}{n} \cdot \sum_{i=1}^n \left(2\cdot x_i y_i - 2 \cdot x_i M_Y - 2 \cdot y_i M_X + 2 \cdot M_Y M_X \right) \\\\ &= \frac{1}{n} \cdot \sum_{i=1}^n \left(x_i^2 -2 \cdot x_i M_X + M_X^2 \right) + \frac{1}{n} \cdot \sum_{i=1}^n \left(y_i^2 - 2 \cdot y_i M_Y + M_Y^2 \right) + \frac{1}{n} \cdot \sum_{i=1}^n \left(2\cdot (x_i y_i -x_i M_Y - y_i M_X + M_Y M_X) \right) \\\\ &= \frac{1}{n} \cdot \sum_{i=1}^n (x_i - M_X)^2 + \frac{1}{n} \cdot \sum_{i=1}^n (y_i - M_Y)^2 + 2 \cdot \frac{1}{n} \cdot \sum_{i=1}^n (x_i -M_X)(y_i -M_Y) \\\\ &= S_X^2+S_Y^2+2\cdot \text{Kov}(X,Y) \quad \quad \square \\\\ \end{align*}\]
Die Stichprobenvarianz kann anstelle von \[ S_X^2 = \frac{1}{n} \cdot \sum_{i=1}^n (x_i - M_X)^2\] auch durch \[S_X^2 = M_{X^2} - (M_X)^2\] berechnet werden.
Für den Beweis beziehen wir das Quadrat der Klammer auf die einzelnen Terme durch Anwendung der binomischen Formel und wenden anschließend einige Rechenregeln für das Summenzeichen an.
\[\begin{align*} S_{X}^2 &= \frac{1}{n} \cdot \sum_{i=1}^n (x_i - M_X)^2 \\\\ &= \frac{1}{n} \cdot \sum_{i=1}^n \left( x_i^2 - 2\cdot M_X \cdot x_i + (M_X)^2 \right) \\\\ &= \frac{1}{n} \cdot \left( \sum_{i=1}^n x_i^2 - \sum_{i=1}^n 2\cdot M_X \cdot x_i + \sum_{i=1}^n (M_X)^2 \right) \\\\ &= \frac{1}{n} \sum_{i=1}^n x_i^2 - 2 \cdot M_X \cdot \frac{1}{n} \cdot \sum_{i=1}^n x_i + \frac{1}{n} \cdot n \cdot (M_X)^2 \\\\ &= M_{X^2} - 2 \cdot M_X \cdot M_X + (M_X)^2 \\\\ &= M_{X^2} - 2 \cdot (M_X)^2 + (M_X)^2 = M_{X^2} - (M_X)^2 \quad \square \end{align*}\]
Warum wird die Summe (mittlerer) quadratischer Abweichungen von \(C\) minimal, wenn \(C=M_X\) ist?
Wir setzen zunächst \(C=M_X+\Delta \Leftrightarrow \Delta = C-M_X\). Dann betrachten wir allgemein die Summe der (mittleren) quadratischen Abweichungen von \(C\) (Hinweis: Um von der ersten zur zweiten Zeile zu kommen, fassen wir \((x_i-M_X)\) und \(\Delta\) als zwei Summanden auf und wenden darauf die binomische Formel an!):
\[\begin{align*} \frac{1}{n}\sum_{i =1}^n (x_i - C)^2 &= \frac{1}{n} \sum_{i=1}^n (x_i - M_X - \Delta)^2 \\\\ &= \frac{1}{n} \sum_{i=1}^n [(x_i-M_X)^2 - 2\Delta(x_i - M_X) + \Delta^2]\\\\ &= \underbrace{\frac{1}{n} \sum_{i=1}^n (x_i-M_X)^2}_{=S_X^2} - \underbrace{2\Delta \frac{1}{n} \sum_{i=1}^n (x_i - M_X)}_{= 0} + \underbrace{\frac{1}{n} \sum_{i=1}^n\Delta^2}_{= \Delta^2} \end{align*}\]
Insgesamt also:
\[\frac{1}{n}\sum_{i =1}^n (x_i - C)^2 = S_X^2 + \Delta^2\] Der letzte Ausdruck wird also minimal dann, wenn \(\Delta^2\) sein Minimum von \(0\) annimmt. Dies ist genau dann der Fall, wenn \(C=M_X\) ist (wegen \(C=M_X+\Delta\)).
Die sog. z-Standardisierung wird für eine beliebige Variable \(X\) berechnet als: \[Z_X = \frac{X - M_X}{S_X}\] Eine \(z\)-standardisierte Variable hat zwei wichtige Eigenschaften: Ihr Mittelwert ist 0 und ihre Standardabweichung/Varianz 1.
Für die entsprechenden Beweise stellen wir zuerst die obige Formel leicht um, damit die Anwendung der Rechenregeln leichter wird: \[ Z_X = \frac{1}{S_X} \cdot (X - M_X) \] Anschließend multiplizieren wir die Varianz in die Klammer: \[ Z_X = \underbrace{\frac{1}{S_X}}_a\cdot X - \underbrace{\frac{M_X}{S_X}}_b \] In dieser Form lassen sich die Rechenregeln für den Mittelwert bzw. die Varianz linear-transformierter Variablen direkt anwenden:
\[ M_{Z_X} = M_{\frac{1}{S_X}\cdot X - \frac{M_X}{S_X}} = \frac{1}{S_X}\cdot M_X - \frac{M_X}{S_X} = \frac{M_X}{S_X} - \frac{M_X}{S_X} = 0 \quad \square \]
\[ S_{Z_X}^2 = S^2_{\frac{1}{S_X}\cdot X - \frac{M_X}{S_X}} = \left(\frac{1}{S_X}\right)^2 \cdot S_X^2 = \frac{1^2}{S_X^2}\cdot S_X^2 = \frac{S_X^2}{S_X^2} = 1 \quad \square \]