Willkommen bei Stats by Randolph. Hier geht es zur Hauptseite mit weiteren Informationen und Inhalten.

Autor:innen dieser Seite: An den Inhalten dieser Seite haben mitgearbeitet: Valentin Koob, Eva Röttger und Markus Janczyk. Der Inhalt dieser Seite wird in der Lehre in den Studiengängen Psychologie von der AG Forschungsmethoden und Kognitive Psychologie an der Universität Bremen verwendet, steht aber allen Interessierten zur Verfügung. Rückmeldungen/Fehler/Vorschläge können gesendet werden an .

Versionshistory:

  • v1.0: erste online-gestellte Version (14.9.2023)

12 Die Familie der t-Tests

In Teil 11 haben wir zwei Populationen \(A\) und \(B\) mit folgender Hypothesensituation betrachtet: \[H_0:\mu_A\leq\mu_B\; \text{ und } \;H_1:\mu_A>\mu_B\] Die entsprechende Untersuchung bestand daraus, dass wir zwei Stichproben aus jeder Population gezogen haben und anschließend die Differenz der Mittelwerte \(D=M_A-M_B\) berechnet haben. Um zu entscheiden, ob es plausibel ist, dass die Population \(A\) einen größeren Erwartungswert besitzt als die Population \(B\), haben wir zwei Entscheidungsregeln bzw. Herangehensweisen entwickelt (die immer zur gleichen Konklusion führen):

  1. Entweder man vergleicht die Differenz der Mittelwerte \(D\) mit einem kritischen Wert \(D_\text{krit}\)

  2. …oder man vergleicht \(p\) mit \(\alpha\), wobei \(p\) die bedingte Wahrscheinlichkeit ist, einen Wert von \(D\) oder noch größer zu finden, wenn in Wahrheit beide Populationen die gleichen Erwartungswerte besitzen (d.h. die \(H_0\) gilt). Der Wert \(\alpha\) gab die Wahrscheinlichkeit an, ab der wir Differenzen als hinreichend unplausibel erachtet haben, um weiter an die \(H_0\) zu glauben.

Zur Bestimmung von \(p\) oder \(D_\text{krit}\) haben wir eine Simulation genutzt, um die relative Häufigkeit (“Wahrscheinlichkeit”) von allen denkbaren, empirischen, \(D\)-Werten zu bestimmen. Im Detail haben wir (sehr häufig) Stichproben vom gleichen Umfang gezogen, für den Fall, dass auf Populationsebene die \(H_0\) galt, und dann, pro Durchgang, die Mittelwertdifferenz \(D\) berechnet.

Dieses Vorgehen ist zunächst einfacher nachzuvollziehen, aber das Problem ist nun natürlich, dass wir in der Realität nur eine Studie bzw. Stichprobenziehung durchführen können und die Populationen auch nicht kennen, um die Wahrscheinlichkeit von \(D\)-Werten zu simulieren. Allerdings kann uns hier die Statistik helfen. Denn durch eine geringfügige Modifikation von \(D\) können wir, unter der Gültigkeit gewisser Annahmen, die Verteilung der entsprechenden Zufallsvariablen (bzw. Prüfgröße) exakt bestimmen. Hier kommt nun die Familie der t-Tests zum Einsatz.

Wir besprechen hier (zunächst) drei t-Tests:

  1. Den \(t\)-Test für zwei unabhängige Stichproben (engl. two-sample \(t\)-test):
    • Dieser Test wird eingesetzt für den Vergleich der Mittelwerte zweier Populationen, wobei die Stichproben unabhängig voneinander sind.
    • Jede Versuchsperson liefert also einen Datenpunkt, d.h. nur für eine der zwei Bedingungen (ähnlich wie in Teil 11 behandelt).
  2. Den \(t\)-Test für eine Stichprobe (“Einstichproben-\(t\)-test”; engl. one-sample \(t\)-test):
    • Dieser Test testet Hypothesen darüber, ob sich ein Parameter \(\mu\) der Population, aus der eine Stichprobe stammt, von einem bestimmten festen Wert \(\mu_0\) unterscheidet.
  3. Den \(t\)-Test für zwei abhängige Stichproben (engl. paired-sample \(t\)-test):
    • Ähnlich wie bei zwei unabhängigen Stichproben, aber…
    • …jede Versuchsperson liefert zwei Datenpunkte (einen pro Bedingung).

12.1 Der t-Test für zwei unabhängige Stichproben

Bei diesem \(t\)-Test haben wir folgende Ausgangslage: Die Fragestellung lautet “Unterscheiden sich die Erwartungswerte zweier Populationen \(A\) und \(B\)”? Als Daten zur Beantwortung liegen uns Werte von zwei Stichproben aus den Population \(A\) und \(B\) vom Umfang \(n_A\) bzw. \(n_B\) vor.

Damit die folgenden mathematischen Ableitungen zur Bestimmung einer Prüfgröße ihre Richtigkeit haben, müssen einige Voraussetzungen gelten bzw. als gültig angenommen werden:

  • Beide Stichproben wurden zufällig und unabhängig voneinander gezogen.
  • Das gemessene Merkmal ist mindestens intervallskaliert.
  • Das gemessene Merkmal ist in der Population bzw. den Populationen normalverteilt.
  • Die Varianz beider Populationen ist identisch. Dies wird als “Varianzhomogenität” bezeichnet.

Diese Voraussetzungen sind nicht unbedingt überprüfbar, das Erfülltsein wird angenommen. Die Annahmen können aber theoretisch und empirisch auf Plausibilität geprüft werden.

Im Folgenden wollen wir nun die mathematischen Grundlagen und das Vorgehen beim t-Test für zwei unabhängige Stichproben anhand einer gerichteten Alternativhypothese betrachten. Später werden wir das Vorgehen auf eine ungerichtete Alternativhypothese und andere Arten des t-Tests erweitern.

12.1.1 Grundlagen bei gerichteter Alternativhypothese

Der Ausgangspunkt eines gerichteten Hypothesentests ist ein Hypothesenpaar der Art \[H_0:\mu_A\leq\mu_B \; \text{ und } \; H_1:\mu_A>\mu_B,\] bei der die Alternativhypothese eine “größer”- (oder “kleiner”-) Relation und die Nullhypothese entsprechend eine “kleiner-gleich”- (oder “größer-gleich”-) Relation beinhaltet. Um den Bezug zu unserer Teststatistik besser herzustellen, lohnt es sich zu beachten, dass die beiden Hypothesen auch geschrieben werden können als: \[H_0:\mu_A-\mu_B\leq0\; \text{ und } \;H_1:\mu_A-\mu_B>0\] Das heißt, unter der Nullhypothese ist die Differenz der Populationserwartungswerte kleiner/gleich \(0\) und unter der Alternativhypothese größer \(0\).

Liegen nun Werte von zwei Stichproben aus den Populationen \(A\) und \(B\) vor, bietet es sich an, die Differenz der Erwartungswerte \(\mu_A-\mu_B\) durch die Differenz der Mittelwerte \(D=M_A-M_B\) zu schätzen, da diese in der Tat ein erwartungstreuer Schätzer ist: \[E(\boldsymbol{M_A}-\boldsymbol{M_B})=E(\boldsymbol{M_A})-E(\boldsymbol{M_B})=\mu_A-\mu_B\] Auf lange Sicht werden die empirischen Mittelwertdifferenzen also der wahren Erwartungswertdifferenz im Mittel entsprechen.

Das Problem ist nun aber, dass die Verteilung der Mittelwertdifferenzen (aufgefasst als Zufallsvariable) \(\boldsymbol{D} = \boldsymbol{M_A}-\boldsymbol{M_B}\) nicht ganz klar ist, da die Verteilung noch von der Varianz der Ursprungsvariablen abhängt. Abhilfe schafft allerdings der t-Bruch.

Als den \(t\)-Bruch bezeichnen wir im Allgemeinen folgende Größe: \[t=\frac{T-\tau_0}{SE_T}\]

  • Dabei ist \(T\) ein Schätzer für einen Populationsparameter \(\tau\), …
  • \(\tau_0\) der Wert, auf den der Parameter unter der Nullhypothese getestet werden soll (in unserem Fall erstmal: \(\tau_0=0\)) und…
  • \(SE_T\) ist der geschätzte Standardfehler des Schätzers \(T\).

Im hier behandelten Zweistichprobenfall möchten wir nun testen, ob die Differenz der Erwartungswerte der Populationen, aus denen die Stichproben stammen, \(0\) ist. Passt man vor diesem Hintergrund den allgemeinen \(t\)-Bruch an den Fall des \(t\)-Tests für zwei Stichproben an, so erhalten wir: \[t=\frac{(M_A-M_B)-0}{SE_{M_A-M_B}}\] Im Zähler steht hierbei die Mittelwertdifferenz der beiden Stichproben, welche gegen die Erwartungswertdifferenz von \(0\) getestet wird (vgl. die Gleichheitsbeziehung in der \(H_0: \mu_A - \mu_B \leq 0\)). Im Nenner steht der geschätzte Standardfehler (also die geschätzte Standardabweichung) der Mittelwertdifferenz, den wir bisher noch nicht kennen. Im Folgenden bestimmen wir daher nun einen entsprechenden Schätzer.

Wegen der vorausgesetzten Unabhängigkeit der Stichproben gilt auf Populationsebene: \[\sigma^2_{\boldsymbol{M_A}-\boldsymbol{M_B}}=\sigma^2_{\boldsymbol{M_A}}+\sigma^2_{\boldsymbol{M_B}}-2\cdot\text{Kov}(\boldsymbol{M_A},\boldsymbol{M_B})=\sigma^2_{\boldsymbol{M_A}}+\sigma^2_{\boldsymbol{M_B}}\]

Die Varianz der Mittelwertdifferenz auf Populationsebene ist also die Summe der beiden Varianzen der Mittelwerte. Die Varianz der Mittelwerte wiederum kennen wir schon, nämlich \(\frac{\sigma_A^2}{n}\) bzw. \(\frac{\sigma_B^2}{n}\).

Unter der Annhame, dass die Varianz in beiden Populationen identisch ist, also \(\sigma^2_A=\sigma^2_B=\sigma^2\), folgt somit: \[\sigma^2_{\boldsymbol{M_A}-\boldsymbol{M_B}}=\sigma^2_{\boldsymbol{M_A}}+\sigma^2_{\boldsymbol{M_B}}=\frac{\sigma_A^2}{n_A}+\frac{\sigma_B^2}{n_B} = \frac{\sigma^2}{n_A}+\frac{\sigma^2}{n_B}=\sigma^2\left(\frac{1}{n_A} +\frac{1}{n_B} \right)\] Um also die Varianz der Mittelwertdifferenz (und damit auch die Standardabweichung bzw. den Standardfehler) auf Basis unserer Stichprobe zu schätzen, benötigen wir einen Schätzer für \(\sigma^2\): \[\hat \sigma^2_{M_A-M_B} = \hat \sigma^2\left(\frac{1}{n_A} +\frac{1}{n_B} \right)\]

Da wir davon ausgehen, dass die Varianzen der Populationen identisch sind, sind also beide Varianzen Schätzer für die gleiche Populationsvarianz. Es bietet sich daher an, diese gemeinsame Varianz durch ein gewichtetes Mittel der (korrigierten) Varianzen beider Stichproben zu schätzen: \[\hat{\sigma}^2=\frac{(n_A-1)\hat{S}^2_A+(n_B-1)\hat{S}^2_B}{n_A+n_B-2}\] Zusammengesetzt ergibt sich also als Schätzer der Varianz der Mittelwertdifferenz: \[\hat \sigma^2_{M_A-M_B} = \frac{(n_A-1)\hat{S}^2_A+(n_B-1)\hat{S}^2_B}{n_A+n_B-2}\cdot \left(\frac{1}{n_A} +\frac{1}{n_B} \right) \] und die Wurzel daraus ist der geschätzte Standardfehler (bzw. die Standardabweichung) der Mittelwertdifferenz:

\[SE_{M_A-M_B} = \sqrt{\hat \sigma^2_{M_A-M_B}} =\sqrt{\frac{(n_A-1)\hat{S}^2_A+(n_B-1)\hat{S}^2_B}{n_A+n_B-2}\cdot \left(\frac{1}{n_A} +\frac{1}{n_B} \right)} \]

Damit können wir nun final den t-Bruch für zwei unabhängige Stichproben schreiben als: \[t=\frac{M_A-M_B}{\sqrt{\frac{(n_A-1)\hat{S}^2_A+(n_B-1)\hat{S}^2_B}{n_A+n_B-2}}\cdot\sqrt{\frac{1}{n_A} +\frac{1}{n_B}}} = \frac{M_A-M_B}{\sqrt{\frac{n_A{S}^2_A+n_B{S}^2_B}{n_A+n_B-2}}\cdot\sqrt{\frac{1}{n_A} +\frac{1}{n_B}}}\] Sind beide Stichproben gleich groß, also wenn \(n_A=n_B=n\), dann vereinfacht sich der Bruch weiter zu: \[t=\frac{M_A-M_B}{\sqrt{\frac{\hat{S}^2_A+\hat{S}^2_B}{n}}}\]

Dieser nun hergeleitete \(t\)-Bruch besitzt zwei wichtige Eigenschaften, die ihn als Prüfgröße qualifizieren:

  1. Er wird umso größer, (a) je größer die Differenz \(M_A-M_B\) wird und (b) je kleiner ihr Standardfehler wird. Mit anderen Worten: Er wird umso größer, je unplausibler die Mittelwertdifferenz einer Studie unter der \(H_0\) ist (und somit die Daten der Studie umso mehr für die \(H_1\) sprechen).
  2. \(\boldsymbol{t}\) kann als Zufallsvariable aufgefasst werden, die jeder Paarung zweier Stichproben vom Umfang \(n_A\) und \(n_B\) den t-Bruch zuweist. Dann kann man zeigen, dass bei Annahme der \(H_0\) diese Zufallsvariable (zentral) t-verteilt mit \(n_A+n_B-2\) Freiheitsgraden ist. Man schreibt dann: \[\boldsymbol{t}\overset{H_0}{\sim} t_{n_A+n_B-2}\] In anderen Worten: Würden wir immer und immer wieder Stichproben vom Umfang \(n_A\) bzw. \(n_B\) aus Populationen mit \(\mu_A = \mu_B\) ziehen und den jeweiligen t-Wert pro Stichprobe berechnen, so würden diese t-Werte einer bestimmten Verteilung folgen: Der t-Verteilung mit \(n_A+n_B-2\) Freiheitsgraden.

Dies ist eine fundamentale Eigenschaft, denn sie gibt an, dass wir unter der \(H_0\) und unter der Gültigkeit unserer Voraussetzungen die Verteilung der Prüfgröße exakt kennen. Wir benötigen also keine Simulation mehr! Die \(t\)-Verteilung bildet damit die Grundlage unserer Entscheidungslogik.

12.1.2 Die (zentrale) t-Verteilung

Die zentrale \(t\)-Verteilung wird im Folgenden die Grundlage aller Signifikanztests bilden. Sie ist eine Dichtefunktion einer stetigen Zufallsvariable und besitzt einen Parameter, welcher Freiheitsgrade (engl. , degrees of freedom, df) genannt wird. Sie ist glockenförmig und symmetrisch um \(0\) verteilt und sieht optisch der (Standard-)Normalverteilung sehr ähnlich. Die folgende Abbildung stellt einige Beispiele für zentrale \(t\)-Verteilungen mit \(m\)-vielen Freiheitsgraden dar: