Willkommen bei Stats by Randolph. Hier geht es zur Hauptseite mit weiteren Informationen und Inhalten.

Autor:innen dieser Seite: An den Inhalten dieser Seite haben mitgearbeitet: Valentin Koob, Eva Röttger und Markus Janczyk. Der Inhalt dieser Seite wird in der Lehre in den Studiengängen Psychologie von der AG Forschungsmethoden und Kognitive Psychologie an der Universität Bremen verwendet, steht aber allen Interessierten zur Verfügung. Rückmeldungen/Fehler/Vorschläge können gesendet werden an .

Versionshistory:

  • v1.0: erste online-gestellte Version (14.9.2023)

12 Die Familie der t-Tests

In Teil 11 haben wir zwei Populationen \(A\) und \(B\) mit folgender Hypothesensituation betrachtet: \[H_0:\mu_A\leq\mu_B\; \text{ und } \;H_1:\mu_A>\mu_B\] Die entsprechende Untersuchung bestand daraus, dass wir zwei Stichproben aus jeder Population gezogen haben und anschließend die Differenz der Mittelwerte \(D=M_A-M_B\) berechnet haben. Um zu entscheiden, ob es plausibel ist, dass die Population \(A\) einen größeren Erwartungswert besitzt als die Population \(B\), haben wir zwei Entscheidungsregeln bzw. Herangehensweisen entwickelt (die immer zur gleichen Konklusion führen):

  1. Entweder man vergleicht die Differenz der Mittelwerte \(D\) mit einem kritischen Wert \(D_\text{krit}\)

  2. …oder man vergleicht \(p\) mit \(\alpha\), wobei \(p\) die bedingte Wahrscheinlichkeit ist, einen Wert von \(D\) oder noch größer zu finden, wenn in Wahrheit beide Populationen die gleichen Erwartungswerte besitzen (d.h. die \(H_0\) gilt). Der Wert \(\alpha\) gab die Wahrscheinlichkeit an, ab der wir Differenzen als hinreichend unplausibel erachtet haben, um weiter an die \(H_0\) zu glauben.

Zur Bestimmung von \(p\) oder \(D_\text{krit}\) haben wir eine Simulation genutzt, um die relative Häufigkeit (“Wahrscheinlichkeit”) von allen denkbaren, empirischen, \(D\)-Werten zu bestimmen. Im Detail haben wir (sehr häufig) Stichproben vom gleichen Umfang gezogen, für den Fall, dass auf Populationsebene die \(H_0\) galt, und dann, pro Durchgang, die Mittelwertdifferenz \(D\) berechnet.

Dieses Vorgehen ist zunächst einfacher nachzuvollziehen, aber das Problem ist nun natürlich, dass wir in der Realität nur eine Studie bzw. Stichprobenziehung durchführen können und die Populationen auch nicht kennen, um die Wahrscheinlichkeit von \(D\)-Werten zu simulieren. Allerdings kann uns hier die Statistik helfen. Denn durch eine geringfügige Modifikation von \(D\) können wir, unter der Gültigkeit gewisser Annahmen, die Verteilung der entsprechenden Zufallsvariablen (bzw. Prüfgröße) exakt bestimmen. Hier kommt nun die Familie der t-Tests zum Einsatz.

Wir besprechen hier (zunächst) drei t-Tests:

  1. Den \(t\)-Test für zwei unabhängige Stichproben (engl. two-sample \(t\)-test):
    • Dieser Test wird eingesetzt für den Vergleich der Mittelwerte zweier Populationen, wobei die Stichproben unabhängig voneinander sind.
    • Jede Versuchsperson liefert also einen Datenpunkt, d.h. nur für eine der zwei Bedingungen (ähnlich wie in Teil 11 behandelt).
  2. Den \(t\)-Test für eine Stichprobe (“Einstichproben-\(t\)-test”; engl. one-sample \(t\)-test):
    • Dieser Test testet Hypothesen darüber, ob sich ein Parameter \(\mu\) der Population, aus der eine Stichprobe stammt, von einem bestimmten festen Wert \(\mu_0\) unterscheidet.
  3. Den \(t\)-Test für zwei abhängige Stichproben (engl. paired-sample \(t\)-test):
    • Ähnlich wie bei zwei unabhängigen Stichproben, aber…
    • …jede Versuchsperson liefert zwei Datenpunkte (einen pro Bedingung).

12.1 Der t-Test für zwei unabhängige Stichproben

Bei diesem \(t\)-Test haben wir folgende Ausgangslage: Die Fragestellung lautet “Unterscheiden sich die Erwartungswerte zweier Populationen \(A\) und \(B\)”? Als Daten zur Beantwortung liegen uns Werte von zwei Stichproben aus den Population \(A\) und \(B\) vom Umfang \(n_A\) bzw. \(n_B\) vor.

Damit die folgenden mathematischen Ableitungen zur Bestimmung einer Prüfgröße ihre Richtigkeit haben, müssen einige Voraussetzungen gelten bzw. als gültig angenommen werden:

  • Beide Stichproben wurden zufällig und unabhängig voneinander gezogen.
  • Das gemessene Merkmal ist mindestens intervallskaliert.
  • Das gemessene Merkmal ist in der Population bzw. den Populationen normalverteilt.
  • Die Varianz beider Populationen ist identisch. Dies wird als “Varianzhomogenität” bezeichnet.

Diese Voraussetzungen sind nicht unbedingt überprüfbar, das Erfülltsein wird angenommen. Die Annahmen können aber theoretisch und empirisch auf Plausibilität geprüft werden.

Im Folgenden wollen wir nun die mathematischen Grundlagen und das Vorgehen beim t-Test für zwei unabhängige Stichproben anhand einer gerichteten Alternativhypothese betrachten. Später werden wir das Vorgehen auf eine ungerichtete Alternativhypothese und andere Arten des t-Tests erweitern.

12.1.1 Grundlagen bei gerichteter Alternativhypothese

Der Ausgangspunkt eines gerichteten Hypothesentests ist ein Hypothesenpaar der Art \[H_0:\mu_A\leq\mu_B \; \text{ und } \; H_1:\mu_A>\mu_B,\] bei der die Alternativhypothese eine “größer”- (oder “kleiner”-) Relation und die Nullhypothese entsprechend eine “kleiner-gleich”- (oder “größer-gleich”-) Relation beinhaltet. Um den Bezug zu unserer Teststatistik besser herzustellen, lohnt es sich zu beachten, dass die beiden Hypothesen auch geschrieben werden können als: \[H_0:\mu_A-\mu_B\leq0\; \text{ und } \;H_1:\mu_A-\mu_B>0\] Das heißt, unter der Nullhypothese ist die Differenz der Populationserwartungswerte kleiner/gleich \(0\) und unter der Alternativhypothese größer \(0\).

Liegen nun Werte von zwei Stichproben aus den Populationen \(A\) und \(B\) vor, bietet es sich an, die Differenz der Erwartungswerte \(\mu_A-\mu_B\) durch die Differenz der Mittelwerte \(D=M_A-M_B\) zu schätzen, da diese in der Tat ein erwartungstreuer Schätzer ist: \[E(\boldsymbol{M_A}-\boldsymbol{M_B})=E(\boldsymbol{M_A})-E(\boldsymbol{M_B})=\mu_A-\mu_B\] Auf lange Sicht werden die empirischen Mittelwertdifferenzen also der wahren Erwartungswertdifferenz im Mittel entsprechen.

Das Problem ist nun aber, dass die Verteilung der Mittelwertdifferenzen (aufgefasst als Zufallsvariable) \(\boldsymbol{D} = \boldsymbol{M_A}-\boldsymbol{M_B}\) nicht ganz klar ist, da die Verteilung noch von der Varianz der Ursprungsvariablen abhängt. Abhilfe schafft allerdings der t-Bruch.

Als den \(t\)-Bruch bezeichnen wir im Allgemeinen folgende Größe: \[t=\frac{T-\tau_0}{SE_T}\]

  • Dabei ist \(T\) ein Schätzer für einen Populationsparameter \(\tau\), …
  • \(\tau_0\) der Wert, auf den der Parameter unter der Nullhypothese getestet werden soll (in unserem Fall erstmal: \(\tau_0=0\)) und…
  • \(SE_T\) ist der geschätzte Standardfehler des Schätzers \(T\).

Im hier behandelten Zweistichprobenfall möchten wir nun testen, ob die Differenz der Erwartungswerte der Populationen, aus denen die Stichproben stammen, \(0\) ist. Passt man vor diesem Hintergrund den allgemeinen \(t\)-Bruch an den Fall des \(t\)-Tests für zwei Stichproben an, so erhalten wir: \[t=\frac{(M_A-M_B)-0}{SE_{M_A-M_B}}\] Im Zähler steht hierbei die Mittelwertdifferenz der beiden Stichproben, welche gegen die Erwartungswertdifferenz von \(0\) getestet wird (vgl. die Gleichheitsbeziehung in der \(H_0: \mu_A - \mu_B \leq 0\)). Im Nenner steht der geschätzte Standardfehler (also die geschätzte Standardabweichung) der Mittelwertdifferenz, den wir bisher noch nicht kennen. Im Folgenden bestimmen wir daher nun einen entsprechenden Schätzer.

Wegen der vorausgesetzten Unabhängigkeit der Stichproben gilt auf Populationsebene: \[\sigma^2_{\boldsymbol{M_A}-\boldsymbol{M_B}}=\sigma^2_{\boldsymbol{M_A}}+\sigma^2_{\boldsymbol{M_B}}-2\cdot\text{Kov}(\boldsymbol{M_A},\boldsymbol{M_B})=\sigma^2_{\boldsymbol{M_A}}+\sigma^2_{\boldsymbol{M_B}}\]

Die Varianz der Mittelwertdifferenz auf Populationsebene ist also die Summe der beiden Varianzen der Mittelwerte. Die Varianz der Mittelwerte wiederum kennen wir schon, nämlich \(\frac{\sigma_A^2}{n}\) bzw. \(\frac{\sigma_B^2}{n}\).

Unter der Annhame, dass die Varianz in beiden Populationen identisch ist, also \(\sigma^2_A=\sigma^2_B=\sigma^2\), folgt somit: \[\sigma^2_{\boldsymbol{M_A}-\boldsymbol{M_B}}=\sigma^2_{\boldsymbol{M_A}}+\sigma^2_{\boldsymbol{M_B}}=\frac{\sigma_A^2}{n_A}+\frac{\sigma_B^2}{n_B} = \frac{\sigma^2}{n_A}+\frac{\sigma^2}{n_B}=\sigma^2\left(\frac{1}{n_A} +\frac{1}{n_B} \right)\] Um also die Varianz der Mittelwertdifferenz (und damit auch die Standardabweichung bzw. den Standardfehler) auf Basis unserer Stichprobe zu schätzen, benötigen wir einen Schätzer für \(\sigma^2\): \[\hat \sigma^2_{M_A-M_B} = \hat \sigma^2\left(\frac{1}{n_A} +\frac{1}{n_B} \right)\]

Da wir davon ausgehen, dass die Varianzen der Populationen identisch sind, sind also beide Varianzen Schätzer für die gleiche Populationsvarianz. Es bietet sich daher an, diese gemeinsame Varianz durch ein gewichtetes Mittel der (korrigierten) Varianzen beider Stichproben zu schätzen: \[\hat{\sigma}^2=\frac{(n_A-1)\hat{S}^2_A+(n_B-1)\hat{S}^2_B}{n_A+n_B-2}\] Zusammengesetzt ergibt sich also als Schätzer der Varianz der Mittelwertdifferenz: \[\hat \sigma^2_{M_A-M_B} = \frac{(n_A-1)\hat{S}^2_A+(n_B-1)\hat{S}^2_B}{n_A+n_B-2}\cdot \left(\frac{1}{n_A} +\frac{1}{n_B} \right) \] und die Wurzel daraus ist der geschätzte Standardfehler (bzw. die Standardabweichung) der Mittelwertdifferenz:

\[SE_{M_A-M_B} = \sqrt{\hat \sigma^2_{M_A-M_B}} =\sqrt{\frac{(n_A-1)\hat{S}^2_A+(n_B-1)\hat{S}^2_B}{n_A+n_B-2}\cdot \left(\frac{1}{n_A} +\frac{1}{n_B} \right)} \]

Damit können wir nun final den t-Bruch für zwei unabhängige Stichproben schreiben als: \[t=\frac{M_A-M_B}{\sqrt{\frac{(n_A-1)\hat{S}^2_A+(n_B-1)\hat{S}^2_B}{n_A+n_B-2}}\cdot\sqrt{\frac{1}{n_A} +\frac{1}{n_B}}} = \frac{M_A-M_B}{\sqrt{\frac{n_A{S}^2_A+n_B{S}^2_B}{n_A+n_B-2}}\cdot\sqrt{\frac{1}{n_A} +\frac{1}{n_B}}}\] Sind beide Stichproben gleich groß, also wenn \(n_A=n_B=n\), dann vereinfacht sich der Bruch weiter zu: \[t=\frac{M_A-M_B}{\sqrt{\frac{\hat{S}^2_A+\hat{S}^2_B}{n}}}\]

Dieser nun hergeleitete \(t\)-Bruch besitzt zwei wichtige Eigenschaften, die ihn als Prüfgröße qualifizieren:

  1. Er wird umso größer, (a) je größer die Differenz \(M_A-M_B\) wird und (b) je kleiner ihr Standardfehler wird. Mit anderen Worten: Er wird umso größer, je unplausibler die Mittelwertdifferenz einer Studie unter der \(H_0\) ist (und somit die Daten der Studie umso mehr für die \(H_1\) sprechen).
  2. \(\boldsymbol{t}\) kann als Zufallsvariable aufgefasst werden, die jeder Paarung zweier Stichproben vom Umfang \(n_A\) und \(n_B\) den t-Bruch zuweist. Dann kann man zeigen, dass bei Annahme der \(H_0\) diese Zufallsvariable (zentral) t-verteilt mit \(n_A+n_B-2\) Freiheitsgraden ist. Man schreibt dann: \[\boldsymbol{t}\overset{H_0}{\sim} t_{n_A+n_B-2}\] In anderen Worten: Würden wir immer und immer wieder Stichproben vom Umfang \(n_A\) bzw. \(n_B\) aus Populationen mit \(\mu_A = \mu_B\) ziehen und den jeweiligen t-Wert pro Stichprobe berechnen, so würden diese t-Werte einer bestimmten Verteilung folgen: Der t-Verteilung mit \(n_A+n_B-2\) Freiheitsgraden.

Dies ist eine fundamentale Eigenschaft, denn sie gibt an, dass wir unter der \(H_0\) und unter der Gültigkeit unserer Voraussetzungen die Verteilung der Prüfgröße exakt kennen. Wir benötigen also keine Simulation mehr! Die \(t\)-Verteilung bildet damit die Grundlage unserer Entscheidungslogik.

12.1.2 Die (zentrale) t-Verteilung

Die zentrale \(t\)-Verteilung wird im Folgenden die Grundlage aller Signifikanztests bilden. Sie ist eine Dichtefunktion einer stetigen Zufallsvariable und besitzt einen Parameter, welcher Freiheitsgrade (engl. , degrees of freedom, df) genannt wird. Sie ist glockenförmig und symmetrisch um \(0\) verteilt und sieht optisch der (Standard-)Normalverteilung sehr ähnlich. Die folgende Abbildung stellt einige Beispiele für zentrale \(t\)-Verteilungen mit \(m\)-vielen Freiheitsgraden dar:

Merkmale von t-Verteilungen mit m Freiheitsgraden sind:

  • Ist eine Zufallsvariable \(\boldsymbol{t}\) t-verteilt mit m Freiheitsgraden, also \(\boldsymbol{t}\sim t_m\), dann sind ihr Erwartungswert und Varianz: \[E(\boldsymbol{t})=0\hspace{0.5cm}\; \text{ und } \;\hspace{0.5cm}\sigma^2_{\boldsymbol{t}}=\frac{m}{m-2}\text{ für }m>2\]
  • Je höher \(m\), desto schmaler wird die Verteilung.
  • Wenn \(m\rightarrow\infty\) (bzw. bei sehr großen Freiheitsgraden) geht die t-Verteilung in die Standardnormalverteilung über. Das heißt auch: bei eher kleineren Freiheitsgraden (und damit Stichproben) weicht die t-Verteilung mehr von der Standardnormalverteilung ab.

Anmerkung: Warum heißt es eigentlich “zentrale” t-Verteilung? Wir werden später noch eine “nonzentrale” t-Verteilung kennenlernen (siehe Teil 14) und eigentlich hat die t-Verteilung zwei Parameter: (1) die Freiheitsgrade und (2) den Nonzentralitätsparameter. Letzterer ist bei der zentralen t-Verteilung aber \(0\) (weshalb die Verteilung um \(0\) zentriert ist).

Eine weitere naheliegende Frage ist nun, warum der t-Bruch eigentlich \(t\)-verteilt ist. Die formale Begründung können wir hier leider nicht liefern, da sie fortgeschrittene Konzepte verlangt, die wir nicht behandeln können. Wir können uns allerdings zumindest eine “oberflächlichere” Begründung ansehen.

Formal lässt sich eine t-Verteilung mit \(m\) Freiheitsgraden definieren als: \[\boldsymbol{t}\equiv \frac{\boldsymbol{Z}}{\sqrt{\frac{\boldsymbol{C}}{m}}}\] wobei \(\boldsymbol{Z}\sim N(0,1)\), also standardnormal-verteilt, und \(\boldsymbol{C}\sim\chi^2_m\), also \(\chi^2\)-verteilt mit \(m\) Freiheitsgraden, seien.

Der t-Bruch war definiert als: \[t=\frac{M_A-M_B}{\sqrt{\frac{(n_A-1)\hat{S}^2_A+(n_B-1)\hat{S}^2_B}{n_A+n_B-2}}\cdot\sqrt{\frac{1}{n_A} +\frac{1}{n_B}}}\]

Da wir davon ausgehen, dass das betrachtete Merkmal in der Population normalverteilt ist, steht im Zähler also etwas normalverteiltes. Im Nenner steht eine Varianzschätzung, welche ihrerseits \(\chi^2\)-verteilt ist. Wir teilen also in gewisser Weise eine normalverteilte Zufallsvariable durch die Wurzel einer \(\chi^2\)-Verteilung (die an ihren Freiheitsgraden relativiert wurde). Das Ergebnis ist dann am Ende \(t\)-verteilt.

12.1.3 Entscheidungen mit kritischen t-Werten

Wir wissen also nun, dass die Prüfgröße t (zentral) t-verteilt ist, wenn die Nullhypothese in der Population gilt.

Erinnern Sie sich nun an die Simulation aus Teil 11. Hier haben wir aus einer gedachten Population sehr viele Stichproben gezogen und die relative Häufigkeit der “empirischen” Differenzwerte betrachtet:

\(D_\text{krit}=3.0\) war der Wert, rechts von dem noch 5% der Mittelwertdifferenzen liegen. Erhalten wir \(D\geq D_\text{krit}\) zweifeln wir an der Annahme der \(H_0\) und entscheiden uns stattdessen für die \(H_1\). Zur Erinnerung: Die ausformulierte Entscheidungsregel lautete:

“Wenn \(D\geq D_\text{krit}\) ist, dann tritt der \(D\)-Wert (bzw. ein noch größerer) so selten auf, wenn die \(H_0\) gelten würde, dass wir an dieser Annahme Zweifel haben. Wir entscheiden uns daher für die \(H_1\).”

Die gleiche Idee wenden wir nun auf eine t-Verteilung an: Wir suchen einen Wert \(t_\text{krit}\), rechts von dem noch 5% der Fläche unter der Dichtefunktion liegen:

In anderen Worten: Wir suchen einen Wert \(t_\text{krit}\), sodass das Integral von \(t_\text{krit}\) bis unendlich \(0.05\) ergibt: \[\int_{t_\text{krit}}^{+\infty}f(x)dx=0.05 \text{, wobei }f(x)\small{\text{ die Dichtefunktion der }t\text{-Verteilung ist}}\] Dieser Wert ist das \((1-\alpha)\cdot100\%\)-Quantil der t-Verteilung mit \(m\) Freiheitsgraden (vgl. auch die Berechnung der Quantile bei der Normalverteilung in Teil 9): \[t_\text{krit}=t_{m;1-\alpha}\] In der oberen Abbildung berechnet sich dieses Quantil als \(t_\text{krit} = 1.72\). Dies bedeutet nun, ganz analog zu den Überlegungen aus Teil 11:

  • Wenn die \(H_0\) gilt, d.h., wenn es in Wahrheit keinen Unterschied im Erwartungswert beider Populationen gibt, dann tritt \(t\geq t_\text{krit}\) nur mit einer Wahrscheinlichkeit von \(\alpha=0.05\), also in 5% aller Fälle, auf.
  • In diesem Fall wäre der t-Wert der einen Studie hinreichend unwahrscheinlich unter der \(H_0\), dass wir an der Annahme der \(H_0\) zweifeln…
  • …und uns uns stattdessen entscheiden, an die \(H_1\) zu glauben.
  • Man sagt dann, der t-Test war (statistisch) signifikant.

Damit lautet die Entscheidungsregel für den t-Test:

“Wenn \(t\geq t_\text{krit}\) ist, dann tritt der t-Wert (bzw. ein noch größerer) so selten auf, wenn die \(H_0\) gelten würde, dass wir an dieser Annahme Zweifel haben. Wir entscheiden uns daher für die \(H_1\).”

Zur Berechnung des kritischen t-Wertes benötigen wir die Verteilungsfunktion. Genauer gesagt suchen wir den Wert \(t\), für den die Verteilungsfunktion den Wert \(F(t) = 0.95\) annimmt, sodass ein Anteil von \(0.05\) (bzw. \(5\%\)) der t-Werte “rechts” vom kritischen t-Wert liegen und ein Anteil von \(0.95\) (oder \(95\%\)) “links” liegt. Ähnlich wie bei der Normalverteilung ist die Verteilungsfunktion einer t-Verteilung aber leider sehr unhandlich. Zur praktischen Berechnung des gesuchten kritischen \(t\)-Wertes können zum einen Tabellen mit einer vorgefertigten Auflistung von Quantilen helfen (z.B. von der entsprechenden Wikipedia-Seite):

Alternativ benutzt man R und die entsprechende Funktion qt():

qt(p = 0.95,  # welches Quantil?
   df = 20)   # Freiheitsgrade der t-Verteilung
## [1] 1.724718

Nun können wir an einem praktischen Beispiel die Durchführung eines t-Tests einmal durchgehen. Ein Forscher bzw. eine Forscherin hat die Frage, ob Werte in einem Konzentrationstest (\(0-10\)) höher nach einer Tasse Kaffee (\(A\)) als nach drei Tassen Kaffee (\(B\)) sind. Die Hypothese lautet, dass dies der Fall sei. Die Populationen \(A\) bzw. \(B\) sind somit alle denkbaren Personen, die eine bzw. drei Tassen Kaffee getrunken und im Anschluss den Konzentrationstest durchgeführt haben.

Unsere Nullhypothese beinhaltet die Möglichkeit, dass Population \(A\) die gleiche (oder eine schlechtere) Konzentrationsleistung besitzt als die Population \(B\). Die Alternativhypothese bildet das erwartete Ergebnis ab, dass die Population \(A\) eine höhere Konzentrationsleistung besitzt als Population \(B\): \[H_0:\mu_A\leq\mu_B\quad\; \text{ und } \;\quad H_1:\mu_A>\mu_B \quad \] Zur Beantwortung der Frage hat der Forscher bzw. die Forscherin nun je acht (freiwillige) Personen entweder eine oder drei Tassen Kaffee trinken und anschließend einen Konzentrationstest ausfüllen lassen.

Die folgende Tabelle stellt die dabei erhobenen Daten dar (mit \(n_A=n_B=n=8\)):

Da die Anzahl der Personen in beiden Stichproben gleich ist, können wir den t-Bruch für den Fall unabhängiger Stichproben in vereinfachter Form berechnen (vgl. Formel von oben): \[t=\frac{M_A-M_B}{\sqrt{\frac{\hat{S}^2_A+\hat{S}^2_B}{n}}}\] Eine Umsetzung der Formel “per Hand” in R ist leicht gemacht:

A <- c(7,8,6,7,9,10,6,9)             # Werte von Stichprobe A
B <- c(4,5,6,3,4,5,6,10)             # Werte von Stichprobe B
n <- 8                               # Stichprobengröße (pro Gruppe)
zaehler <- mean(A) - mean(B)         
nenner <- sqrt((var(A)+var(B)) / n)
t <- zaehler / nenner                # t-Bruch
t
## [1] 2.582159

Der t-Wert lautet also \(2.58\), bringt uns allerdings alleine noch keine Entscheidung bezüglich der Hypothesen. Für eine Entscheidung müssen wir zusätzlich die Verteilung der t-Werte unter der \(H_0\) berücksichtigen und uns Fragen, ob der gefundene t-Wert von \(2.58\) (oder noch extremer Werte) hinreichend unplausibel ist. Unter der Nullhypothese sind wir davon ausgegangen, dass die Population \(A\) einen gleich großen (oder einen kleineren) Erwartungswert besitzt wie die Population \(B\). Wäre diese Hypothese korrekt, so würden wir erwarten, dass die empirische Mittelwertdifferenz \(M_A - M_B\), und damit der t-Bruch, entweder relativ klein oder negativ ausfällt. Im Umkehrschluss gilt also, dass große t-Werte gegen unsere Nullhypothese bzw. für unsere Alternativhypothese sprechen!

Doch ab wann gilt ein t-Wert als “hinreichend” groß? Bei einem einseitigen Test mit Signifikanzniveau von \(\alpha = 0.05\), berechnen wir nun den kritischen t-Wert, also das 95%-Quantil (\(= (1-\alpha)\cdot 100\%\)) der t-Verteilung mit \(n_A + n_B - 2 = 14\) Freiheitsgraden:

qt(p = 0.95, # 95% Quantil
   df = 14)  # df = Freiheitsgrade = nA + nB - 2 = 14
## [1] 1.76131

Bevor Sie weiterlesen, denken Sie nun kurz nach, was dieser Wert bedeutet und wie Sie sich vor diesem Hintergrund entscheiden? Fällt die Entscheidung für die \(H_0\) oder für die \(H_1\) aus?

Antwort: Der kritische t-Wert \(t_{14; \;0.95} = 1.76\) bedeutet, dass wenn die Nullyhpothese gilt und die eingangs gemachten Voraussetzungen gelten, wir in (mindestens) 95% der Fälle einen t-Wert von \(1.76\) oder kleiner finden. Oder andersherum: Wir werden nur in maximal 5% der Fälle einen t-Wert größer als \(1.76\) finden. Hieraus können wir folgern, dass ein empirischer t-Wert von \(2.58\) unter Gültigkeit der Nullhypothese so selten auftritt, dass wir an der Plausibilität der Nullhypothese zweifeln und somit von der Gültigkeit der Alternativhypothese ausgehen. Wir gehen also davon aus, dass die Konzentrationsleistung nach einer Tasse Kaffee höher als nach drei Tassen Kaffee ist.

12.1.4 Entscheidungen mit p-Werten

In Teil 11 hatten wir auch schon eine “alternative” Entscheidungsregel kennengelernt: die Berechung eines p-Wertes. In allen Fällen werden beide Entscheidungsregeln aber zur gleichen Entscheidung führen. In Teil 11 hatten wir den empirischen Wert einer einfachen Mittelwertdifferenz betrachtet (hier \(D=3.5\)) und diesen Wert vor dem Hintergrund aller denkbaren \(D\)-Werte unter der \(H_0\) betrachtet:

Der p-Wert war dabei die “Wahrscheinlichkeit”, einen Wert von \(D = 3.5\) oder größer zu finden, wenn in Wahrheit die \(H_0\) gilt. In der Simulation kamen Werte von \(D\geq 3.5\) nur mit einer Wahrscheinlichkeit von etwa \(p=0.0192\) vor. Die Entscheidungsregel lautete:

“Wenn \(p\leq\alpha\) ist, dann tritt der \(D\)-Wert bzw. ein noch größerer \(D\)-Wert so selten auf, wenn die \(H_0\) gelten würde, dass wir an dieser Annahme Zweifel haben. Wir entscheiden uns daher für die \(H_1\).”

Da hier \(p = 0.0192\) also kleiner ist als unser (typisches) \(\alpha\)-Niveau von \(\alpha = 0.05\), haben wir hinreichend Zweifel an der Nullhypothese und entscheiden uns für die Alternativhypothese.

Nun wenden wir die gleiche Logik auf die Familie der t-Tests an. Der berechnete empirische t-Wert aus dem Beispiel des letzten Abschnittes war \(t=2.582\). Der p-Wert ist nun die Wahrscheinlichkeit, einen solchen t-Wert oder noch extremer (da solche t-Werte umso mehr gegen die \(H_0\) sprechen) unter der Nullhypothese zu erhalten. Mathematisch entspricht dies der Fläche unter der (zentralen) t-Verteilung von \(2.582\) bis unendlich, die in der folgenden Abbildung in rot eingezeichnet ist:

In einer Formel ausgedrückt entspricht der p-Wert dem Integral von \(2.582\) bis \(+\infty\) der t-Verteilung,

\[p=\int^{+\infty}_{2.582}f(x)dx \quad \] wobei \(f(x)\) die Dichtefunktion der t-Verteilung mit \(n_A-n_B-2\) Freiheitsgraden ist.

Bedenkt man nun, dass (a) das Integral von \(-\infty\) bis \(2.582\) dem Wert auf der Verteilungsfunktion \(F(x)\) zu \(x = 2.582\) entspricht, und dass (b) das Integral von \(-\infty\) bis \(+\infty\) genau \(1\) ergeben muss, so können wir den p-Wert hier auch ausdrücken als:

\[p=\int^{+\infty}_{2.582}f(x)dx = \int^{+\infty}_{-\infty}f(x)dx - \int^{2.582}_{-\infty}f(x)dx = 1 - F(2.582)\] Auch wenn dies intuitiv etwas umständlich erscheint, hat diese Ausdrucksweise den Vorteil, dass wir nicht selbst ein Integral rechnen müssen. Stattdessen können wir auf die in R implementierte Verteilungsfunktion der t-Verteilung pt() zurückgreifen:

# pt = Verteilungsfunktion der t-Verteilung
pt(q = 2.582,      # berechnet die Fläche bis zu 2.582...
   df = 14)        # ...unter der t-Verteilung mit 14 Freiheitsgraden (= F(2.582))
## [1] 0.9891376
1 - pt(q = 2.582,  # berechnet die Fläche ab 2.582...
       df = 14)    # unter der t-Verteilung mit 14 Freiheitsgraden, also p
## [1] 0.01086239

Tatsächlich verfügen die Verteilungsfunktionen von R mit dem Parameter lower.tail = FALSE auch über eine Möglichkeit, direkt die Fläche ab dem fraglichen Wert zu berechnen:

pt(q = 2.582,           # berechnet die Fläche ab 2.582...
   df = 14,             # unter der t-Verteilung mit 14 Freiheitsgraden, also p, ...
   lower.tail = FALSE)  # ...wenn lower.tail = FALSE gesetzt wird
## [1] 0.01086239

Wir haben somit berechnet, dass \(t\geq 2.582\) nur mit einer Wahrscheinlichkeit von etwa \(p\approx0.011\) vorkommt. Unsere (angepasste) Entscheidungsregel für den t-Test lautet somit:

“Wenn \(p\leq\alpha\) ist, dann tritt der t-Wert bzw. ein noch größerer t-Wert so selten auf, wenn die \(H_0\) gelten würde, dass wir an dieser Annahme Zweifel haben. Wir entscheiden uns daher für die \(H_1\).”

Da hier der p-Wert von \(\approx0.011\) kleiner ist als unser (typisches) \(\alpha=0.05\), verwerfen wir die \(H_0\) und entscheiden uns stattdessen für die \(H_1\).

Wichtige Anmerkungen:

  1. Sowohl die Entscheidung auf Basis von p-Werten als auch die Entscheidung auf Basis von kritischen Werten wird immer zur gleichen Entscheidung führen, da beide auf dem gleichen \(\alpha\)-Niveau basieren (siehe hierzu auch hier für eine interaktive Visualisierung).
    • Beim kritischen Wert vergleichen wir die empirisch-gefundene Prüfgröße mit demjenigen kritischen Wert, welcher uns unter Berücksichtigung von \(\alpha\) angibt, ab welcher Prüfgröße (und damit noch extremeren Prüfgrößen) unsere Annahme der Nullhypothese unplausibel wird.
    • Beim p-Wert bestimmen wir die Wahrscheinlichkeit der Prüfgröße oder noch extremerer Prüfgrößen direkt. Ist dieser p-Wert im Vergleich mit \(\alpha\) hinreichend klein, so zweifeln wir an der Gültigkeit der Nullhypothese.
  2. Bei einer Entscheidung zugunsten der \(H_1\), redet man auch von einem signifikanten Ergebnis.
  3. Es ist wichtig, sich bewusst zu machen, dass der p-Wert unter genauerer Betrachtung eine bedingte Wahrscheinlichkeit ist (was bei der Interpretation in der Praxis gerne mal zum Stolperstein wird). Da der p-Wert bestimmt wird unter der Annahme der Gültigkeit der \(H_0\), ist er also eine bedingte Wahrscheinlichkeit über Daten, gegeben die \(H_0\) gilt: \[p=P(\text{Daten}|H_0)\] Der p-Wert sagt daher niemals etwas über die Wahrscheinlichkeit der Nullhypothese (oder gar der Alternativhypothese) aus, und auch nicht über die Wahrscheinlichkeit der Nullhypothese, gegeben die Daten. Im Gegenteil: Die Gültigkeit der Nullhypothese wird als Ausgangspunkt aller Überlegungen angenommen.
  4. Der p-Wert wird auf Basis des empirischen t-Wertes und unter Berücksichtigung der t-Verteilung bestimmt. Die t-Verteilung wiederum gibt die Verteilung aller denkbaren t-Werte an, ist also indirekt auf der Menge aller denkbaren Stichproben definiert. Daher muss die korrekte Interpretation des p-Wertes zwangsläufig auch eine frequentistische sein: Würde man unendlich oft eine Stichprobe (unter stets gleichen Bedingungen) ziehen, und entsprechend unendlich oft einen t-Wert berechnen, so erhält man einen t-Wert größer/gleich des (dem p-Wert zugrunde liegenden) empirischen t-Wertes mit einer relativen Häufigkeit von \(p\) (d.h. in \(p\cdot 100\%\) aller Fälle).

12.1.5 Entscheidungslogik bei ungerichteten Alternativhypothesen

Bisher sind wir immer davon ausgegangen, eine gerichtete Alternativhypothese formulieren zu können: \[H_0:\mu_A\leq\mu_B\; \text{ und } \;H_1:\mu_A>\mu_B\] Wenn es hierfür theoretische Gründe gibt, ist es sinnvoll eine solche “spezifischere” Hypothese zu formulieren. Berechnet man den t-Bruch mit \(M_A - M_B\) im Zähler, so sprechen besonders große positive Werte für die Alternativhypothese bzw. gegen die Nullhypothese. Wir haben daher den kritischen t-Wert so bestimmt, dass dieser \(\alpha\cdot 100\%\) der \(t\)-Verteilung am “rechten Ende abschneidet”. In anderen Worten: Der kritische t-Wert gab an, ab wann große positive t-Werte hinreichend selten auftreten (nämlich i.d.R. in maximal \(\alpha\cdot 100\%\) der Fälle).

Oft aber werden ungerichtete Alternativhypothesen formuliert, d.h. es wird “irgendein” Unterschied angenommen: \[H_0:\mu_A=\mu_B\; \text{ und } \;H_1:\mu_A\neq\mu_B\] In diesem Fall sprechen gegen die Nullhypothese nicht nur besonders große positive Werte, sondern auch besonders große negative Werte. Die Entscheidungslogik bei einem ungerichteten Hypothesentest ist dabei aber sehr ähnlich zu der im Falle einer gerichteten Hypothese. Allerdings müssen nun “beide Seiten” der t-Verteilung als Grundlage der Entscheidung herangezogen werden, da ja sowohl sehr große positive, als auch sehr große negative Werte, gegen die Nullhypothese sprechen.

Dies bedeutet nun konkret, dass bei \(\alpha=0.05\) die Gesamtfläche an beiden Enden der Verteilung zusammen \(5\%\) ergeben muss. Das heißt auch, dass es zwei kritische t-Werte gibt, die jeweils \(2.5\%\) der Fläche abschneiden. Dies ist hier im Beispiel einer \(t\)-Verteilung mit 20 Freiheitsgraden visualisiert:

Die beiden kritischen Werte geben zwei Grenzen an, ab denen t-Werte unter der \(H_0\) nur noch selten auftreten (hier in rot gekennzeichnet) und damit ab wann t-Werte gegen die \(H_0: \mu_A = \mu_B\) sprechen.

Die beiden kritischen Werte sind also 2 Quantile, das\(\frac{\alpha}{2}\)-Quantil und das \(1-\frac{\alpha}{2}\)-Quantil der t-Verteilung mit \(m\) Freiheitsgraden: \[-t_\text{krit}=t_{m;\frac{\alpha}{2}}\hspace{0.5cm}\text{und}\hspace{0.5cm}t_\text{krit}=t_{m;1-\frac{\alpha}{2}}\] Bei \(\alpha = 0.05\), entsprechen diese beiden Quantile also dem \(2.5\%\) bzw. \(97.5\%\) Quantil. Darauf basierend können wir nun eine Entscheidungsregel formulieren als:

“Wenn \(t\leq -t_\text{krit}\) oder \(t\geq t_\text{krit}\) ist, dann tritt der t-Wert (bzw. ein noch größerer) so selten auf, wenn die \(H_0\) gelten würde, dass wir an deren Gültigkeit Zweifel haben. Wir entscheiden uns daher für die \(H_1\).”

Diese Regel kann aufgrund der Symmetrie der t-Verteilung sogar etwas vereinfacht werden. Denn tatsächlich sind \(-t_\text{krit}\) und \(t_\text{krit}\) betragsmäßig identisch. Der Wert, der links \((\frac{\alpha}{2})\cdot 100\%\) der Fläche abschneidet, ist betragsmäßig identisch zu dem Wert, der rechts \((1-\frac{\alpha}{2})\cdot 100\%\) der Fläche abschneidet (vgl. hierzu die letzte Abbildung). Die verkürzte Regel lautet daher:

“Wenn \(|t|\geq |t_\text{krit}|\), dann tritt der t-Wert (bzw. ein noch größerer) so selten auf, wenn die \(H_0\) gelten würde, dass wir an dieser Annahme Zweifel haben. Wir entscheiden uns daher für die \(H_1\).”

Der p-Wert berechnet sich i.W. identisch zum Fall einer gerichteten Alternativhypothese, nur dass beide Seiten der t-Verteilung berücksichtigt werden müssen. Das heißt, wir müssen die Fläche links von \(-|t|\) und rechts von \(|t|\) einbeziehen: \[p=\int_{-\infty}^{-|t|}f(x)dx + \int_{|t|}^{+\infty}f(x)dx\] Liegt also bspw. ein t-Wert von \(t=2.582\) vor, so errechnet sich der p-Wert als die Fläche von \(2.582\) bis \(\infty\) plus die Fläche von \(-\infty\) bis \(-2.582\):

# pt = Verteilungsfunktion der t-Verteilung
p_1 <- pt(q = -2.582,        # Fläche von minus unendlich bis -2.582
          df = 14)     
p_2 <- 1 - pt(q = 2.582,     # Fläche von 2.582 bis unendlich 
              df = 14) 
p <- p_1 + p_2
p
## [1] 0.02172477

Aufgrund der Symmetrie der t-Verteilung sind beide Flächenanteile p1 und p2 allerdings gleich groß und die Berechnung mit R kann etwas vereinfacht werden:

2*(1 - pt(q = 2.582,          # 2 mal von 2.582 bis unendlich
          df = 14))   
## [1] 0.02172477
2*(pt(q = -2.582,             # oder 2 mal von minus unendlich bis -2.582 
      df = 14))   
## [1] 0.02172477

Anmerkung: Hieraus folgt auch, dass der p-Wert eines einseitigen t-Tests halb so groß ist wie der p-Wert eines zweiseitigen t-Tests zum gleichen t-Wert (insofern der t-Wert im Vorzeichen nicht sowieso schon gegen die gerichtete \(H_1\) spricht). Vergleichen Sie hierfür einmal den p-Wert des zweiseitigen und des einseitigen Tests zum oberen Beispiel mit einem t-Wert von \(t = 2.582\):

2*(1 - pt(q = 2.582,        # zweiseitig
          df = 14))
## [1] 0.02172477
1 - pt(q = 2.582,           # einseitig 
       df = 14) 
## [1] 0.01086239

12.1.6 Voraussetzungen und der Welch-Test

Zu Beginn dieses Abschnitts haben wir folgende Voraussetzungen gemacht:

  • Beide Stichproben sind zufällig und unabhängig voneinander gezogen.
  • Das gemessene Merkmal ist mindestens intervallskaliert.
  • Das gemessene Merkmal ist in der Population normalverteilt.
  • Die Varianz beider Populationen ist identisch, es liegt also Varianzhomogenität vor.

Diese Voraussetzungen haben wir vor allem zur Begründung des t-Bruches und dessen Verteilung benötigt. Was passiert allerdings, wenn diese Voraussetzungen verletzt sind? Das heißt, was passiert wenn die untersuchten Stichproben bzw. Populationen in Wahrheit nicht diese Voraussetzungen erfüllen? Dann haben wir schlichtweg das Problem, dass die Verteilung nicht mehr exakt einer t-Verteilung entspricht. Die empirischen t-Werte mögen zwar einer bestimmten Verteilung folgen auf lange Sicht, aber wir kennen diese Verteilung nicht mehr. Ignorieren wir diese Verletzungen und basieren wir dennoch unsere Entscheidung auf der theoretischen t-Verteilung (welche in Wahrheit aber dann nicht stimmt), so stimmen das vorgegebene und das reale \(\alpha\)-Niveau nicht mehr überein. Es kann also sein, dass wir in mehr oder auch in weniger Fällen die \(H_0\) verwerfen, als wir es eigentlich mit dem festgelegten \(\alpha\) wollen.

Verwerfen wir die \(H_0\) in weniger als \(\alpha\cdot 100\%\) der Fälle, so sagt man, der Test sei konservativ (man entscheide sich ja dann nur noch sehr selten gegen die \(H_0\)). Verwerfen wir die \(H_0\) aber in mehr als \(\alpha\cdot 100\%\) der Fälle, so sagt man, der Test sei liberal (man entscheidet sich dann ja sehr häufig gegen die \(H_0\)). Gerade ein liberaler Test wird häufig als ungünstig angesehen, denn er führt häufiger zu einem signifikanten Ergebnis, als er es dürfte; das heißt, wir treffen mehr Fehlentscheidungen als eigentlich gedacht, wenn in Wahrheit die \(H_0\) gilt.

In der Realität wissen wir natürlich nie, ob die Voraussetzungen erfüllt sind oder nicht, und ob unser Test ggf. zu liberal oder zu konservativ ist. Man kann und sollte aber dennoch versuchen, die Annahmen auf Plausibilität zu überprüfen bzw. versuchen sicherzustellen, dass diese gegeben sind. Glücklicherweise sind leichte Verletzungen der Annahmen allerdings häufig vertretbar:

  1. Beide Stichproben sind zufällig und unabhängig voneinander gezogen: Diese Annahme muss über ein entsprechendes Untersuchungsdesign und gute Stichprobenziehung gewährleistet werden.
  2. Das gemessene Merkmal ist mindestens intervallskaliert: Dies Annahme wird in der Regel unterstellt und ist mitunter schwierig zu überprüfen. Klar ist aber auch, dass es manche Variablen gibt, bei denen es offensichtlich ist, dass diese nicht intervallskaliert sein können. So sind beispielsweise Schulnoten sicherlich nicht intervall-, sondern ordinalskaliert. In solchen Fällen muss man auf sogenannte non-parametrische Verfahren (vgl. Teil 15) zurückgreifen. So können beispielsweise ordinalskalierte Daten zweier unabhängiger Stichproben mit Hilfe des Mann-Whitney-U-Tests ausgewertet werden.
  3. Das gemessene Merkmal ist in der Population normalverteilt: Diese Annahme ist aufgrund des zentralen Grenzwertesatzes (vgl. Teil 9) relativ robust gegenüber Verletzungen. Bei Stichprobengrößen von etwa \(n\geq 30\) sogar fast unproblematisch, da sich die Verteilungen der Stichprobenmittelwerte einer Normalverteilung dann in der Regel stark genug angenähert haben.
  4. Die Varianz beider Populationen ist identisch, das heißt, es liegt Varianzhomogenität vor: Eine leichte bis moderate Verletzung ist häufig weniger problematisch. Bei einer starken Verletzung kann der sogenannte Welch-Test verwendet werden, den wir gleich einführen werden.

Eine Shiny-App, mit deren Hilfe die Auswirkungen einer Verletzung der Varianzhomogenität selber erforscht werden können, findet sich hier.

Wenn die Voraussetzung der Varianzhomogenität verletzt ist, so kann eine Abwandlung des klassischen t-Tests verwendet werden, der sogenannte Welch-Test. Im Falle einer verletzten Varianzhomogenität ist eine gemeinsame Varianzschätzung nicht mehr sinnvoll, sodass der Nenner des klassischen t-Tests leicht umformuliert werden muss: \[t=\frac{M_A-M_B}{\sqrt{\frac{\hat{S}^2_A}{n_A}+\frac{\hat{S}^2_B}{n_B}}}\] Auch müssen angepasste Freiheitsgrade verwendet werden, die sich nach folgender Formel berechnen (manchmal abgerundet auf die nächstkleinere Zahl): \[df_\text{corrected}=\frac{1}{\frac{c^2}{n_A-1}+\frac{(1-c)^2}{n_B-1}}\quad\text{ mit }\quad c=\frac{\frac{\hat{S}^2_A}{n_A}}{\frac{\hat{S}^2_A}{n_A}+\frac{\hat{S}^2_B}{n_B}}\]

Die Entscheidungsregeln gelten allerdings analog und basieren weiterhin auf der t-Verteilung (nur eben mit den nach unten korrigierten Freiheitsgraden).

Ob Varianzhomogenität gegeben ist oder nicht, kann man natürlich nie mit absoluter Sicherheit wissen. Man kann sich aber durchaus die empirischen Varianzen anschauen. Wenn sich diese deutlich unterscheiden, gibt es auch einen Signifikanztest, der zwei Varianzen auf (Un-)Gleichheit überprüft, den Levene-Test. Das Hypothesenpaar des Levene-Tests lautet: \[H_0:\sigma^2_A=\sigma^2_B\hspace{0.5cm}\; \text{ und } \;\hspace{0.5cm}H_1:\sigma^2_A\neq\sigma^2_B\] Das heißt, wenn dieser Test signifikant wird (“\(p\leq\alpha\)”) und die Entscheidung für die \(H_1\) ausfällt, dann gehen wir von Varianzheterogenität aus und verwenden entsprechend den Welch-Test. Die praktische Berechnung mit R erfolgt mit der Funktion leveneTest() aus dem Paket car, wie wir im folgenden Beispiel zeigen werden.

12.1.7 Abschließendes Schritt-für-Schritt Beispiel

Einer Theorie zufolge soll eine bestimmte Förderung die Aufmerksamkeit von Kindern erhöhen, im Vergleich zu Kindern ohne diese Förderung.

Es gibt also zwei Populationen:

  1. (gedachte) Population \(A\): alle Kinder mit Förderung
  2. (gedachte) Population \(B\): alle Kinder ohne diese Förderung

Da wir davon ausgehen, dass die Population \(A\) einen höheren Erwartungswert hat als die Population \(B\), lautet das gerichtete Hypothesenpaar: \[H_0: \mu_A \leq \mu_B\hspace{0.5cm}\; \text{ und } \;\hspace{0.5cm}H_1: \mu_A>\mu_B\] Wir setzen \(\alpha=0.05\) als Signifikanzniveau fest.

In einer konkreten Studie würde man nun eine Stichprobe von Kindern ziehen und ihnen die Förderung zuteil werden lassen (Gruppe \(A\)). Zum Vergleich wird eine (möglichst ähnliche) Stichprobe von Kindern gezogen, die die Förderung nicht erhält (Gruppe \(B\)). Jedes Kind erzielt dabei einen Wert in einem Konzentrationstest (der fiktiv zwischen \(0\) und \(200\) liegen kann):

Die Daten können wir in Form eines DataFrames namens daten in R manuell erstellen:

A <- c(110,128,98,112,113,106,106,138,115,116)      # Werte Gruppe A
B <- c(104,88,105,96,95,115,98,113,98,113)          # Werte Gruppe B
konzentrationswert <- c(A,B)                        # zusammenfassen zu einem Vektor
vp <- c(1:20)                                       # Vektor mit Versuchsperson-ID
gruppe <- rep(c("A","B"), each = 10)                # Vektor für Gruppenzugehörigkeit
daten <- data.frame(vp, gruppe, konzentrationswert) # zusammenfassen zu DataFrame daten
head(daten)
tail(daten)

Wir gehen nun von Normalverteilung in der Population und Intervallskalenniveau des gemessenen Merkmals aus, wollen aber mit Hilfe des Levene-Tests testen, ob Varianzhomogenität vorliegt. Hierfür laden wir zuerst das Paket car und wandeln die Gruppierungsvariable gruppe in einen Faktor um. Anschließend rufen wir die Funktion leveneTest() auf, wobei wir das Argument center = "mean" setzen:

library(car)                             # leveneTest ist Teil des package 'car'
## Lade nötiges Paket: carData
daten$gruppe <- as.factor(daten$gruppe)  # streng genommen ist dies ein sog. Faktor
leveneTest(y = daten$konzentrationswert, # abhängige Variable 
           group = daten$gruppe,         # unabhängige Variable
           center = "mean")              # "mean" für Original-Levene-Test 

Ein alternativer Aufruf der Funktion in Modellschreibweise würde lauten:

leveneTest(konzentrationswert ~ gruppe,
           data = daten, 
           center = "mean")

Relevant ist hier der p-Wert des Tests, Pr(>F)=0.8494. Da das Hypothesenpaar des Levene-Tests \[H_0:\sigma^2_A=\sigma^2_B\hspace{0.5cm}\; \text{ und } \;\hspace{0.5cm}H_1:\sigma^2_A\neq\sigma^2_B\] lautet, gehen wir weiterhin von \(H_0\) aus; wir nehmen also Varianzhomogenität an und berechnen den standardmäßigen t-Test (also keinen Welch-Test). Zunächst berechnen wir den t-Wert zur Demonstration quasi von Hand. Beide Stichproben sind mit \(n=n_A=n_B=10\) gleich groß, sodass wir die einfachere Formel für \(t\) verwenden können:

n <- 10
zaehler <- mean(daten$konzentrationswert[daten$gruppe == "A"]) - # der Zähler ist die Differenz...
           mean(daten$konzentrationswert[daten$gruppe == "B"])   # ...beider Mittelwerte
varA <- var(daten$konzentrationswert[daten$gruppe == "A"])       # var() = korrigierte Varianz!
varB <- var(daten$konzentrationswert[daten$gruppe == "B"])       # var() = korrigierte Varianz!
nenner <- sqrt((varA + varB)/n)                                  # dann den Nenner berechnen...
t <- zaehler / nenner                                            # ...und daraus dann den t-Bruch
t
## [1] 2.535701

Für eine Entscheidung benötigen wir noch den kritischen t-Wert. Da wir den Zähler des empirischen t-Wertes als \(M_A\) - \(M_B\) berechnet haben, sprechen große positive t-Werte gegen unsere Nullhypothese (vgl. \(H_0: \mu_A \leq \mu_B\;\;\text{bzw.}\;\;H_1: \mu_A>\mu_B\)). Der kritische t-Wert entspricht also dem \(95\%\)-Quantil der t-Verteilung mit \(n_A + n_B -2\) Freiheitsgraden, welcher am rechten Ende der Verteilung \(\alpha = 5\%\) der Fläche abschneidet:

t_krit <- qt(p = 0.95,
             df = 18)
t_krit
## [1] 1.734064

Der empirische t-Wert von \(t = 2.54\) ist also größer als der kritische t-Wert von \(t_{0.95;18} = 1.73\). Der empirische t-Wert ist somit hinreichend unplausibel unter der \(H_0\), sodass wir Zweifel an der Gültigkeit der \(H_0\) haben und uns stattdessen für die \(H_1\) entscheiden.

Alternativ können wir natürlich auch den p-Wert berechnen. Dieser ergibt sich als Fläche von \(t=2.54\) bis \(+\infty\) (da ja große positive Werte gegen die \(H_0\) sprechen) unter der entsprechenden \(t\)-Verteilung:

1 - pt(q = t,    # Fläche ab dem t-Wert
       df = 18)  # 10 + 10 -2 = 18 Freiheitsgrade  
## [1] 0.01035462

Da \(p = 0.01\) kleiner ist als unser \(\alpha=0.05\), sind t-Werte so groß wie der empirische t-Wert oder noch extremer unter der \(H_0\) hinreichend selten, sodass wir Zweifel an der Gültigkeit der \(H_0\) haben. Wir entscheiden uns stattdessen für die \(H_1\).

Natürlich müssen wir den t-Test nicht “per Hand” berechnen, sondern können auf die entsprechende R-Funktion t.test() zurückgreifen. Wir verwenden zunächst eine Variante, bei der die Daten beider Gruppen den Argumenten x und y als Vektoren übergeben werden:

ergebnis <- t.test(x = daten$konzentrationswert[daten$gruppe == "A"],  # Gruppe A
                   y = daten$konzentrationswert[daten$gruppe == "B"],  # Gruppe B
                   var.equal = TRUE,             # Varianzhomogenität angenommen
                   alternative = "greater")      # H1: mu_A größer als mu_B
ergebnis
## 
##  Two Sample t-test
## 
## data:  daten$konzentrationswert[daten$gruppe == "A"] and daten$konzentrationswert[daten$gruppe == "B"]
## t = 2.5357, df = 18, p-value = 0.01035
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
##  3.698842      Inf
## sample estimates:
## mean of x mean of y 
##     114.2     102.5

Übrigens ist beim Aufruf wichtig, explizit var.equal = TRUE zu setzen, da der Parameter standardmäßig auf var.equal = FALSE gesetzt ist und dann ein Welch-Test berechnet wird. Eine alternative Möglichkeit bietet die Verwendung der Modellsprache:

ergebnis <- t.test(konzentrationswert ~ gruppe,  # k.-wert modelliert durch gruppe
                   data = daten,                 # welche Daten werden verwendet?
                   var.equal = TRUE,             # Varianzhomogenität angenommen
                   alternative = "greater")      # H1: mu_A größer als mu_B
ergebnis
## 
##  Two Sample t-test
## 
## data:  konzentrationswert by gruppe
## t = 2.5357, df = 18, p-value = 0.01035
## alternative hypothesis: true difference in means between group A and group B is greater than 0
## 95 percent confidence interval:
##  3.698842      Inf
## sample estimates:
## mean in group A mean in group B 
##           114.2           102.5

Mit dem Argument alternative können wir auch die Alternativhypothese bestimmen. Wichtig ist aber, bei der Spezifikation zu beachten, dass in die richtige Richtung getestet wird. Bei der Verwendung der Formelschreibweise oder bei der Vertauschung von x = und y = beim Funktionsaufruf kann es nämlich durchaus leicht passieren, dass die Funktion t.test() nicht \(\mu_A > \mu_B\) prüft, sondern den umgekehrten Fall! Es ist daher immer sinnvoll, sich den Output von t.test() genau anzusehen. Dort findet sich nämlich eine genaue Info hierüber: true difference in means between group A und group B is greater than 0. Hier wird also klar, dass, ganz wie von uns gewollt, \(\mu_A > \mu_B\) (bzw. \(\mu_A - \mu_B > 0\)) getestet wird.

Schließlich können wir das Ergebnis auch etwas schöner mit Hilfe der Funktion t_out() aus dem Paket schoRsch ausgeben lassen. Das Paket schoRsch bietet einige Funktionen zur Formatierung von R-Outputs:

library(schoRsch)
t_out(ergebnis)
##                  Test                          Results
## 1  Two Sample t-test: t(18) = 2.54, p = .010, d = 1.13

Hierbei sind die Werte entsprechend der Vorgaben der APA formatiert worden:

  • t(18) = 2.54: t-Wert, 18 Freiheitsgrade
  • p = .010: p-Wert
  • d = 1.13: eine sogenannte Effektstärke, auf die wir in Teil 14 noch zurück kommen

12.2 Der t-Test für eine Stichprobe

Im vorherigen Abschnitt haben wir den t-Test für zwei unabhängige Stichproben kennengelernt, bei dem geprüft werden soll, ob zwei (unabhängige) Populationen den gleichen Erwartungswert haben. Der t-Test für eine Stichprobe bezieht sich hingegen nur auf eine Population, wobei hier geprüft werden soll, ob der Erwartungswert dieser Population von einem theoretischen Wert abweicht.

12.2.1 Ausgangslage und Voraussetzungen

Die Fragestellung lautet also hier: Unterscheidet sich der Erwartungswert \(\mu\) einer Population von einem festen Wert \(\mu_0\)? Wir verdeutlichen dies an einem Beispiel: Es wurde angenommen, dass Kinder im Alter von 8 Jahren bei einem Konzentrationstest einen Wert von \(\mu_0 = 80\) erreichen (0-150 Punkte seien möglich). Eine neue Theorie sagt nun vorher, dass Kinder im Alter von 8 Jahren einen höheren Wert als 80 erreichen würden. Eine entsprechende Untersuchung würde also nun eine Stichprobe aus der Population der 8-jährigen Kinder ziehen und den Konzentrationstest bearbeiten lassen. Mittelwerte > 80 sprächen dann für die Vorhersage. Als Daten liegen uns die Werte einer Stichprobe vom Umfang \(n\) vor.

Ganz ähnlich wie auch bereits behandelten \(t\)-Test, stellen wir an den Anfang einige Voraussetzungen:

  • Die Stichprobe ist zufällig gezogen worden.
  • Das gemessene Merkmal ist mindestens intervallskaliert.
  • Das gemessene Merkmal ist in der Population normalverteilt.

Auch diese Voraussetzungen sind nicht unbedingt überprüfbar, vielmehr wird das Erfülltsein oft einfach angenommen. Allerdings können auch diese Annahmen natürlich wieder auf Plausibilität geprüft werden.

12.2.2 Durchführung und Logik anhand einer gerichteten Alternativhypothese

Ausgangspunkt der folgenden Überlegungen ist ein gerichtetes Hypothesenpaar: \[H_0:\mu\leq\mu_0\; \text{ und } \;H_1:\mu>\mu_0\] Die Nullhypothese umfasst die Möglichkeit, dass der wahre Erwartungswert \(\mu\), der zu testenden Population, gleich (oder kleiner) ist, als ein theoretischer Wert \(\mu_0\). Der Wert \(\mu_0\) ist also derjenige Wert, auf den getestet werden soll. Im Beispiel war dieser Wert \(\mu_0=80\). Die Alternativhypothese spiegelt hingegen die alternative Vermutung wider, dass der wahre Erwartungswert \(\mu\) größer ist als \(\mu_0\).

Um die Prüfgröße herzuleiten, gehen wir wieder vom allgemeinen t-Bruch aus: \[t=\frac{T-\tau_0}{SE_T}\] Zur Erinnerung:

  • \(T\) ist ein Schätzer für einen Populationsparameter.
  • \(\tau_0\) ist der Wert, auf den der Parameter getestet werden soll (hier also \(\mu_0\)).
  • \(SE_T\) ist der Standardfehler des Schätzers \(T\).

Der hier zu schätzende Parameter ist \(\mu\) und der entsprechende Punktschätzer ist der Mittelwert \(M\), sodass sich ergibt: \[t=\frac{M-\mu_0}{SE_M}\]

Wir brauchen nun noch einen Schätzer des Standardfehlers des Mittelwerts. Den Standardfehler des Mittelwerts kennen wir aber bereits auf Populationsebene: \[\sigma_\boldsymbol{M}=\frac{\sigma}{\sqrt{n}}\] Die Standardabweichung \(\sigma\) der Population können wir wiederum leicht durch die korrigierte Standardabweichung der Stichprobe, \(\hat S\), schätzen, sodass der geschätzte Standardfehler von \(M\) lautet: \[SE_M = \frac{\hat{S}}{\sqrt{n}}\] Eingesetzt in den t-Bruch ergibt sich abschließend als Formel für den t-Test für eine Stichprobe: \[t=\frac{M-\mu_0}{\frac{\hat{S}}{\sqrt{n}}}\]

Auch diesen t-Bruch können wir aus den Daten der Stichprobe berechnen und er erfüllt wieder die zwei wichtigen Eigenschaften einer Prüfgröße:

  1. Er wird umso größer, (a) je größer die Differenz \(M-\mu_0\) wird bzw. (b) je kleiner der Standardfehler wird. Mit anderen Worten: Er wird umso größer, je mehr das Ergebnis einer Studie für die \(H_1\) (bzw. gegen die \(H_0\)) spricht.
  2. \(\boldsymbol{t}\) kann als eine Zufallsvariable aufgefasst werden, die jeder Stichprobe vom Umfang \(n\) den t-Bruch zuweist. Dann kann man zeigen, dass bei Annahme der \(H_0\) diese Zufallsvariable (zentral) t-verteilt mit \(n-1\) Freiheitsgraden ist. Man schreibt dann: \[\boldsymbol{t}\overset{H_0}{\sim} t_{n-1}\]

Damit können wir nun auf Basis einer Stichprobe vom Umfang \(n\) den dazugehörigen empirischen t-Wert berechnen. Die Entscheidung zwischen der \(H_0\) und der \(H_1\) erfolgt ganz analog zum Fall zweier unabhängiger Stichproben: entweder mit Hilfe eines kritischen t-Wertes oder mit Hilfe eines p-Wertes.

Entscheidungsregel 1 auf Basis eines t-Wertes: “Wenn \(t\geq t_\text{krit}=t_{m;1-\alpha}\) ist, dann tritt der t-Wert (bzw. ein noch größerer) so selten auf, wenn die \(H_0\) gelten würde, dass wir an dieser Annahme Zweifel haben. Wir entscheiden uns daher für die \(H_1\).”

Entscheidungsregel 2 auf Basis eines p-Wertes: “Wenn \(p\leq\alpha\) ist, dann tritt der t-Wert bzw. ein noch größerer t-Wert so selten auf, wenn die \(H_0\) gelten würde, dass wir an dieser Annahme Zweifel haben. Wir entscheiden uns daher für die \(H_1\).”

12.2.3 Beispiele

Abschließend führen wir anhand zweier Beispiele konkrete Berechnungen von Einstichproben-\(t\)-Tests durch.

In Beispiel 1 möchte jemand testen, ob es plausibel ist, dass der Erwartungswert einer bestimmten Population von 4 abweicht bzw. genauer, ob der Erwartungswert größer ist als 4.

Die Alternativhypothese bildet also diese Vermutung ab, während die Nullhypothese hingegen die Möglichkeit beinhaltet, dass die Population einen Erwartungswert kleiner oder gleich 4 hat: \[H_0:\mu\leq 4\hspace{0.5cm}\; \text{ und } \;\hspace{0.5cm}H_1:\mu>4\] Eine Entscheidung soll mit \(\alpha=0.05\) getroffen werden. Die erhobene Stichprobe hat einen Umfang von \(n=100\), einen Mittelwert von \(M=10\) sowie eine korrigierte Standardabweichung \(\hat{S}=7.5\). Bevor wir mit der Lösung fortfahren, versuchen Sie selbst die folgenden Fragen zu beantworten:

  • Ist der Test gerichtet oder ungerichtet?
  • Wie lautet der empirische t-Wert?
  • Wie lautet der kritische t-Wert?
  • Wie entscheiden Sie sich?

Da das Hypothesenpaar eine spezifische “größer/kleiner” Relation beinhaltet, handelt es sich hier um einen gerichteten Hypothesentest. Der empirische t-Wert ergibt sich unmittelbar, indem die gegebenen Werte in die Formel des t-Tests für eine Stichprobe eingesetzt werden: \[t=\frac{M-\mu_0}{\frac{\hat{S}}{\sqrt{n}}} = \frac{10-4}{\frac{7.5}{\sqrt{100}}} = 9.3\] Die Frage ist nun, ob dieser Wert groß genug ist um hinreichend Zweifel an der Nullhypothese zu haben. Hierzu bestimmen wir den kritischen t-Wert als \((1-\alpha)\cdot 100\% = 95\%\)-Quantil der entsprechenden t-Verteilung mit \(n-1= 99\) Freiheitsgraden.

qt(p = 0.95,
   df = 99)
## [1] 1.660391

Dieser Wert gibt an, dass 95% der t-Werte kleiner oder gleich \(1.66\) sind, wenn in Wahrheit der Erwartungswert 4 wäre (wäre der Erwartungswert in Wahrheit noch kleiner, wäre die Prozentzahl natürlich noch höher). Da unser empirischer t-Wert von \(9.3\) deutlich größer ist als dieser kritische t-Wert, haben wir hinreichend Zweifel an der Nullhypothese und verwerfen diese. Wir entscheiden uns also für die \(H_1\) und gehen davon aus, dass der Erwartungswert der Population größer ist als 4.

Alternativ könnten wir natürlich auch einen p-Wert berechnen, um zu prüfen, wie wahrscheinlich der gefundene t-Wert (oder ein noch extremerer) unter der Nullhypothese ist:

1 - pt(9.3,
       df = 99)
## [1] 1.776357e-15

Auch hier muss die Entscheidung für die Alternativhypothese ausfallen.

In Beispiel 2 wollen wir den t-Test nicht per Hand berechnen, sondern die R-Funktion t.test() nutzen. Als Beispiel möchten wir die Hypothese testen, dass die Gruppe A aus dem Beispiel für zwei unabhängige Stichproben aus einer Population mit einem Konzentrationswert von mehr als 100 stammt: \[H_0:\mu\leq 100\hspace{0.5cm}\; \text{ und } \;\hspace{0.5cm}H_1:\mu>100\] Die Umsetzung in R könnte hierfür so aussehen:

daten_A <- subset(daten,
                  gruppe == "A")               # Reduzieren des Datensatzes auf Gruppe A
ergebnis <- t.test(daten_A$konzentrationswert, # die Werte der Stichprobe
                   mu = 100,                   # H0: mu0 = 100 (oder kleiner)
                   alternative = "greater")    # gerichtete H1: mu0 > 100
ergebnis          # genuine R-Ausgabe
## 
##  One Sample t-test
## 
## data:  daten_A$konzentrationswert
## t = 3.919, df = 9, p-value = 0.001758
## alternative hypothesis: true mean is greater than 100
## 95 percent confidence interval:
##  107.5579      Inf
## sample estimates:
## mean of x 
##     114.2
t_out(ergebnis)   # formatiert mit schoRsch
##                 Test                         Results
## 1 One Sample t-test: t(9) = 3.92, p = .002, d = 1.24
## 
## NOTE: Reporting unadjusted estimate for Cohen's d.

Der t-Test ist mit \(t(9) = 3.92\), \(p = .002\) statistisch signifikant (bei \(\alpha = 0.05\)), sodass wir an der Nullhypothese hinreichend Zweifel haben und uns stattdessen entscheiden, an die Alternativhypothese zu glauben. Das heißt, wir gehen davon aus, der Erwartungswert der Gruppe A bzgl. ihrer Konzentrationsleistung sei größer als 100.

12.2.4 Ungerichtete Alternativhypothesen

Wie im Fall für den t-Test bei unabhängigen Stichproben, können wir auch beim t-Test für eine Stichprobe einen zweiseitigen Test durchführen. Zur Erinnerung: hier geht die Alternativhypothese nur von irgendeinem Unterschied aus, egal in welche Richtung dieser Unterschied dann gehen soll. In Anlehnung an das obere Beispiel 1, könnte eine ungerichtete Hypothese lauten: \[H_0:\mu= 4\hspace{0.5cm}\; \text{ und } \;\hspace{0.5cm}H_1:\mu\neq4\] Wir würden also in beide Richtungen prüfen, ob der Erwartungswert der Population größer oder kleiner ist als 4.

Die Logik beim zweiseitigen Hypothesentest ist dabei wieder identisch zum einseitigen Hypothesentest, mit dem Unterschied, dass wir unsere Nullhypothese sowohl verwerfen, wenn wir große positive, als auch wenn wir große negative Abweichungen vom Wert unter der Nullhypothese finden. Hierzu “teilen” wir unser Signifikanzniveau “auf beide Seiten” der t-Verteilung auf, sodass wir zwei kritische t-Werte erhalten. Einen auf der linken Seite der t-Verteilung, welcher angibt dass \((\frac{\alpha}{2})\cdot 100\%\) (i.d.R. 2.5%) der t-Werte unter der Nullhypothese kleiner sind als dieser Wert. Und einen auf der rechten Seite der t-Verteilung, welcher angibt dass \((1-\frac{\alpha}{2})\cdot 100\%\) (i.d.R. 2.5%) der t-Werte unter der Nullhypothese größer sind als dieser Wert (bzw. 97.5% kleiner sind als dieser Wert). Aufgrund der Symmetrie der t-Verteilung sind die beiden kritischen t-Werte wieder betragsmäßig gleich.

Bezogen auf unser Beispiel 1 mit \(n=100\) Werten und \(\alpha = 0.05\) ergäben sich die kritischen t-Werte:

qt(p = 0.025,  # untere bzw. "linke" Grenze
   df = 99)     
## [1] -1.984217
qt(p = 0.975,  # obere bzw. "rechte" Grenze 
   df = 99) 
## [1] 1.984217

Befiindet sich nun ein empirischer t-Werte unterhalb der unteren Grenze bzw. oberhalb der oberen Grenze, so ist ein solcher t-Wert derart selten unter der Nullhypothese, dass wir hinreichend an dieser zweifeln und uns für die Alternativhypothese entscheiden.

Ähnlich können wir auch wieder p-Werte berechnen, wobei sich der p-Wert aus zwei Teilen zusammensetzt:

p_1 <- pt(q = -9.3,     # Wrsl. von - unendlich bis zum negativen empirischen t-Wert
          df = 99) 
p_2 <- 1 - pt(q = 9.3,  # Wrsl. vom empirischen t-Wert bis plus unendlich
              df = 99) 
p <- p_1 + p_2          # der p-Wert ist die Summe aus beiden Teilen
p
## [1] 3.616951e-15

Möchte man einen zweiseitigen Test mit Hilfe der R-Funktion t.test() durchführen, so lässt man das Argument alternative unspezifiziert (hier mit den Werten aus Beispiel 2):

ergebnis <- t.test(daten_A$konzentrationswert, # die Werte der Stichprobe
                   mu = 100)                   # H1: mu0 != 100
ergebnis
## 
##  One Sample t-test
## 
## data:  daten_A$konzentrationswert
## t = 3.919, df = 9, p-value = 0.003516
## alternative hypothesis: true mean is not equal to 100
## 95 percent confidence interval:
##  106.0033 122.3967
## sample estimates:
## mean of x 
##     114.2

Alternativ setzt man das Argument auf two.sided, was aber eben dem Standardwert entspricht und zum gleichen Ergebnis führen würde:

ergebnis <- t.test(daten_A$konzentrationswert, # die Werte der Stichprobe
                   mu = 100,
                   alternative = "two.sided")  # H1: mu0 != 100

ergebnis

Auch hier ist eine Formatierung mit der Funktion t_out() möglich:

t_out(ergebnis)
##                 Test                         Results
## 1 One Sample t-test: t(9) = 3.92, p = .004, d = 1.24
## 
## NOTE: Reporting unadjusted estimate for Cohen's d.

Auf die Bedeutung der Effektstärke \(d\) wird in Teil 14 eingegangen.

12.3 Der t-Test für zwei abhängige Stichproben

12.3.1 Ausgangslage und Voraussetzungen

Bisher hatten wir Fälle betrachtet, bei denen jede Versuchsperson einen Datenwert geliefert hat und bei denen jede Versuchsperson genau einer Gruppe/Stichprobe angehört hat.

In der experimentellen (Kognitions-)Psychologie kommt es allerdings auch häufig vor, dass von jeder Versuchsperson mehrere Datenwerte vorliegen: Die Daten sind dann abhängig voneinander. Dieses Vorgehen bringt eine ganze Reihe von Vorteilen (aber auch potentielle Nachteile) mit sich.

Als ein Beispiel möge eine Theorie vorhersagen, dass Kinder im Alter von 8 Jahren bei einem Konzentrationstest einen höheren Wert als im Alter von 6 Jahren haben. Eine entsprechende Untersuchung könnte also nun eine Stichprobe aus der Population 6-jähriger Kinder ziehen und den Konzentrationstest bearbeiten lassen (Messzeitpunkt [MZP] 1). Die gleichen Kinder werden dann im Alter von 8 Jahren nochmals mit dem Konzentrationstest untersucht (Messzeitpunkt 2). Ein höherer Mittelwert zum Messzeitpunkt 2 als zum Messzeitpunkt 1 spräche dann für die Vorhersage.

Die Fragestellung die wir untersuchen ist also: Unterscheidet sich der Erwartungswert \(\mu_{MZP-1}\) zum Messzeitpunkt 1 vom Erwartungswert \(\mu_{MZP-2}\) zum Messzeitpunkt 2? Als Daten liegen uns nun Werte einer Stichprobe vom Umfang \(n\) vor, jede Versuchsperson liefert aber Datenpunkte zu beiden Messzeitpunkten.

Voraussetzungen:

  • Die Stichprobe ist zufällig gezogen worden.
  • Das gemessene Merkmal ist mindestens intervallskaliert.
  • Das gemessene Merkmal ist in der Population normalverteilt.

Auch hier sind diese Voraussetzungen nicht unbedingt überprüfbar, vielmehr wird ihr Erfülltsein in der Regel angenommen. Sie können allerdings theoretisch und empirisch bzgl. ihrer Plausibilität evaluiert werden.

12.3.2 Durchführung und Logik am Beispiel einer gerichteten Alternativhypothese

Ausgangspunkt der folgenden Ausführungen ist das Hypothesenpaar \[H_0:\mu_{MZP-2}\leq\mu_{MZP-1}\; \text{ und } \;H_1:\mu_{MZP-2}>\mu_{MZP-1}\]

Zur Illustration der Logik des t-Tests für abhängige Stichproben wollen wir die folgende Situation betrachten. Angenommen wir hätten die Konzentrationsleistung von 4 Kindern zu zwei Messzeitpunkten (bspw. einmal im Alter von 6 und einmal im Alter von 8 Jahren). Um zu beurteilen, ob es im Schnitt eine Veränderung zwischen den beiden Messzeitpunkten gibt, müssen wir den Mittelwert der individuellen Differenzwerte ansehen (MZP-2 – MZP-1). Je mehr Kinder im Schnitt einen Anstieg in ihrer Konzentrationsleistung haben, desto mehr spricht dies für unsere Vermutung, dass der wahre Erwartungswert \(\mu_{MZP-1}\) zum Messzeitpunkt 1 kleiner ist als der wahre Erwartungswert \(\mu_{MZP-2}\) zum Messzeitpunkt 2.

Stellen wir uns hierfür nun einen Fall vor, bei dem alle Kinder eine einheitliche Verbesserung zeigen (linkes Diagramm der folgenden Abbildung). In diesem Fall haben alle Kinder den exakt gleichen Differenzwert von 30, sodass der Mittelwert der Differenzen ebenfalls 30 beträgt. Klar ist, dass dieser Fall sehr dafür spricht, dass die Konzentrationsleistung zum zweiten Zeitpunkt tatsächlich höher ist als zum ersten Zeitpunkt. Im Gegensatz hierzu ergibt sich im rechten Diagramm der folgenden Abbildung keine klare Tendenz. Ein Teil der Kinder hat zum zweiten Zeitpunkt eine geringere Konzentrationsleistung als zum ersten Zeitpunkt, wohingegen ein anderer Teil eine höhere Konzentrationsleistung zeigt. Der Mittelwert der individuellen Veränderungen ist aber \(0\).

Wir können also die Betrachtung von Differenzwerten wie folgt zusammenfassen:

  • Bei (mehr oder weniger) einheitlicher Verbesserung sind die Differenzwerte (mehrheitlich) größer als Null und dann ist auch ihr Mittelwert größer als Null.
  • Bei keiner (einheitlichen) Verbesserung sind manche Differenzwerte größer als Null, andere kleiner als Null, und der Mittelwert der Differenzwerte liegt folglich im Bereich von Null.

Da wir also die Ausgangsfrage auch auf einzelne (Differenz-)Werte zurückführen können, benötigen wir eigentlich kein konzeptuell neues Verfahren. Wir können stattdessen für jede Versuchsperson die Differenzwerte berechnen und anschließend prüfen, ob diese hinreichend stark von \(0\) abweichen. Konkret bedeutet dies also:

  1. Für jede Versuchsperson wird ein Differenzwert der beiden Messzeitpunkte gebildet: \(D=\text{MZP-2} - \text{MZP-1}\)
  2. Diese Differenzwerte werden mit einem t-Test für eine Stichprobe auf den Wert \(\mu_0=0\) getestet.

Mit Bezug auf die Formel für den t-Test für eine Stichprobe ergibt sich also der t-Test für abhängige Stichproben wie folgt: \[t=\frac{M_D-0}{\frac{\hat{S}_D}{\sqrt{n}}}\] Für einen t-Test für abhängige Stichproben benötigen wir somit lediglich den Mittelwert und die Standardabweichung der Differenzvariable \(D\), sowie die Stichprobengröße \(n\). (Anmerkung: Man könnte auch bzgl. einer Abweichung ungleich \(0\) testen, indem man einen entsprechenden anderen Wert in den Zähler einsetzt. In der Regel testet man aber, ob es überhaupt eine Veränderung gibt, sodass \(\mu_0\) unter der Nullhypothese gleich \(0\) gesetzt wird.)

Zur Prüfung auf Signifikanz vergleichen wir anschließend den empirischen t-Wert anhand der t-Verteilung mit \(n-1\) Freiheitsgraden, ganz wie wir es gerade bereits beim t-Test für eine Stichprobe kennengelernt haben.

12.3.3 Beispiel

Wir haben von 5 Versuchspersonen jeweils Werte zu zwei Messzeitpunkten vorliegen, welche in einem DataFrame daten_abhaengig zusammengefasst sind:

daten_abhaengig    # Ausgabe des DataFrames

Wir testen nun die Hypothese, dass der Erwartungswert der Population zum Messzeitpunkt 2 (\(\mu_{MZP-2}\)) größer ist als der zum Messzeitpunkt 1 (\(\mu_{MZP-1}\)): \[H_0:\mu_{MZP-2}\leq\mu_{MZP-1}\; \text{ und } \;H_1:\mu_{MZP-2}>\mu_{MZP-1}\] Dies können wir auch umschreiben als: \[H_0:\mu_D \leq 0\; \text{ und } \;H_1:\mu_D>0 \quad \quad (\text{mit } \mu_D =\mu_{MZP-2}-\mu_{MZP-1})\] Große positive Differenzwerte sprechen also gegen unsere Nullhypothese. Für den t-Test bei abhängigen Stichproben berechnen wir zuerst die Differenzwerte für jede Person und führen anschließend einen t-Test für eine Stichprobe auf der Differenzvariable durch (das Argument mu = 0 könnte auch weggelassen werden, da dies der default-Einstellung entspricht):

daten_abhaengig$D <- daten_abhaengig$MZP2 - daten_abhaengig$MZP1 
ergebnis <- t.test(daten_abhaengig$D,        # die Differenzwerte der Stichprobe
                   mu = 0,                   # H0: mu_D = 0 (oder kleiner; der default)
                   alternative = "greater")  # gerichtete H1: mu_D > 0
ergebnis          # genuine R-Ausgabe
## 
##  One Sample t-test
## 
## data:  daten_abhaengig$D
## t = 1.3188, df = 4, p-value = 0.1288
## alternative hypothesis: true mean is greater than 0
## 95 percent confidence interval:
##  -1.233106       Inf
## sample estimates:
## mean of x 
##         2
t_out(ergebnis)   # formatiert mit schoRsch
##                 Test                         Results
## 1 One Sample t-test: t(4) = 1.32, p = .129, d = 0.59
## 
## NOTE: Reporting unadjusted estimate for Cohen's d.

Der t-Test ist hier also nicht signifikant, sodass wir keine hinreichenden Zweifel an der Nullhypothese haben können und weiterhin von ihrer Gültigkeit ausgehen.

Anstatt die Differnzvariable selbst zu berechnen, können wir auch die Funktion t.test() direkt auf die beiden Variablen MZP1 und MZP2 anwenden. Hierbei müssen wir das Argument paired = TRUE setzen, um explizit der Funktion mitzuteilen, einen t-Test für abhängige Stichproben zu rechnen. Hiermit erhalten wir das gleiche Ergebnis wie im gerade berechneten Fall:

ergebnis <- t.test(x = daten_abhaengig$MZP2,     # Übergabe der Werte beider...
                   y = daten_abhaengig$MZP1,     # ...Messzeitpunkte
                   paired = TRUE,                # für abhängige Stichproben
                   alternative = "greater")
ergebnis         # genuine R-Ausgabe
## 
##  Paired t-test
## 
## data:  daten_abhaengig$MZP2 and daten_abhaengig$MZP1
## t = 1.3188, df = 4, p-value = 0.1288
## alternative hypothesis: true mean difference is greater than 0
## 95 percent confidence interval:
##  -1.233106       Inf
## sample estimates:
## mean difference 
##               2
t_out(ergebnis)  # formatiert mit schoRsch
##             Test                         Results
## 1 Paired t-test: t(4) = 1.32, p = .129, d = 0.59
## 
## NOTE: Reporting unadjusted estimate for Cohen's d.

12.4 Zusammenfassung und Ergänzungen

12.4.1 Das Vorgehen

Das generelle Vorgehen bei t-Tests (und auch bei allen anderen Nullhypothesen-Tests ) ist immer gleich:

  1. Aufgrund theoretischer Überlegungen wird ein Hypothesenpaar aufgestellt, welches eine angenommene Beziehungen für Populationsparameter abbildet: \(H_1\) formuliert meistens einen Unterschied, während \(H_0\) das Gegenteil formuliert. Wichtig ist hierbei, dass die Nullhypothese immer eine mögliche Gleichheit beinhaltet (bspw. dass ein Erwartungswert kleiner oder gleich einem anderen Erwartungswert ist).
  2. Es wird festgelegt, was als “sehr unwahrscheinlich” gilt: das Signifikanzniveau \(\alpha\). Meist wird \(\alpha = 0.05\) festgelegt.
  3. Die Stichprobe(n) wird/werden gezogen und es werden Stichprobenstatistiken wie \(M\) und \(S^2\) (bzw. \(\hat{S}^2\)) berechnet.
  4. Aus diesen wird eine Prüfgröße berechnet, was bei den bisherigen Beispielen der (empirische) t-Wert war.
  5. Es gibt zwei Möglichkeiten zur Entscheidung zwischen \(H_1\) und \(H_0\):
    • Ermittlung des kritischen t-Wertes (der von \(\alpha\) abhängt) und Vergleich mit dem empirischen t-Wert.
    • Ermittlung des p-Wertes und Vergleich mit \(\alpha\).
    • Beide Möglichkeiten führen immer zur gleichen Entscheidung.
  6. Bei einer Entscheidung zugunsten der \(H_1\) spricht man auch von einem signifikanten Ergebnis (von lat. “significans”: klar, deutlich):
    • gemeint ist dabei “statistische Signifikanz”…
    • …ob das Ergebnis auch “inhaltlich bedeutsam” ist, ist eine andere Frage (und die Antwort darauf benötigt eine substanzwissenschaftliche Betrachtung und Aspekte wie die Effektstärken und Teststärke/Power, die wir in Teil 14 behandeln werden).

12.4.2 Der t-Bruch im Allgemeinen:

Wir haben zwei konkrete Varianten des t-Bruchs kennengelernt. Auch wenn sie sich in Details unterscheiden, haben beide die gleiche allgemeine Struktur (siehe Abschnitt 12.1.1): \[t=\frac{T-\tau_0}{SE_T}\] Dabei bedeuten:

  • \(T\) ist ein Schätzer für einen Populationsparameter.
  • \(\tau_0\) ist der Wert, auf den der Parameter getestet werden soll (oft: \(\tau_0=0\)). Er entspricht immer der in der Nullhypothese formulierten Gleichheit.
  • \(SE_T\) ist der geschätzte Standardfehler des Schätzer \(T\).

Wir werden diese allgemeine Form gleich wieder benötigen.

12.4.3 Inferenzstatistik der Korrelation

In Teil 5 hatten wir die Pearson-Korrelation berechnet als \[r_{XY}=\frac{\text{Kov}(X,Y)}{S_X\cdot S_Y}\] \(r\) ist hierbei wieder auf Basis einer Stichprobe berechnet worden und ist damit eine Stichprobenstatistik. Auch hier interessieren wir uns aber in der Regel dafür, ob in der Population, aus der die Stichprobe stammt, ein Zusammenhang vorliegt oder nicht: Den entsprechenden Populationsparameter nennen wir \(\rho\) (kleines “rho”) und der dazugehörige Schätzer ist die Pearson-Korrelation \(r\) der Stichprobe.

Über \(\rho\) können wir nun ganz analog zu den Tests über Mittelwerte Hypothesenpaare formulieren:

  1. Eine ungerichtete Alternativhypothese: \[H_0: \rho = 0\hspace{0.5cm}\text{und}\hspace{0.5cm}H_1:\rho \neq 0\]
  2. Eine gerichtete Alternativhypothese über einen positiven Zusammenhang: \[H_0: \rho \leq 0\hspace{0.5cm}\text{und}\hspace{0.5cm}H_1:\rho > 0\]
  3. Eine gerichtete Alternativhypothese über einen negativen Zusammenhang: \[H_0: \rho \geq 0\hspace{0.5cm}\text{und}\hspace{0.5cm}H_1:\rho < 0\]

Klar sollte sein: Selbst wenn in der Population \(\rho=0\) gilt, wird in einer Stichprobe in der Regel \(r\neq 0\) sein.

Wir entwickeln nun im Folgenden eine Prüfgröße auf Basis des allgemeinen t-Bruches zum Prüfen der Nullhypothese \(H_0:\rho = 0\). Das heißt, wir entwickeln eine Prüfgröße, welche uns angeben soll, ob ein empirischer Zusammenhang \(r\) in einer Stichprobe hinreichend unplausibel unter der \(H_0\) ist. In den vorherigen Kapiteln haben wir bereits die wünschenswerten Eigenschaften einer Prüfgröße behandelt:

  1. Die Prüfgröße soll extremere Werte annehmen, je eher die Daten gegen die \(H_0\) sprechen.

Dies trifft direkt auf \(r\) zu: Je mehr \(r\) gegen \(-1/+1\) geht, desto eher sprechen die Daten gegen den Teil der \(H_0\), dass \(\rho =0\) ist, also für die \(H_1\).

  1. Die theoretische Verteilung/Dichtefunktion einer Zufallsvariablen, die jeder Stichprobe die Prüfgröße zuordnet, ist bekannt unter Annahme der Gültigkeit der \(H_0\).

Hier wird die Sache etwas kniffeliger und wir schauen uns nun die Verteilung von \(r\) bei \(\rho = 0\) an. Für die folgende Abbildung wurden 10000 Stichproben vom Umfang \(n=30\) simuliert, wobei die wahre Korrelation in der Population \(\rho = 0\) sei:

Auch wenn die Verteilung annähernd glockenförmig aussieht und damit stark einer t- oder Normalverteilung ähnelt, ist sie leider weder das eine noch das andere. Tatsächlich ist die genaue Verteilung unklar. Das liegt auch daran, dass die Werte von \(r\) nur zwischen \(-1\) und \(1\) liegen können.

Abhilfe kann allerdings wieder der t-Bruch schaffen und wir gehen wieder zunächst vom allgemeinen t-Bruch aus: \[t=\frac{T-\tau_0}{SE_T}\] für \(T\) setzen wir nun \(r\) ein (als Schätzer des Parameters \(\rho\)). Für den geschätzten Standardfehler von \(r\) setzen wir – ohne Herleitung – ein: \[SE_r=\sqrt{\frac{1-r^2}{n-2}}\] Somit ergibt sich für den t-Bruch der Korrelation:

\[t=\frac{T-\tau_0}{SE_T}=\frac{r-0}{\sqrt{\frac{1-r^2}{n-2}}}=\frac{r\sqrt{n-2}}{\sqrt{1-r^2}}\]

Nun wiederholen wir die Simulation der letzten Abbildung (mit 10000 Stichproben vom Umfang \(n = 10\)) und berechnen dabei aber neben der eigentlichen Korrelation den gerade eben eingeführten t-Bruch pro Stichprobe:

Nun sieht die Verteilung der t-Werte einer t-Verteilung eher ähnlich und auch der Wertebereich geht in die richtige Richtung. Tatsächlich ist \(t\) auch \(t\)-verteilt bzw. genauer gesagt gilt: Eine Zufallsvariable \(\boldsymbol{t}\), die jeder Stichprobe den Bruch \[t=\frac{r\sqrt{n-2}}{\sqrt{1-r^2}}\] zuweist, ist bei Annahme der \(H_0:\rho = 0\) t-verteilt mit \(n-2\) Freiheitsgraden: \[\boldsymbol{t}\overset{H_0}{\sim} t_{n-2}\] Zudem sprechen extreme Werte von \(t\) eher gegen die Nullhypothese. Der t-Bruch erfüllt also beide Eigenschaften einer Prüfgröße.

Somit haben wir alles in der Hand um einen Signifikanztest für die Korrelation durchzuführen. Konkret müssen wir hierfür den t-Bruch der Korrelation berechnen und diesen empirischen t-Wert mit der theoretischen t-Verteilung mit \(n-2\) Freiheitsgraden vergleichen. Hierzu können wir entweder kritische t-Werte oder einen p-Wert berechnen. Die Entschungsregel lautet dann:

“Wenn (1) \(|t|\geq t_{n-2;1-\frac{\alpha}{2}}\) ist oder wenn (2) \(p\leq\alpha\) ist, dann haben wir ausreichend Zweifel an der Gültigkeit der \(H_0\) und entscheiden wir uns für die \(H_1\).”

Eine abschließende Warnung sei allerdings noch gegeben: Wenn Korrelationen auf sehr kleinen Stichproben basieren, kommt es zu Problemen bei der Verteilung des Korrelationskoeffizienten. Um dies zu verdeutlichen, simulieren wir erneut 10000 Stichproben (aus einer Population mit \(\rho = 0\)), variieren aber diesmal den Stichprobenumfang:

Zu sehen ist, dass gerade bei kleinen Stichproben sehr hohe Korrelationskoeffizienten auftreten, obwohl in der Population eigentlich die \(H_0\) gilt (mit \(\rho = 0\))! Dies bedeutet, dass wir bei kleinen Stichproben eher dazu neigen durch Zufall (aufgrund einer hohen Korrelation) die Nullhypothese fälschlicherweise zu verwerfen. Wir laufen also Gefahr, mehr Fehler 1. Art zu begehen und somit unser gesetztes \(\alpha\)-Niveau nicht zu halten! Dies sollten wir immer im Hinterkopf behalten bei der Interpretation von Ergebnissen, die auf einer kleinen Stichprobe beruhen!

12.4.4 Inferenzstatistik der Regression

Nun betrachten wir den Fall der einfachen, linearen Regression (siehe Teil 6). Ziel der einfachen, linearen Regression war es, den Zusammenhang zwischen einem Kriterium \(Y\) und einem Prädiktor \(X\) mit Hilfe einer Regressionsgerade \(\hat Y\) zu beschreiben: \[\hat{Y}=b\cdot X+a\] Die optimalen Werte für \(b\) und \(a\) hatten wir bestimmt als (siehe hier für Details): \[b=\frac{\text{Kov}(X,Y)}{S_X^2}\hspace{0.5cm}\text{und}\hspace{0.5cm} a=M_Y-b\cdot M_X\]

In der Regel möchten wir aber nicht nur die Regressionsgerade für eine Stichprobe beschreiben, sondern inferenzstatistische Aussagen über die Population machen, also ob zum Beispiel die Steigung \(b\) auch in der Population von 0 verschieden ist.

Hierfür nutzen wir die gleiche Logik wie für \(r\) und \(\rho\): Der Wert \(b\) wird auf Basis einer Stichprobe berechnet, aber auch in der Population gibt es einen entsprechenden Parameter und wir nennen ihn \(\beta\) (ähnlich gibt es auch einen Populationsparameter für \(a\)). Klar ist, dass selbst wenn es keinen Zusammenhang zwischen dem Prädiktor und dem Kriterium in der Population gäbe (\(\beta = 0\)), \(b\) nicht exakt \(0\) sein wird.

Somit stellt sich auch hier wieder die Frage, wie wir entscheiden können, ob ein empirischer Zusammenhang \(b\) hinreichend unplausibel unter der Nullhypothese \(H_0:\;\beta = 0\) ist. Hilfe bringt wieder eine Prüfgröße auf Basis des allgemeinen t-Bruchs: \[t=\frac{T-\tau_0}{SE_T}\] Als erwartungstreuen Schätzer für den Populationsparameter \(\beta\) können wir direkt \(b\) nutzen. Der geschätzte Standardfehler von \(b\), \(SE_b\), ist zwar etwas schwerer zu bestimmen, allerdings gibt es auch hier eine passende Formel: \[SE_b=\sqrt{\frac{\frac{S_Y^2\cdot(1-r^2_{XY})}{n-2}}{S_X^2}}\] Eingesetzt in die allgemeine Formel des t-Bruchs, ergibt sich somit für den t-Bruch des Steigungskoeffizienten: \[t=\frac{T-\tau_0}{SE_T} = \frac{b-0}{SE_b} = \frac{b-0}{\sqrt{\frac{\frac{S_Y^2\cdot(1-r^2_{XY})}{n-2}}{S_X^2}}}\] Interessanterweise taucht in der Formel von \(SE_b\) die Pearson-Korrelation der beiden Variablen auf. Tatsächlich lässt sich der t-Bruch sogar umformulieren, sodass er sich auch so darstellen lässt:

\[t=\frac{b-0}{SE_b}= \frac{b-0}{\sqrt{\frac{\frac{S_Y^2\cdot(1-r^2_{XY})}{n-2}}{S_X^2}}} =\frac{r_{XY}\sqrt{n-2}}{\sqrt{1-r_{XY}^2}}\] Vergleichen wir nun diesen t-Bruch mit dem t-Bruch der Korrelation, sehen wir, dass beide \(t\)-Brüche identisch sind. In anderen Worten: Der t-Bruch des Steigungskoeffizienten \(b\) entspricht dem t-Bruch des Korrelationskoeffizienten \(r\). Somit gilt auch: Wenn eine Korrelation zweier Variablen signifikant von Null verschieden ist, dann ist eine Variable auch ein sich signifikant von Null unterscheidender Prädiktor für die andere Variable im Fall einer einfachen, linearen Regression (und umgekehrt). Dies macht den Zusammenhang von Korrelation und der einfachen linearen Regression noch einmal deutlich.

12.4.5 Abschließende Bemerkung zu Freiheitsgraden

Der Begriff der Freiheitsgrade wurde bereits verwendet als Parameter der t-Verteilung. Etwas oberflächlich kann gesagt werden, dass Freiheitsgrade die Anzahl der Werte widergeben, die frei gewählt werden können, ohne einen interessierenden statistischen Parameter oder ein benötigtes Zwischenergebnis zu verändern.

Beispiel für die Bedeutung in empirischen Daten:

  • Es liegen \(n=4\) Messwerte vor, die grundsätzlich erst einmal frei gewählt werden können, also \(4\) Freiheitsgrade besitzen.
  • Nun sei der Mittelwert bekannt als \(M=10\). Dann können nur noch \(3\) Werte frei gewählt werden, damit in einer Stichprobe von \(4\) Messwerten der gleiche Mittelwert entsteht: Es geht also ein Freiheitsgrad verloren.
  • Der Mittelwert wiederum wird benötigt zur Berechnung der Varianz: Sie hat daher \(n-1=3\) Freiheitsgrade (vgl. dazu auch, dass die erwartungstreue Schätzung der Populationsvarianz ja die Division durch \(n-1\) beinhaltet!)

Als Parameter von Dichtefunktionen bestimmen Freiheitsgrade deren genaues Aussehen. Bei t-Tests hängen die Freiheitsgrade mit dem Stichprobenumfang \(n\) zusammen: Je größer \(n\), desto mehr Freiheitsgrade, desto schmaler die Verteilung, und desto mehr ähnelt die t-Verteilung der Normalverteilung.

Auch Kontigenztafeln, wie wir sie zur Herleitung von \(\chi^2\) in Teil 5 eingeführt haben, haben in einem ganz ähnlichen Sinn Freiheitsgrade. Sind zu einer \(2\times 2\)-Kontigenztafel die Randverteilungen gegeben, dann kann genau 1 Wert frei gewählt werden und alle anderen Werte ergeben sich dann automatisch. In der linken Kontingenztafel der folgenden Abbildung haben wie bspw. den Wert 7 willkürlich gewählt, daraus ergeben sich dann aber die Besetzungen der verbleibenden drei Zellen automatisch (siehe rechter Teil der Abbildung).