Willkommen bei Stats by Randolph. Hier geht es zur Hauptseite mit weiteren Informationen und Inhalten.
Autor:innen dieser Seite: An den Inhalten dieser Seite haben mitgearbeitet: Valentin Koob, Eva Röttger und Markus Janczyk. Der Inhalt dieser Seite wird in der Lehre in den Studiengängen Psychologie von der AG Forschungsmethoden und Kognitive Psychologie an der Universität Bremen verwendet, steht aber allen Interessierten zur Verfügung. Rückmeldungen/Fehler/Vorschläge können gesendet werden an randolph@uni-bremen.
Versionshistory:
In Teil 11 haben wir zwei Populationen \(A\) und \(B\) mit folgender Hypothesensituation betrachtet: \[H_0:\mu_A\leq\mu_B\; \text{ und } \;H_1:\mu_A>\mu_B\] Die entsprechende Untersuchung bestand daraus, dass wir zwei Stichproben aus jeder Population gezogen haben und anschließend die Differenz der Mittelwerte \(D=M_A-M_B\) berechnet haben. Um zu entscheiden, ob es plausibel ist, dass die Population \(A\) einen größeren Erwartungswert besitzt als die Population \(B\), haben wir zwei Entscheidungsregeln bzw. Herangehensweisen entwickelt (die immer zur gleichen Konklusion führen):
Entweder man vergleicht die Differenz der Mittelwerte \(D\) mit einem kritischen Wert \(D_\text{krit}\)…
…oder man vergleicht \(p\) mit \(\alpha\), wobei \(p\) die bedingte Wahrscheinlichkeit ist, einen Wert von \(D\) oder noch größer zu finden, wenn in Wahrheit beide Populationen die gleichen Erwartungswerte besitzen (d.h. die \(H_0\) gilt). Der Wert \(\alpha\) gab die Wahrscheinlichkeit an, ab der wir Differenzen als hinreichend unplausibel erachtet haben, um weiter an die \(H_0\) zu glauben.
Zur Bestimmung von \(p\) oder \(D_\text{krit}\) haben wir eine Simulation genutzt, um die relative Häufigkeit (“Wahrscheinlichkeit”) von allen denkbaren, empirischen, \(D\)-Werten zu bestimmen. Im Detail haben wir (sehr häufig) Stichproben vom gleichen Umfang gezogen, für den Fall, dass auf Populationsebene die \(H_0\) galt, und dann, pro Durchgang, die Mittelwertdifferenz \(D\) berechnet.
Dieses Vorgehen ist zunächst einfacher nachzuvollziehen, aber das Problem ist nun natürlich, dass wir in der Realität nur eine Studie bzw. Stichprobenziehung durchführen können und die Populationen auch nicht kennen, um die Wahrscheinlichkeit von \(D\)-Werten zu simulieren. Allerdings kann uns hier die Statistik helfen. Denn durch eine geringfügige Modifikation von \(D\) können wir, unter der Gültigkeit gewisser Annahmen, die Verteilung der entsprechenden Zufallsvariablen (bzw. Prüfgröße) exakt bestimmen. Hier kommt nun die Familie der t-Tests zum Einsatz.
Wir besprechen hier (zunächst) drei t-Tests:
Bei diesem \(t\)-Test haben wir folgende Ausgangslage: Die Fragestellung lautet “Unterscheiden sich die Erwartungswerte zweier Populationen \(A\) und \(B\)”? Als Daten zur Beantwortung liegen uns Werte von zwei Stichproben aus den Population \(A\) und \(B\) vom Umfang \(n_A\) bzw. \(n_B\) vor.
Damit die folgenden mathematischen Ableitungen zur Bestimmung einer Prüfgröße ihre Richtigkeit haben, müssen einige Voraussetzungen gelten bzw. als gültig angenommen werden:
Diese Voraussetzungen sind nicht unbedingt überprüfbar, das Erfülltsein wird angenommen. Die Annahmen können aber theoretisch und empirisch auf Plausibilität geprüft werden.
Im Folgenden wollen wir nun die mathematischen Grundlagen und das Vorgehen beim t-Test für zwei unabhängige Stichproben anhand einer gerichteten Alternativhypothese betrachten. Später werden wir das Vorgehen auf eine ungerichtete Alternativhypothese und andere Arten des t-Tests erweitern.
Der Ausgangspunkt eines gerichteten Hypothesentests ist ein Hypothesenpaar der Art \[H_0:\mu_A\leq\mu_B \; \text{ und } \; H_1:\mu_A>\mu_B,\] bei der die Alternativhypothese eine “größer”- (oder “kleiner”-) Relation und die Nullhypothese entsprechend eine “kleiner-gleich”- (oder “größer-gleich”-) Relation beinhaltet. Um den Bezug zu unserer Teststatistik besser herzustellen, lohnt es sich zu beachten, dass die beiden Hypothesen auch geschrieben werden können als: \[H_0:\mu_A-\mu_B\leq0\; \text{ und } \;H_1:\mu_A-\mu_B>0\] Das heißt, unter der Nullhypothese ist die Differenz der Populationserwartungswerte kleiner/gleich \(0\) und unter der Alternativhypothese größer \(0\).
Liegen nun Werte von zwei Stichproben aus den Populationen \(A\) und \(B\) vor, bietet es sich an, die Differenz der Erwartungswerte \(\mu_A-\mu_B\) durch die Differenz der Mittelwerte \(D=M_A-M_B\) zu schätzen, da diese in der Tat ein erwartungstreuer Schätzer ist: \[E(\boldsymbol{M_A}-\boldsymbol{M_B})=E(\boldsymbol{M_A})-E(\boldsymbol{M_B})=\mu_A-\mu_B\] Auf lange Sicht werden die empirischen Mittelwertdifferenzen also der wahren Erwartungswertdifferenz im Mittel entsprechen.
Das Problem ist nun aber, dass die Verteilung der Mittelwertdifferenzen (aufgefasst als Zufallsvariable) \(\boldsymbol{D} = \boldsymbol{M_A}-\boldsymbol{M_B}\) nicht ganz klar ist, da die Verteilung noch von der Varianz der Ursprungsvariablen abhängt. Abhilfe schafft allerdings der t-Bruch.
Als den \(t\)-Bruch bezeichnen wir im Allgemeinen folgende Größe: \[t=\frac{T-\tau_0}{SE_T}\]
Im hier behandelten Zweistichprobenfall möchten wir nun testen, ob die Differenz der Erwartungswerte der Populationen, aus denen die Stichproben stammen, \(0\) ist. Passt man vor diesem Hintergrund den allgemeinen \(t\)-Bruch an den Fall des \(t\)-Tests für zwei Stichproben an, so erhalten wir: \[t=\frac{(M_A-M_B)-0}{SE_{M_A-M_B}}\] Im Zähler steht hierbei die Mittelwertdifferenz der beiden Stichproben, welche gegen die Erwartungswertdifferenz von \(0\) getestet wird (vgl. die Gleichheitsbeziehung in der \(H_0: \mu_A - \mu_B \leq 0\)). Im Nenner steht der geschätzte Standardfehler (also die geschätzte Standardabweichung) der Mittelwertdifferenz, den wir bisher noch nicht kennen. Im Folgenden bestimmen wir daher nun einen entsprechenden Schätzer.
Wegen der vorausgesetzten Unabhängigkeit der Stichproben gilt auf Populationsebene: \[\sigma^2_{\boldsymbol{M_A}-\boldsymbol{M_B}}=\sigma^2_{\boldsymbol{M_A}}+\sigma^2_{\boldsymbol{M_B}}-2\cdot\text{Kov}(\boldsymbol{M_A},\boldsymbol{M_B})=\sigma^2_{\boldsymbol{M_A}}+\sigma^2_{\boldsymbol{M_B}}\]
Die Varianz der Mittelwertdifferenz auf Populationsebene ist also die Summe der beiden Varianzen der Mittelwerte. Die Varianz der Mittelwerte wiederum kennen wir schon, nämlich \(\frac{\sigma_A^2}{n}\) bzw. \(\frac{\sigma_B^2}{n}\).
Unter der Annhame, dass die Varianz in beiden Populationen identisch ist, also \(\sigma^2_A=\sigma^2_B=\sigma^2\), folgt somit: \[\sigma^2_{\boldsymbol{M_A}-\boldsymbol{M_B}}=\sigma^2_{\boldsymbol{M_A}}+\sigma^2_{\boldsymbol{M_B}}=\frac{\sigma_A^2}{n_A}+\frac{\sigma_B^2}{n_B} = \frac{\sigma^2}{n_A}+\frac{\sigma^2}{n_B}=\sigma^2\left(\frac{1}{n_A} +\frac{1}{n_B} \right)\] Um also die Varianz der Mittelwertdifferenz (und damit auch die Standardabweichung bzw. den Standardfehler) auf Basis unserer Stichprobe zu schätzen, benötigen wir einen Schätzer für \(\sigma^2\): \[\hat \sigma^2_{M_A-M_B} = \hat \sigma^2\left(\frac{1}{n_A} +\frac{1}{n_B} \right)\]
Da wir davon ausgehen, dass die Varianzen der Populationen identisch sind, sind also beide Varianzen Schätzer für die gleiche Populationsvarianz. Es bietet sich daher an, diese gemeinsame Varianz durch ein gewichtetes Mittel der (korrigierten) Varianzen beider Stichproben zu schätzen: \[\hat{\sigma}^2=\frac{(n_A-1)\hat{S}^2_A+(n_B-1)\hat{S}^2_B}{n_A+n_B-2}\] Zusammengesetzt ergibt sich also als Schätzer der Varianz der Mittelwertdifferenz: \[\hat \sigma^2_{M_A-M_B} = \frac{(n_A-1)\hat{S}^2_A+(n_B-1)\hat{S}^2_B}{n_A+n_B-2}\cdot \left(\frac{1}{n_A} +\frac{1}{n_B} \right) \] und die Wurzel daraus ist der geschätzte Standardfehler (bzw. die Standardabweichung) der Mittelwertdifferenz:
\[SE_{M_A-M_B} = \sqrt{\hat \sigma^2_{M_A-M_B}} =\sqrt{\frac{(n_A-1)\hat{S}^2_A+(n_B-1)\hat{S}^2_B}{n_A+n_B-2}\cdot \left(\frac{1}{n_A} +\frac{1}{n_B} \right)} \]
Damit können wir nun final den t-Bruch für zwei unabhängige Stichproben schreiben als: \[t=\frac{M_A-M_B}{\sqrt{\frac{(n_A-1)\hat{S}^2_A+(n_B-1)\hat{S}^2_B}{n_A+n_B-2}}\cdot\sqrt{\frac{1}{n_A} +\frac{1}{n_B}}} = \frac{M_A-M_B}{\sqrt{\frac{n_A{S}^2_A+n_B{S}^2_B}{n_A+n_B-2}}\cdot\sqrt{\frac{1}{n_A} +\frac{1}{n_B}}}\] Sind beide Stichproben gleich groß, also wenn \(n_A=n_B=n\), dann vereinfacht sich der Bruch weiter zu: \[t=\frac{M_A-M_B}{\sqrt{\frac{\hat{S}^2_A+\hat{S}^2_B}{n}}}\]
Dieser nun hergeleitete \(t\)-Bruch besitzt zwei wichtige Eigenschaften, die ihn als Prüfgröße qualifizieren:
Dies ist eine fundamentale Eigenschaft, denn sie gibt an, dass wir unter der \(H_0\) und unter der Gültigkeit unserer Voraussetzungen die Verteilung der Prüfgröße exakt kennen. Wir benötigen also keine Simulation mehr! Die \(t\)-Verteilung bildet damit die Grundlage unserer Entscheidungslogik.
Die zentrale \(t\)-Verteilung wird im Folgenden die Grundlage aller Signifikanztests bilden. Sie ist eine Dichtefunktion einer stetigen Zufallsvariable und besitzt einen Parameter, welcher Freiheitsgrade (engl. , degrees of freedom, df) genannt wird. Sie ist glockenförmig und symmetrisch um \(0\) verteilt und sieht optisch der (Standard-)Normalverteilung sehr ähnlich. Die folgende Abbildung stellt einige Beispiele für zentrale \(t\)-Verteilungen mit \(m\)-vielen Freiheitsgraden dar:
Merkmale von t-Verteilungen mit m Freiheitsgraden sind:
Anmerkung: Warum heißt es eigentlich “zentrale” t-Verteilung? Wir werden später noch eine “nonzentrale” t-Verteilung kennenlernen (siehe Teil 14) und eigentlich hat die t-Verteilung zwei Parameter: (1) die Freiheitsgrade und (2) den Nonzentralitätsparameter. Letzterer ist bei der zentralen t-Verteilung aber \(0\) (weshalb die Verteilung um \(0\) zentriert ist).
Eine weitere naheliegende Frage ist nun, warum der t-Bruch eigentlich \(t\)-verteilt ist. Die formale Begründung können wir hier leider nicht liefern, da sie fortgeschrittene Konzepte verlangt, die wir nicht behandeln können. Wir können uns allerdings zumindest eine “oberflächlichere” Begründung ansehen.
Formal lässt sich eine t-Verteilung mit \(m\) Freiheitsgraden definieren als: \[\boldsymbol{t}\equiv \frac{\boldsymbol{Z}}{\sqrt{\frac{\boldsymbol{C}}{m}}}\] wobei \(\boldsymbol{Z}\sim N(0,1)\), also standardnormal-verteilt, und \(\boldsymbol{C}\sim\chi^2_m\), also \(\chi^2\)-verteilt mit \(m\) Freiheitsgraden, seien.
Der t-Bruch war definiert als: \[t=\frac{M_A-M_B}{\sqrt{\frac{(n_A-1)\hat{S}^2_A+(n_B-1)\hat{S}^2_B}{n_A+n_B-2}}\cdot\sqrt{\frac{1}{n_A} +\frac{1}{n_B}}}\]
Da wir davon ausgehen, dass das betrachtete Merkmal in der Population normalverteilt ist, steht im Zähler also etwas normalverteiltes. Im Nenner steht eine Varianzschätzung, welche ihrerseits \(\chi^2\)-verteilt ist. Wir teilen also in gewisser Weise eine normalverteilte Zufallsvariable durch die Wurzel einer \(\chi^2\)-Verteilung (die an ihren Freiheitsgraden relativiert wurde). Das Ergebnis ist dann am Ende \(t\)-verteilt.
Wir wissen also nun, dass die Prüfgröße t (zentral) t-verteilt ist, wenn die Nullhypothese in der Population gilt.
Erinnern Sie sich nun an die Simulation aus Teil 11. Hier haben wir aus einer gedachten Population sehr viele Stichproben gezogen und die relative Häufigkeit der “empirischen” Differenzwerte betrachtet:
\(D_\text{krit}=3.0\) war der Wert, rechts von dem noch 5% der Mittelwertdifferenzen liegen. Erhalten wir \(D\geq D_\text{krit}\) zweifeln wir an der Annahme der \(H_0\) und entscheiden uns stattdessen für die \(H_1\). Zur Erinnerung: Die ausformulierte Entscheidungsregel lautete:
“Wenn \(D\geq D_\text{krit}\) ist, dann tritt der \(D\)-Wert (bzw. ein noch größerer) so selten auf, wenn die \(H_0\) gelten würde, dass wir an dieser Annahme Zweifel haben. Wir entscheiden uns daher für die \(H_1\).”
Die gleiche Idee wenden wir nun auf eine t-Verteilung an: Wir suchen einen Wert \(t_\text{krit}\), rechts von dem noch 5% der Fläche unter der Dichtefunktion liegen:
In anderen Worten: Wir suchen einen Wert \(t_\text{krit}\), sodass das Integral von \(t_\text{krit}\) bis unendlich \(0.05\) ergibt: \[\int_{t_\text{krit}}^{+\infty}f(x)dx=0.05 \text{, wobei }f(x)\small{\text{ die Dichtefunktion der }t\text{-Verteilung ist}}\] Dieser Wert ist das \((1-\alpha)\cdot100\%\)-Quantil der t-Verteilung mit \(m\) Freiheitsgraden (vgl. auch die Berechnung der Quantile bei der Normalverteilung in Teil 9): \[t_\text{krit}=t_{m;1-\alpha}\] In der oberen Abbildung berechnet sich dieses Quantil als \(t_\text{krit} = 1.72\). Dies bedeutet nun, ganz analog zu den Überlegungen aus Teil 11:
Damit lautet die Entscheidungsregel für den t-Test:
“Wenn \(t\geq t_\text{krit}\) ist, dann tritt der t-Wert (bzw. ein noch größerer) so selten auf, wenn die \(H_0\) gelten würde, dass wir an dieser Annahme Zweifel haben. Wir entscheiden uns daher für die \(H_1\).”
Zur Berechnung des kritischen t-Wertes benötigen wir die Verteilungsfunktion. Genauer gesagt suchen wir den Wert \(t\), für den die Verteilungsfunktion den Wert \(F(t) = 0.95\) annimmt, sodass ein Anteil von \(0.05\) (bzw. \(5\%\)) der t-Werte “rechts” vom kritischen t-Wert liegen und ein Anteil von \(0.95\) (oder \(95\%\)) “links” liegt. Ähnlich wie bei der Normalverteilung ist die Verteilungsfunktion einer t-Verteilung aber leider sehr unhandlich. Zur praktischen Berechnung des gesuchten kritischen \(t\)-Wertes können zum einen Tabellen mit einer vorgefertigten Auflistung von Quantilen helfen (z.B. von der entsprechenden Wikipedia-Seite):
Alternativ benutzt man R und die entsprechende Funktion
qt()
:
qt(p = 0.95, # welches Quantil?
df = 20) # Freiheitsgrade der t-Verteilung
## [1] 1.724718
Nun können wir an einem praktischen Beispiel die Durchführung eines t-Tests einmal durchgehen. Ein Forscher bzw. eine Forscherin hat die Frage, ob Werte in einem Konzentrationstest (\(0-10\)) höher nach einer Tasse Kaffee (\(A\)) als nach drei Tassen Kaffee (\(B\)) sind. Die Hypothese lautet, dass dies der Fall sei. Die Populationen \(A\) bzw. \(B\) sind somit alle denkbaren Personen, die eine bzw. drei Tassen Kaffee getrunken und im Anschluss den Konzentrationstest durchgeführt haben.
Unsere Nullhypothese beinhaltet die Möglichkeit, dass Population \(A\) die gleiche (oder eine schlechtere) Konzentrationsleistung besitzt als die Population \(B\). Die Alternativhypothese bildet das erwartete Ergebnis ab, dass die Population \(A\) eine höhere Konzentrationsleistung besitzt als Population \(B\): \[H_0:\mu_A\leq\mu_B\quad\; \text{ und } \;\quad H_1:\mu_A>\mu_B \quad \] Zur Beantwortung der Frage hat der Forscher bzw. die Forscherin nun je acht (freiwillige) Personen entweder eine oder drei Tassen Kaffee trinken und anschließend einen Konzentrationstest ausfüllen lassen.
Die folgende Tabelle stellt die dabei erhobenen Daten dar (mit \(n_A=n_B=n=8\)):
Da die Anzahl der Personen in beiden Stichproben gleich ist, können wir den t-Bruch für den Fall unabhängiger Stichproben in vereinfachter Form berechnen (vgl. Formel von oben): \[t=\frac{M_A-M_B}{\sqrt{\frac{\hat{S}^2_A+\hat{S}^2_B}{n}}}\] Eine Umsetzung der Formel “per Hand” in R ist leicht gemacht:
A <- c(7,8,6,7,9,10,6,9) # Werte von Stichprobe A
B <- c(4,5,6,3,4,5,6,10) # Werte von Stichprobe B
n <- 8 # Stichprobengröße (pro Gruppe)
zaehler <- mean(A) - mean(B)
nenner <- sqrt((var(A)+var(B)) / n)
t <- zaehler / nenner # t-Bruch
t
## [1] 2.582159
Der t-Wert lautet also \(2.58\), bringt uns allerdings alleine noch keine Entscheidung bezüglich der Hypothesen. Für eine Entscheidung müssen wir zusätzlich die Verteilung der t-Werte unter der \(H_0\) berücksichtigen und uns Fragen, ob der gefundene t-Wert von \(2.58\) (oder noch extremer Werte) hinreichend unplausibel ist. Unter der Nullhypothese sind wir davon ausgegangen, dass die Population \(A\) einen gleich großen (oder einen kleineren) Erwartungswert besitzt wie die Population \(B\). Wäre diese Hypothese korrekt, so würden wir erwarten, dass die empirische Mittelwertdifferenz \(M_A - M_B\), und damit der t-Bruch, entweder relativ klein oder negativ ausfällt. Im Umkehrschluss gilt also, dass große t-Werte gegen unsere Nullhypothese bzw. für unsere Alternativhypothese sprechen!
Doch ab wann gilt ein t-Wert als “hinreichend” groß? Bei einem einseitigen Test mit Signifikanzniveau von \(\alpha = 0.05\), berechnen wir nun den kritischen t-Wert, also das 95%-Quantil (\(= (1-\alpha)\cdot 100\%\)) der t-Verteilung mit \(n_A + n_B - 2 = 14\) Freiheitsgraden:
qt(p = 0.95, # 95% Quantil
df = 14) # df = Freiheitsgrade = nA + nB - 2 = 14
## [1] 1.76131
Bevor Sie weiterlesen, denken Sie nun kurz nach, was dieser Wert bedeutet und wie Sie sich vor diesem Hintergrund entscheiden? Fällt die Entscheidung für die \(H_0\) oder für die \(H_1\) aus?
Antwort: Der kritische t-Wert \(t_{14; \;0.95} = 1.76\) bedeutet, dass wenn die Nullyhpothese gilt und die eingangs gemachten Voraussetzungen gelten, wir in (mindestens) 95% der Fälle einen t-Wert von \(1.76\) oder kleiner finden. Oder andersherum: Wir werden nur in maximal 5% der Fälle einen t-Wert größer als \(1.76\) finden. Hieraus können wir folgern, dass ein empirischer t-Wert von \(2.58\) unter Gültigkeit der Nullhypothese so selten auftritt, dass wir an der Plausibilität der Nullhypothese zweifeln und somit von der Gültigkeit der Alternativhypothese ausgehen. Wir gehen also davon aus, dass die Konzentrationsleistung nach einer Tasse Kaffee höher als nach drei Tassen Kaffee ist.
In Teil 11 hatten wir auch schon eine “alternative” Entscheidungsregel kennengelernt: die Berechung eines p-Wertes. In allen Fällen werden beide Entscheidungsregeln aber zur gleichen Entscheidung führen. In Teil 11 hatten wir den empirischen Wert einer einfachen Mittelwertdifferenz betrachtet (hier \(D=3.5\)) und diesen Wert vor dem Hintergrund aller denkbaren \(D\)-Werte unter der \(H_0\) betrachtet:
Der p-Wert war dabei die “Wahrscheinlichkeit”, einen Wert von \(D = 3.5\) oder größer zu finden, wenn in Wahrheit die \(H_0\) gilt. In der Simulation kamen Werte von \(D\geq 3.5\) nur mit einer Wahrscheinlichkeit von etwa \(p=0.0192\) vor. Die Entscheidungsregel lautete:
“Wenn \(p\leq\alpha\) ist, dann tritt der \(D\)-Wert bzw. ein noch größerer \(D\)-Wert so selten auf, wenn die \(H_0\) gelten würde, dass wir an dieser Annahme Zweifel haben. Wir entscheiden uns daher für die \(H_1\).”
Da hier \(p = 0.0192\) also kleiner ist als unser (typisches) \(\alpha\)-Niveau von \(\alpha = 0.05\), haben wir hinreichend Zweifel an der Nullhypothese und entscheiden uns für die Alternativhypothese.
Nun wenden wir die gleiche Logik auf die Familie der t-Tests an. Der berechnete empirische t-Wert aus dem Beispiel des letzten Abschnittes war \(t=2.582\). Der p-Wert ist nun die Wahrscheinlichkeit, einen solchen t-Wert oder noch extremer (da solche t-Werte umso mehr gegen die \(H_0\) sprechen) unter der Nullhypothese zu erhalten. Mathematisch entspricht dies der Fläche unter der (zentralen) t-Verteilung von \(2.582\) bis unendlich, die in der folgenden Abbildung in rot eingezeichnet ist:
In einer Formel ausgedrückt entspricht der p-Wert dem Integral von \(2.582\) bis \(+\infty\) der t-Verteilung,
\[p=\int^{+\infty}_{2.582}f(x)dx \quad \] wobei \(f(x)\) die Dichtefunktion der t-Verteilung mit \(n_A-n_B-2\) Freiheitsgraden ist.
Bedenkt man nun, dass (a) das Integral von \(-\infty\) bis \(2.582\) dem Wert auf der Verteilungsfunktion \(F(x)\) zu \(x = 2.582\) entspricht, und dass (b) das Integral von \(-\infty\) bis \(+\infty\) genau \(1\) ergeben muss, so können wir den p-Wert hier auch ausdrücken als:
\[p=\int^{+\infty}_{2.582}f(x)dx =
\int^{+\infty}_{-\infty}f(x)dx - \int^{2.582}_{-\infty}f(x)dx = 1 -
F(2.582)\] Auch wenn dies intuitiv etwas umständlich erscheint,
hat diese Ausdrucksweise den Vorteil, dass wir nicht selbst ein Integral
rechnen müssen. Stattdessen können wir auf die in R implementierte
Verteilungsfunktion der t-Verteilung pt()
zurückgreifen:
# pt = Verteilungsfunktion der t-Verteilung
pt(q = 2.582, # berechnet die Fläche bis zu 2.582...
df = 14) # ...unter der t-Verteilung mit 14 Freiheitsgraden (= F(2.582))
## [1] 0.9891376
1 - pt(q = 2.582, # berechnet die Fläche ab 2.582...
df = 14) # unter der t-Verteilung mit 14 Freiheitsgraden, also p
## [1] 0.01086239
Tatsächlich verfügen die Verteilungsfunktionen von R mit dem
Parameter lower.tail = FALSE
auch über eine Möglichkeit,
direkt die Fläche ab dem fraglichen Wert zu berechnen:
pt(q = 2.582, # berechnet die Fläche ab 2.582...
df = 14, # unter der t-Verteilung mit 14 Freiheitsgraden, also p, ...
lower.tail = FALSE) # ...wenn lower.tail = FALSE gesetzt wird
## [1] 0.01086239
Wir haben somit berechnet, dass \(t\geq 2.582\) nur mit einer Wahrscheinlichkeit von etwa \(p\approx0.011\) vorkommt. Unsere (angepasste) Entscheidungsregel für den t-Test lautet somit:
“Wenn \(p\leq\alpha\) ist, dann tritt der t-Wert bzw. ein noch größerer t-Wert so selten auf, wenn die \(H_0\) gelten würde, dass wir an dieser Annahme Zweifel haben. Wir entscheiden uns daher für die \(H_1\).”
Da hier der p-Wert von \(\approx0.011\) kleiner ist als unser (typisches) \(\alpha=0.05\), verwerfen wir die \(H_0\) und entscheiden uns stattdessen für die \(H_1\).
Wichtige Anmerkungen:
Bisher sind wir immer davon ausgegangen, eine gerichtete Alternativhypothese formulieren zu können: \[H_0:\mu_A\leq\mu_B\; \text{ und } \;H_1:\mu_A>\mu_B\] Wenn es hierfür theoretische Gründe gibt, ist es sinnvoll eine solche “spezifischere” Hypothese zu formulieren. Berechnet man den t-Bruch mit \(M_A - M_B\) im Zähler, so sprechen besonders große positive Werte für die Alternativhypothese bzw. gegen die Nullhypothese. Wir haben daher den kritischen t-Wert so bestimmt, dass dieser \(\alpha\cdot 100\%\) der \(t\)-Verteilung am “rechten Ende abschneidet”. In anderen Worten: Der kritische t-Wert gab an, ab wann große positive t-Werte hinreichend selten auftreten (nämlich i.d.R. in maximal \(\alpha\cdot 100\%\) der Fälle).
Oft aber werden ungerichtete Alternativhypothesen formuliert, d.h. es wird “irgendein” Unterschied angenommen: \[H_0:\mu_A=\mu_B\; \text{ und } \;H_1:\mu_A\neq\mu_B\] In diesem Fall sprechen gegen die Nullhypothese nicht nur besonders große positive Werte, sondern auch besonders große negative Werte. Die Entscheidungslogik bei einem ungerichteten Hypothesentest ist dabei aber sehr ähnlich zu der im Falle einer gerichteten Hypothese. Allerdings müssen nun “beide Seiten” der t-Verteilung als Grundlage der Entscheidung herangezogen werden, da ja sowohl sehr große positive, als auch sehr große negative Werte, gegen die Nullhypothese sprechen.
Dies bedeutet nun konkret, dass bei \(\alpha=0.05\) die Gesamtfläche an beiden Enden der Verteilung zusammen \(5\%\) ergeben muss. Das heißt auch, dass es zwei kritische t-Werte gibt, die jeweils \(2.5\%\) der Fläche abschneiden. Dies ist hier im Beispiel einer \(t\)-Verteilung mit 20 Freiheitsgraden visualisiert:
Die beiden kritischen Werte geben zwei Grenzen an, ab denen t-Werte unter der \(H_0\) nur noch selten auftreten (hier in rot gekennzeichnet) und damit ab wann t-Werte gegen die \(H_0: \mu_A = \mu_B\) sprechen.
Die beiden kritischen Werte sind also 2 Quantile, das\(\frac{\alpha}{2}\)-Quantil und das \(1-\frac{\alpha}{2}\)-Quantil der t-Verteilung mit \(m\) Freiheitsgraden: \[-t_\text{krit}=t_{m;\frac{\alpha}{2}}\hspace{0.5cm}\text{und}\hspace{0.5cm}t_\text{krit}=t_{m;1-\frac{\alpha}{2}}\] Bei \(\alpha = 0.05\), entsprechen diese beiden Quantile also dem \(2.5\%\) bzw. \(97.5\%\) Quantil. Darauf basierend können wir nun eine Entscheidungsregel formulieren als:
“Wenn \(t\leq -t_\text{krit}\) oder \(t\geq t_\text{krit}\) ist, dann tritt der t-Wert (bzw. ein noch größerer) so selten auf, wenn die \(H_0\) gelten würde, dass wir an deren Gültigkeit Zweifel haben. Wir entscheiden uns daher für die \(H_1\).”
Diese Regel kann aufgrund der Symmetrie der t-Verteilung sogar etwas vereinfacht werden. Denn tatsächlich sind \(-t_\text{krit}\) und \(t_\text{krit}\) betragsmäßig identisch. Der Wert, der links \((\frac{\alpha}{2})\cdot 100\%\) der Fläche abschneidet, ist betragsmäßig identisch zu dem Wert, der rechts \((1-\frac{\alpha}{2})\cdot 100\%\) der Fläche abschneidet (vgl. hierzu die letzte Abbildung). Die verkürzte Regel lautet daher:
“Wenn \(|t|\geq |t_\text{krit}|\), dann tritt der t-Wert (bzw. ein noch größerer) so selten auf, wenn die \(H_0\) gelten würde, dass wir an dieser Annahme Zweifel haben. Wir entscheiden uns daher für die \(H_1\).”
Der p-Wert berechnet sich i.W. identisch zum Fall einer gerichteten Alternativhypothese, nur dass beide Seiten der t-Verteilung berücksichtigt werden müssen. Das heißt, wir müssen die Fläche links von \(-|t|\) und rechts von \(|t|\) einbeziehen: \[p=\int_{-\infty}^{-|t|}f(x)dx + \int_{|t|}^{+\infty}f(x)dx\] Liegt also bspw. ein t-Wert von \(t=2.582\) vor, so errechnet sich der p-Wert als die Fläche von \(2.582\) bis \(\infty\) plus die Fläche von \(-\infty\) bis \(-2.582\):
# pt = Verteilungsfunktion der t-Verteilung
p_1 <- pt(q = -2.582, # Fläche von minus unendlich bis -2.582
df = 14)
p_2 <- 1 - pt(q = 2.582, # Fläche von 2.582 bis unendlich
df = 14)
p <- p_1 + p_2
p
## [1] 0.02172477
Aufgrund der Symmetrie der t-Verteilung sind beide
Flächenanteile p1
und p2
allerdings gleich
groß und die Berechnung mit R kann etwas vereinfacht werden:
2*(1 - pt(q = 2.582, # 2 mal von 2.582 bis unendlich
df = 14))
## [1] 0.02172477
2*(pt(q = -2.582, # oder 2 mal von minus unendlich bis -2.582
df = 14))
## [1] 0.02172477
Anmerkung: Hieraus folgt auch, dass der p-Wert eines einseitigen t-Tests halb so groß ist wie der p-Wert eines zweiseitigen t-Tests zum gleichen t-Wert (insofern der t-Wert im Vorzeichen nicht sowieso schon gegen die gerichtete \(H_1\) spricht). Vergleichen Sie hierfür einmal den p-Wert des zweiseitigen und des einseitigen Tests zum oberen Beispiel mit einem t-Wert von \(t = 2.582\):
2*(1 - pt(q = 2.582, # zweiseitig
df = 14))
## [1] 0.02172477
1 - pt(q = 2.582, # einseitig
df = 14)
## [1] 0.01086239
Zu Beginn dieses Abschnitts haben wir folgende Voraussetzungen gemacht:
Diese Voraussetzungen haben wir vor allem zur Begründung des t-Bruches und dessen Verteilung benötigt. Was passiert allerdings, wenn diese Voraussetzungen verletzt sind? Das heißt, was passiert wenn die untersuchten Stichproben bzw. Populationen in Wahrheit nicht diese Voraussetzungen erfüllen? Dann haben wir schlichtweg das Problem, dass die Verteilung nicht mehr exakt einer t-Verteilung entspricht. Die empirischen t-Werte mögen zwar einer bestimmten Verteilung folgen auf lange Sicht, aber wir kennen diese Verteilung nicht mehr. Ignorieren wir diese Verletzungen und basieren wir dennoch unsere Entscheidung auf der theoretischen t-Verteilung (welche in Wahrheit aber dann nicht stimmt), so stimmen das vorgegebene und das reale \(\alpha\)-Niveau nicht mehr überein. Es kann also sein, dass wir in mehr oder auch in weniger Fällen die \(H_0\) verwerfen, als wir es eigentlich mit dem festgelegten \(\alpha\) wollen.
Verwerfen wir die \(H_0\) in weniger als \(\alpha\cdot 100\%\) der Fälle, so sagt man, der Test sei konservativ (man entscheide sich ja dann nur noch sehr selten gegen die \(H_0\)). Verwerfen wir die \(H_0\) aber in mehr als \(\alpha\cdot 100\%\) der Fälle, so sagt man, der Test sei liberal (man entscheidet sich dann ja sehr häufig gegen die \(H_0\)). Gerade ein liberaler Test wird häufig als ungünstig angesehen, denn er führt häufiger zu einem signifikanten Ergebnis, als er es dürfte; das heißt, wir treffen mehr Fehlentscheidungen als eigentlich gedacht, wenn in Wahrheit die \(H_0\) gilt.
In der Realität wissen wir natürlich nie, ob die Voraussetzungen erfüllt sind oder nicht, und ob unser Test ggf. zu liberal oder zu konservativ ist. Man kann und sollte aber dennoch versuchen, die Annahmen auf Plausibilität zu überprüfen bzw. versuchen sicherzustellen, dass diese gegeben sind. Glücklicherweise sind leichte Verletzungen der Annahmen allerdings häufig vertretbar:
Eine Shiny-App, mit deren Hilfe die Auswirkungen einer Verletzung der Varianzhomogenität selber erforscht werden können, findet sich hier.
Wenn die Voraussetzung der Varianzhomogenität verletzt ist, so kann eine Abwandlung des klassischen t-Tests verwendet werden, der sogenannte Welch-Test. Im Falle einer verletzten Varianzhomogenität ist eine gemeinsame Varianzschätzung nicht mehr sinnvoll, sodass der Nenner des klassischen t-Tests leicht umformuliert werden muss: \[t=\frac{M_A-M_B}{\sqrt{\frac{\hat{S}^2_A}{n_A}+\frac{\hat{S}^2_B}{n_B}}}\] Auch müssen angepasste Freiheitsgrade verwendet werden, die sich nach folgender Formel berechnen (manchmal abgerundet auf die nächstkleinere Zahl): \[df_\text{corrected}=\frac{1}{\frac{c^2}{n_A-1}+\frac{(1-c)^2}{n_B-1}}\quad\text{ mit }\quad c=\frac{\frac{\hat{S}^2_A}{n_A}}{\frac{\hat{S}^2_A}{n_A}+\frac{\hat{S}^2_B}{n_B}}\]
Die Entscheidungsregeln gelten allerdings analog und basieren weiterhin auf der t-Verteilung (nur eben mit den nach unten korrigierten Freiheitsgraden).
Ob Varianzhomogenität gegeben ist oder nicht, kann man natürlich nie
mit absoluter Sicherheit wissen. Man kann sich aber durchaus die
empirischen Varianzen anschauen. Wenn sich diese deutlich unterscheiden,
gibt es auch einen Signifikanztest, der zwei Varianzen auf
(Un-)Gleichheit überprüft, den Levene-Test. Das
Hypothesenpaar des Levene-Tests lautet: \[H_0:\sigma^2_A=\sigma^2_B\hspace{0.5cm}\; \text{
und } \;\hspace{0.5cm}H_1:\sigma^2_A\neq\sigma^2_B\] Das heißt,
wenn dieser Test signifikant wird (“\(p\leq\alpha\)”) und die Entscheidung für
die \(H_1\) ausfällt, dann gehen wir
von Varianzheterogenität aus und verwenden entsprechend den
Welch-Test. Die praktische Berechnung mit R erfolgt mit der Funktion
leveneTest()
aus dem Paket car
, wie wir im
folgenden Beispiel zeigen werden.
Einer Theorie zufolge soll eine bestimmte Förderung die Aufmerksamkeit von Kindern erhöhen, im Vergleich zu Kindern ohne diese Förderung.
Es gibt also zwei Populationen:
Da wir davon ausgehen, dass die Population \(A\) einen höheren Erwartungswert hat als die Population \(B\), lautet das gerichtete Hypothesenpaar: \[H_0: \mu_A \leq \mu_B\hspace{0.5cm}\; \text{ und } \;\hspace{0.5cm}H_1: \mu_A>\mu_B\] Wir setzen \(\alpha=0.05\) als Signifikanzniveau fest.
In einer konkreten Studie würde man nun eine Stichprobe von Kindern ziehen und ihnen die Förderung zuteil werden lassen (Gruppe \(A\)). Zum Vergleich wird eine (möglichst ähnliche) Stichprobe von Kindern gezogen, die die Förderung nicht erhält (Gruppe \(B\)). Jedes Kind erzielt dabei einen Wert in einem Konzentrationstest (der fiktiv zwischen \(0\) und \(200\) liegen kann):
Die Daten können wir in Form eines DataFrames namens
daten
in R manuell erstellen:
A <- c(110,128,98,112,113,106,106,138,115,116) # Werte Gruppe A
B <- c(104,88,105,96,95,115,98,113,98,113) # Werte Gruppe B
konzentrationswert <- c(A,B) # zusammenfassen zu einem Vektor
vp <- c(1:20) # Vektor mit Versuchsperson-ID
gruppe <- rep(c("A","B"), each = 10) # Vektor für Gruppenzugehörigkeit
daten <- data.frame(vp, gruppe, konzentrationswert) # zusammenfassen zu DataFrame daten
head(daten)
tail(daten)
Wir gehen nun von Normalverteilung in der Population und
Intervallskalenniveau des gemessenen Merkmals aus, wollen aber mit Hilfe
des Levene-Tests testen, ob Varianzhomogenität vorliegt. Hierfür laden
wir zuerst das Paket car
und wandeln die
Gruppierungsvariable gruppe
in einen Faktor um.
Anschließend rufen wir die Funktion leveneTest()
auf, wobei
wir das Argument center = "mean"
setzen:
library(car) # leveneTest ist Teil des package 'car'
## Lade nötiges Paket: carData
daten$gruppe <- as.factor(daten$gruppe) # streng genommen ist dies ein sog. Faktor
leveneTest(y = daten$konzentrationswert, # abhängige Variable
group = daten$gruppe, # unabhängige Variable
center = "mean") # "mean" für Original-Levene-Test
Ein alternativer Aufruf der Funktion in Modellschreibweise würde lauten:
leveneTest(konzentrationswert ~ gruppe,
data = daten,
center = "mean")
Relevant ist hier der p-Wert des Tests,
Pr(>F)=0.8494
. Da das Hypothesenpaar des Levene-Tests
\[H_0:\sigma^2_A=\sigma^2_B\hspace{0.5cm}\;
\text{ und } \;\hspace{0.5cm}H_1:\sigma^2_A\neq\sigma^2_B\]
lautet, gehen wir weiterhin von \(H_0\)
aus; wir nehmen also Varianzhomogenität an und berechnen den
standardmäßigen t-Test (also keinen Welch-Test). Zunächst
berechnen wir den t-Wert zur Demonstration quasi von Hand.
Beide Stichproben sind mit \(n=n_A=n_B=10\) gleich groß, sodass wir die
einfachere Formel für \(t\) verwenden
können:
n <- 10
zaehler <- mean(daten$konzentrationswert[daten$gruppe == "A"]) - # der Zähler ist die Differenz...
mean(daten$konzentrationswert[daten$gruppe == "B"]) # ...beider Mittelwerte
varA <- var(daten$konzentrationswert[daten$gruppe == "A"]) # var() = korrigierte Varianz!
varB <- var(daten$konzentrationswert[daten$gruppe == "B"]) # var() = korrigierte Varianz!
nenner <- sqrt((varA + varB)/n) # dann den Nenner berechnen...
t <- zaehler / nenner # ...und daraus dann den t-Bruch
t
## [1] 2.535701
Für eine Entscheidung benötigen wir noch den kritischen t-Wert. Da wir den Zähler des empirischen t-Wertes als \(M_A\) - \(M_B\) berechnet haben, sprechen große positive t-Werte gegen unsere Nullhypothese (vgl. \(H_0: \mu_A \leq \mu_B\;\;\text{bzw.}\;\;H_1: \mu_A>\mu_B\)). Der kritische t-Wert entspricht also dem \(95\%\)-Quantil der t-Verteilung mit \(n_A + n_B -2\) Freiheitsgraden, welcher am rechten Ende der Verteilung \(\alpha = 5\%\) der Fläche abschneidet:
t_krit <- qt(p = 0.95,
df = 18)
t_krit
## [1] 1.734064
Der empirische t-Wert von \(t = 2.54\) ist also größer als der kritische t-Wert von \(t_{0.95;18} = 1.73\). Der empirische t-Wert ist somit hinreichend unplausibel unter der \(H_0\), sodass wir Zweifel an der Gültigkeit der \(H_0\) haben und uns stattdessen für die \(H_1\) entscheiden.
Alternativ können wir natürlich auch den p-Wert berechnen. Dieser ergibt sich als Fläche von \(t=2.54\) bis \(+\infty\) (da ja große positive Werte gegen die \(H_0\) sprechen) unter der entsprechenden \(t\)-Verteilung:
1 - pt(q = t, # Fläche ab dem t-Wert
df = 18) # 10 + 10 -2 = 18 Freiheitsgrade
## [1] 0.01035462
Da \(p = 0.01\) kleiner ist als unser \(\alpha=0.05\), sind t-Werte so groß wie der empirische t-Wert oder noch extremer unter der \(H_0\) hinreichend selten, sodass wir Zweifel an der Gültigkeit der \(H_0\) haben. Wir entscheiden uns stattdessen für die \(H_1\).
Natürlich müssen wir den t-Test nicht “per Hand” berechnen,
sondern können auf die entsprechende R-Funktion t.test()
zurückgreifen. Wir verwenden zunächst eine Variante, bei der die Daten
beider Gruppen den Argumenten x
und y
als
Vektoren übergeben werden:
ergebnis <- t.test(x = daten$konzentrationswert[daten$gruppe == "A"], # Gruppe A
y = daten$konzentrationswert[daten$gruppe == "B"], # Gruppe B
var.equal = TRUE, # Varianzhomogenität angenommen
alternative = "greater") # H1: mu_A größer als mu_B
ergebnis
##
## Two Sample t-test
##
## data: daten$konzentrationswert[daten$gruppe == "A"] and daten$konzentrationswert[daten$gruppe == "B"]
## t = 2.5357, df = 18, p-value = 0.01035
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
## 3.698842 Inf
## sample estimates:
## mean of x mean of y
## 114.2 102.5
Übrigens ist beim Aufruf wichtig, explizit
var.equal = TRUE
zu setzen, da der Parameter standardmäßig
auf var.equal = FALSE
gesetzt ist und dann ein Welch-Test
berechnet wird. Eine alternative Möglichkeit bietet die Verwendung der
Modellsprache:
ergebnis <- t.test(konzentrationswert ~ gruppe, # k.-wert modelliert durch gruppe
data = daten, # welche Daten werden verwendet?
var.equal = TRUE, # Varianzhomogenität angenommen
alternative = "greater") # H1: mu_A größer als mu_B
ergebnis
##
## Two Sample t-test
##
## data: konzentrationswert by gruppe
## t = 2.5357, df = 18, p-value = 0.01035
## alternative hypothesis: true difference in means between group A and group B is greater than 0
## 95 percent confidence interval:
## 3.698842 Inf
## sample estimates:
## mean in group A mean in group B
## 114.2 102.5
Mit dem Argument alternative
können wir auch die
Alternativhypothese bestimmen. Wichtig ist aber, bei der Spezifikation
zu beachten, dass in die richtige Richtung getestet wird. Bei der
Verwendung der Formelschreibweise oder bei der Vertauschung von
x =
und y =
beim Funktionsaufruf kann es
nämlich durchaus leicht passieren, dass die Funktion
t.test()
nicht \(\mu_A >
\mu_B\) prüft, sondern den umgekehrten Fall! Es ist daher immer
sinnvoll, sich den Output von t.test()
genau anzusehen.
Dort findet sich nämlich eine genaue Info hierüber:
true difference in means between group A und group B is greater than 0
.
Hier wird also klar, dass, ganz wie von uns gewollt, \(\mu_A > \mu_B\) (bzw. \(\mu_A - \mu_B > 0\)) getestet wird.
Schließlich können wir das Ergebnis auch etwas schöner mit Hilfe der
Funktion t_out()
aus dem Paket schoRsch
ausgeben lassen. Das Paket schoRsch
bietet einige
Funktionen zur Formatierung von R-Outputs:
library(schoRsch)
t_out(ergebnis)
## Test Results
## 1 Two Sample t-test: t(18) = 2.54, p = .010, d = 1.13
Hierbei sind die Werte entsprechend der Vorgaben der APA formatiert worden:
t(18) = 2.54
: t-Wert, 18 Freiheitsgradep = .010
: p-Wertd = 1.13
: eine sogenannte Effektstärke, auf die wir in
Teil
14 noch zurück kommenIm vorherigen Abschnitt haben wir den t-Test für zwei unabhängige Stichproben kennengelernt, bei dem geprüft werden soll, ob zwei (unabhängige) Populationen den gleichen Erwartungswert haben. Der t-Test für eine Stichprobe bezieht sich hingegen nur auf eine Population, wobei hier geprüft werden soll, ob der Erwartungswert dieser Population von einem theoretischen Wert abweicht.
Die Fragestellung lautet also hier: Unterscheidet sich der Erwartungswert \(\mu\) einer Population von einem festen Wert \(\mu_0\)? Wir verdeutlichen dies an einem Beispiel: Es wurde angenommen, dass Kinder im Alter von 8 Jahren bei einem Konzentrationstest einen Wert von \(\mu_0 = 80\) erreichen (0-150 Punkte seien möglich). Eine neue Theorie sagt nun vorher, dass Kinder im Alter von 8 Jahren einen höheren Wert als 80 erreichen würden. Eine entsprechende Untersuchung würde also nun eine Stichprobe aus der Population der 8-jährigen Kinder ziehen und den Konzentrationstest bearbeiten lassen. Mittelwerte > 80 sprächen dann für die Vorhersage. Als Daten liegen uns die Werte einer Stichprobe vom Umfang \(n\) vor.
Ganz ähnlich wie auch bereits behandelten \(t\)-Test, stellen wir an den Anfang einige Voraussetzungen:
Auch diese Voraussetzungen sind nicht unbedingt überprüfbar, vielmehr wird das Erfülltsein oft einfach angenommen. Allerdings können auch diese Annahmen natürlich wieder auf Plausibilität geprüft werden.
Ausgangspunkt der folgenden Überlegungen ist ein gerichtetes Hypothesenpaar: \[H_0:\mu\leq\mu_0\; \text{ und } \;H_1:\mu>\mu_0\] Die Nullhypothese umfasst die Möglichkeit, dass der wahre Erwartungswert \(\mu\), der zu testenden Population, gleich (oder kleiner) ist, als ein theoretischer Wert \(\mu_0\). Der Wert \(\mu_0\) ist also derjenige Wert, auf den getestet werden soll. Im Beispiel war dieser Wert \(\mu_0=80\). Die Alternativhypothese spiegelt hingegen die alternative Vermutung wider, dass der wahre Erwartungswert \(\mu\) größer ist als \(\mu_0\).
Um die Prüfgröße herzuleiten, gehen wir wieder vom allgemeinen t-Bruch aus: \[t=\frac{T-\tau_0}{SE_T}\] Zur Erinnerung:
Der hier zu schätzende Parameter ist \(\mu\) und der entsprechende Punktschätzer ist der Mittelwert \(M\), sodass sich ergibt: \[t=\frac{M-\mu_0}{SE_M}\]
Wir brauchen nun noch einen Schätzer des Standardfehlers des Mittelwerts. Den Standardfehler des Mittelwerts kennen wir aber bereits auf Populationsebene: \[\sigma_\boldsymbol{M}=\frac{\sigma}{\sqrt{n}}\] Die Standardabweichung \(\sigma\) der Population können wir wiederum leicht durch die korrigierte Standardabweichung der Stichprobe, \(\hat S\), schätzen, sodass der geschätzte Standardfehler von \(M\) lautet: \[SE_M = \frac{\hat{S}}{\sqrt{n}}\] Eingesetzt in den t-Bruch ergibt sich abschließend als Formel für den t-Test für eine Stichprobe: \[t=\frac{M-\mu_0}{\frac{\hat{S}}{\sqrt{n}}}\]
Auch diesen t-Bruch können wir aus den Daten der Stichprobe berechnen und er erfüllt wieder die zwei wichtigen Eigenschaften einer Prüfgröße:
Damit können wir nun auf Basis einer Stichprobe vom Umfang \(n\) den dazugehörigen empirischen t-Wert berechnen. Die Entscheidung zwischen der \(H_0\) und der \(H_1\) erfolgt ganz analog zum Fall zweier unabhängiger Stichproben: entweder mit Hilfe eines kritischen t-Wertes oder mit Hilfe eines p-Wertes.
Entscheidungsregel 1 auf Basis eines t-Wertes: “Wenn \(t\geq t_\text{krit}=t_{m;1-\alpha}\) ist, dann tritt der t-Wert (bzw. ein noch größerer) so selten auf, wenn die \(H_0\) gelten würde, dass wir an dieser Annahme Zweifel haben. Wir entscheiden uns daher für die \(H_1\).”
Entscheidungsregel 2 auf Basis eines p-Wertes: “Wenn \(p\leq\alpha\) ist, dann tritt der t-Wert bzw. ein noch größerer t-Wert so selten auf, wenn die \(H_0\) gelten würde, dass wir an dieser Annahme Zweifel haben. Wir entscheiden uns daher für die \(H_1\).”
Abschließend führen wir anhand zweier Beispiele konkrete Berechnungen von Einstichproben-\(t\)-Tests durch.
In Beispiel 1 möchte jemand testen, ob es plausibel ist, dass der Erwartungswert einer bestimmten Population von 4 abweicht bzw. genauer, ob der Erwartungswert größer ist als 4.
Die Alternativhypothese bildet also diese Vermutung ab, während die Nullhypothese hingegen die Möglichkeit beinhaltet, dass die Population einen Erwartungswert kleiner oder gleich 4 hat: \[H_0:\mu\leq 4\hspace{0.5cm}\; \text{ und } \;\hspace{0.5cm}H_1:\mu>4\] Eine Entscheidung soll mit \(\alpha=0.05\) getroffen werden. Die erhobene Stichprobe hat einen Umfang von \(n=100\), einen Mittelwert von \(M=10\) sowie eine korrigierte Standardabweichung \(\hat{S}=7.5\). Bevor wir mit der Lösung fortfahren, versuchen Sie selbst die folgenden Fragen zu beantworten:
Da das Hypothesenpaar eine spezifische “größer/kleiner” Relation beinhaltet, handelt es sich hier um einen gerichteten Hypothesentest. Der empirische t-Wert ergibt sich unmittelbar, indem die gegebenen Werte in die Formel des t-Tests für eine Stichprobe eingesetzt werden: \[t=\frac{M-\mu_0}{\frac{\hat{S}}{\sqrt{n}}} = \frac{10-4}{\frac{7.5}{\sqrt{100}}} = 9.3\] Die Frage ist nun, ob dieser Wert groß genug ist um hinreichend Zweifel an der Nullhypothese zu haben. Hierzu bestimmen wir den kritischen t-Wert als \((1-\alpha)\cdot 100\% = 95\%\)-Quantil der entsprechenden t-Verteilung mit \(n-1= 99\) Freiheitsgraden.
qt(p = 0.95,
df = 99)
## [1] 1.660391
Dieser Wert gibt an, dass 95% der t-Werte kleiner oder gleich \(1.66\) sind, wenn in Wahrheit der Erwartungswert 4 wäre (wäre der Erwartungswert in Wahrheit noch kleiner, wäre die Prozentzahl natürlich noch höher). Da unser empirischer t-Wert von \(9.3\) deutlich größer ist als dieser kritische t-Wert, haben wir hinreichend Zweifel an der Nullhypothese und verwerfen diese. Wir entscheiden uns also für die \(H_1\) und gehen davon aus, dass der Erwartungswert der Population größer ist als 4.
Alternativ könnten wir natürlich auch einen p-Wert berechnen, um zu prüfen, wie wahrscheinlich der gefundene t-Wert (oder ein noch extremerer) unter der Nullhypothese ist:
1 - pt(9.3,
df = 99)
## [1] 1.776357e-15
Auch hier muss die Entscheidung für die Alternativhypothese ausfallen.
In Beispiel 2 wollen wir den t-Test nicht
per Hand berechnen, sondern die R-Funktion t.test()
nutzen.
Als Beispiel möchten wir die Hypothese testen, dass die Gruppe A aus dem
Beispiel für zwei unabhängige Stichproben aus einer Population mit einem
Konzentrationswert von mehr als 100 stammt: \[H_0:\mu\leq 100\hspace{0.5cm}\; \text{ und }
\;\hspace{0.5cm}H_1:\mu>100\] Die Umsetzung in R könnte
hierfür so aussehen:
daten_A <- subset(daten,
gruppe == "A") # Reduzieren des Datensatzes auf Gruppe A
ergebnis <- t.test(daten_A$konzentrationswert, # die Werte der Stichprobe
mu = 100, # H0: mu0 = 100 (oder kleiner)
alternative = "greater") # gerichtete H1: mu0 > 100
ergebnis # genuine R-Ausgabe
##
## One Sample t-test
##
## data: daten_A$konzentrationswert
## t = 3.919, df = 9, p-value = 0.001758
## alternative hypothesis: true mean is greater than 100
## 95 percent confidence interval:
## 107.5579 Inf
## sample estimates:
## mean of x
## 114.2
t_out(ergebnis) # formatiert mit schoRsch
## Test Results
## 1 One Sample t-test: t(9) = 3.92, p = .002, d = 1.24
##
## NOTE: Reporting unadjusted estimate for Cohen's d.
Der t-Test ist mit \(t(9) = 3.92\), \(p = .002\) statistisch signifikant (bei \(\alpha = 0.05\)), sodass wir an der Nullhypothese hinreichend Zweifel haben und uns stattdessen entscheiden, an die Alternativhypothese zu glauben. Das heißt, wir gehen davon aus, der Erwartungswert der Gruppe A bzgl. ihrer Konzentrationsleistung sei größer als 100.
Wie im Fall für den t-Test bei unabhängigen Stichproben, können wir auch beim t-Test für eine Stichprobe einen zweiseitigen Test durchführen. Zur Erinnerung: hier geht die Alternativhypothese nur von irgendeinem Unterschied aus, egal in welche Richtung dieser Unterschied dann gehen soll. In Anlehnung an das obere Beispiel 1, könnte eine ungerichtete Hypothese lauten: \[H_0:\mu= 4\hspace{0.5cm}\; \text{ und } \;\hspace{0.5cm}H_1:\mu\neq4\] Wir würden also in beide Richtungen prüfen, ob der Erwartungswert der Population größer oder kleiner ist als 4.
Die Logik beim zweiseitigen Hypothesentest ist dabei wieder identisch zum einseitigen Hypothesentest, mit dem Unterschied, dass wir unsere Nullhypothese sowohl verwerfen, wenn wir große positive, als auch wenn wir große negative Abweichungen vom Wert unter der Nullhypothese finden. Hierzu “teilen” wir unser Signifikanzniveau “auf beide Seiten” der t-Verteilung auf, sodass wir zwei kritische t-Werte erhalten. Einen auf der linken Seite der t-Verteilung, welcher angibt dass \((\frac{\alpha}{2})\cdot 100\%\) (i.d.R. 2.5%) der t-Werte unter der Nullhypothese kleiner sind als dieser Wert. Und einen auf der rechten Seite der t-Verteilung, welcher angibt dass \((1-\frac{\alpha}{2})\cdot 100\%\) (i.d.R. 2.5%) der t-Werte unter der Nullhypothese größer sind als dieser Wert (bzw. 97.5% kleiner sind als dieser Wert). Aufgrund der Symmetrie der t-Verteilung sind die beiden kritischen t-Werte wieder betragsmäßig gleich.
Bezogen auf unser Beispiel 1 mit \(n=100\) Werten und \(\alpha = 0.05\) ergäben sich die kritischen t-Werte:
qt(p = 0.025, # untere bzw. "linke" Grenze
df = 99)
## [1] -1.984217
qt(p = 0.975, # obere bzw. "rechte" Grenze
df = 99)
## [1] 1.984217
Befiindet sich nun ein empirischer t-Werte unterhalb der unteren Grenze bzw. oberhalb der oberen Grenze, so ist ein solcher t-Wert derart selten unter der Nullhypothese, dass wir hinreichend an dieser zweifeln und uns für die Alternativhypothese entscheiden.
Ähnlich können wir auch wieder p-Werte berechnen, wobei sich der p-Wert aus zwei Teilen zusammensetzt:
p_1 <- pt(q = -9.3, # Wrsl. von - unendlich bis zum negativen empirischen t-Wert
df = 99)
p_2 <- 1 - pt(q = 9.3, # Wrsl. vom empirischen t-Wert bis plus unendlich
df = 99)
p <- p_1 + p_2 # der p-Wert ist die Summe aus beiden Teilen
p
## [1] 3.616951e-15
Möchte man einen zweiseitigen Test mit Hilfe der R-Funktion
t.test()
durchführen, so lässt man das Argument
alternative
unspezifiziert (hier mit den Werten aus
Beispiel 2):
ergebnis <- t.test(daten_A$konzentrationswert, # die Werte der Stichprobe
mu = 100) # H1: mu0 != 100
ergebnis
##
## One Sample t-test
##
## data: daten_A$konzentrationswert
## t = 3.919, df = 9, p-value = 0.003516
## alternative hypothesis: true mean is not equal to 100
## 95 percent confidence interval:
## 106.0033 122.3967
## sample estimates:
## mean of x
## 114.2
Alternativ setzt man das Argument auf two.sided
, was
aber eben dem Standardwert entspricht und zum gleichen Ergebnis führen
würde:
ergebnis <- t.test(daten_A$konzentrationswert, # die Werte der Stichprobe
mu = 100,
alternative = "two.sided") # H1: mu0 != 100
ergebnis
Auch hier ist eine Formatierung mit der Funktion t_out()
möglich:
t_out(ergebnis)
## Test Results
## 1 One Sample t-test: t(9) = 3.92, p = .004, d = 1.24
##
## NOTE: Reporting unadjusted estimate for Cohen's d.
Auf die Bedeutung der Effektstärke \(d\) wird in Teil 14 eingegangen.
Bisher hatten wir Fälle betrachtet, bei denen jede Versuchsperson einen Datenwert geliefert hat und bei denen jede Versuchsperson genau einer Gruppe/Stichprobe angehört hat.
In der experimentellen (Kognitions-)Psychologie kommt es allerdings auch häufig vor, dass von jeder Versuchsperson mehrere Datenwerte vorliegen: Die Daten sind dann abhängig voneinander. Dieses Vorgehen bringt eine ganze Reihe von Vorteilen (aber auch potentielle Nachteile) mit sich.
Als ein Beispiel möge eine Theorie vorhersagen, dass Kinder im Alter von 8 Jahren bei einem Konzentrationstest einen höheren Wert als im Alter von 6 Jahren haben. Eine entsprechende Untersuchung könnte also nun eine Stichprobe aus der Population 6-jähriger Kinder ziehen und den Konzentrationstest bearbeiten lassen (Messzeitpunkt [MZP] 1). Die gleichen Kinder werden dann im Alter von 8 Jahren nochmals mit dem Konzentrationstest untersucht (Messzeitpunkt 2). Ein höherer Mittelwert zum Messzeitpunkt 2 als zum Messzeitpunkt 1 spräche dann für die Vorhersage.
Die Fragestellung die wir untersuchen ist also: Unterscheidet sich der Erwartungswert \(\mu_{MZP-1}\) zum Messzeitpunkt 1 vom Erwartungswert \(\mu_{MZP-2}\) zum Messzeitpunkt 2? Als Daten liegen uns nun Werte einer Stichprobe vom Umfang \(n\) vor, jede Versuchsperson liefert aber Datenpunkte zu beiden Messzeitpunkten.
Voraussetzungen:
Auch hier sind diese Voraussetzungen nicht unbedingt überprüfbar, vielmehr wird ihr Erfülltsein in der Regel angenommen. Sie können allerdings theoretisch und empirisch bzgl. ihrer Plausibilität evaluiert werden.
Ausgangspunkt der folgenden Ausführungen ist das Hypothesenpaar \[H_0:\mu_{MZP-2}\leq\mu_{MZP-1}\; \text{ und } \;H_1:\mu_{MZP-2}>\mu_{MZP-1}\]
Zur Illustration der Logik des t-Tests für abhängige Stichproben wollen wir die folgende Situation betrachten. Angenommen wir hätten die Konzentrationsleistung von 4 Kindern zu zwei Messzeitpunkten (bspw. einmal im Alter von 6 und einmal im Alter von 8 Jahren). Um zu beurteilen, ob es im Schnitt eine Veränderung zwischen den beiden Messzeitpunkten gibt, müssen wir den Mittelwert der individuellen Differenzwerte ansehen (MZP-2 – MZP-1). Je mehr Kinder im Schnitt einen Anstieg in ihrer Konzentrationsleistung haben, desto mehr spricht dies für unsere Vermutung, dass der wahre Erwartungswert \(\mu_{MZP-1}\) zum Messzeitpunkt 1 kleiner ist als der wahre Erwartungswert \(\mu_{MZP-2}\) zum Messzeitpunkt 2.
Stellen wir uns hierfür nun einen Fall vor, bei dem alle Kinder eine einheitliche Verbesserung zeigen (linkes Diagramm der folgenden Abbildung). In diesem Fall haben alle Kinder den exakt gleichen Differenzwert von 30, sodass der Mittelwert der Differenzen ebenfalls 30 beträgt. Klar ist, dass dieser Fall sehr dafür spricht, dass die Konzentrationsleistung zum zweiten Zeitpunkt tatsächlich höher ist als zum ersten Zeitpunkt. Im Gegensatz hierzu ergibt sich im rechten Diagramm der folgenden Abbildung keine klare Tendenz. Ein Teil der Kinder hat zum zweiten Zeitpunkt eine geringere Konzentrationsleistung als zum ersten Zeitpunkt, wohingegen ein anderer Teil eine höhere Konzentrationsleistung zeigt. Der Mittelwert der individuellen Veränderungen ist aber \(0\).
Wir können also die Betrachtung von Differenzwerten wie folgt zusammenfassen:
Da wir also die Ausgangsfrage auch auf einzelne (Differenz-)Werte zurückführen können, benötigen wir eigentlich kein konzeptuell neues Verfahren. Wir können stattdessen für jede Versuchsperson die Differenzwerte berechnen und anschließend prüfen, ob diese hinreichend stark von \(0\) abweichen. Konkret bedeutet dies also:
Mit Bezug auf die Formel für den t-Test für eine Stichprobe ergibt sich also der t-Test für abhängige Stichproben wie folgt: \[t=\frac{M_D-0}{\frac{\hat{S}_D}{\sqrt{n}}}\] Für einen t-Test für abhängige Stichproben benötigen wir somit lediglich den Mittelwert und die Standardabweichung der Differenzvariable \(D\), sowie die Stichprobengröße \(n\). (Anmerkung: Man könnte auch bzgl. einer Abweichung ungleich \(0\) testen, indem man einen entsprechenden anderen Wert in den Zähler einsetzt. In der Regel testet man aber, ob es überhaupt eine Veränderung gibt, sodass \(\mu_0\) unter der Nullhypothese gleich \(0\) gesetzt wird.)
Zur Prüfung auf Signifikanz vergleichen wir anschließend den empirischen t-Wert anhand der t-Verteilung mit \(n-1\) Freiheitsgraden, ganz wie wir es gerade bereits beim t-Test für eine Stichprobe kennengelernt haben.
Wir haben von 5 Versuchspersonen jeweils Werte zu zwei
Messzeitpunkten vorliegen, welche in einem DataFrame
daten_abhaengig
zusammengefasst sind:
daten_abhaengig # Ausgabe des DataFrames
Wir testen nun die Hypothese, dass der Erwartungswert der Population
zum Messzeitpunkt 2 (\(\mu_{MZP-2}\))
größer ist als der zum Messzeitpunkt 1 (\(\mu_{MZP-1}\)): \[H_0:\mu_{MZP-2}\leq\mu_{MZP-1}\; \text{ und }
\;H_1:\mu_{MZP-2}>\mu_{MZP-1}\] Dies können wir auch
umschreiben als: \[H_0:\mu_D \leq 0\; \text{
und } \;H_1:\mu_D>0 \quad \quad (\text{mit } \mu_D
=\mu_{MZP-2}-\mu_{MZP-1})\] Große positive Differenzwerte
sprechen also gegen unsere Nullhypothese. Für den t-Test bei
abhängigen Stichproben berechnen wir zuerst die Differenzwerte für jede
Person und führen anschließend einen t-Test für eine Stichprobe
auf der Differenzvariable durch (das Argument mu = 0
könnte
auch weggelassen werden, da dies der default-Einstellung
entspricht):
daten_abhaengig$D <- daten_abhaengig$MZP2 - daten_abhaengig$MZP1
ergebnis <- t.test(daten_abhaengig$D, # die Differenzwerte der Stichprobe
mu = 0, # H0: mu_D = 0 (oder kleiner; der default)
alternative = "greater") # gerichtete H1: mu_D > 0
ergebnis # genuine R-Ausgabe
##
## One Sample t-test
##
## data: daten_abhaengig$D
## t = 1.3188, df = 4, p-value = 0.1288
## alternative hypothesis: true mean is greater than 0
## 95 percent confidence interval:
## -1.233106 Inf
## sample estimates:
## mean of x
## 2
t_out(ergebnis) # formatiert mit schoRsch
## Test Results
## 1 One Sample t-test: t(4) = 1.32, p = .129, d = 0.59
##
## NOTE: Reporting unadjusted estimate for Cohen's d.
Der t-Test ist hier also nicht signifikant, sodass wir keine hinreichenden Zweifel an der Nullhypothese haben können und weiterhin von ihrer Gültigkeit ausgehen.
Anstatt die Differnzvariable selbst zu berechnen, können wir auch die
Funktion t.test()
direkt auf die beiden Variablen
MZP1
und MZP2
anwenden. Hierbei müssen wir das
Argument paired = TRUE
setzen, um explizit der Funktion
mitzuteilen, einen t-Test für abhängige Stichproben zu rechnen.
Hiermit erhalten wir das gleiche Ergebnis wie im gerade berechneten
Fall:
ergebnis <- t.test(x = daten_abhaengig$MZP2, # Übergabe der Werte beider...
y = daten_abhaengig$MZP1, # ...Messzeitpunkte
paired = TRUE, # für abhängige Stichproben
alternative = "greater")
ergebnis # genuine R-Ausgabe
##
## Paired t-test
##
## data: daten_abhaengig$MZP2 and daten_abhaengig$MZP1
## t = 1.3188, df = 4, p-value = 0.1288
## alternative hypothesis: true mean difference is greater than 0
## 95 percent confidence interval:
## -1.233106 Inf
## sample estimates:
## mean difference
## 2
t_out(ergebnis) # formatiert mit schoRsch
## Test Results
## 1 Paired t-test: t(4) = 1.32, p = .129, d = 0.59
##
## NOTE: Reporting unadjusted estimate for Cohen's d.
Das generelle Vorgehen bei t-Tests (und auch bei allen anderen Nullhypothesen-Tests ) ist immer gleich:
Wir haben zwei konkrete Varianten des t-Bruchs kennengelernt. Auch wenn sie sich in Details unterscheiden, haben beide die gleiche allgemeine Struktur (siehe Abschnitt 12.1.1): \[t=\frac{T-\tau_0}{SE_T}\] Dabei bedeuten:
Wir werden diese allgemeine Form gleich wieder benötigen.
In Teil 5 hatten wir die Pearson-Korrelation berechnet als \[r_{XY}=\frac{\text{Kov}(X,Y)}{S_X\cdot S_Y}\] \(r\) ist hierbei wieder auf Basis einer Stichprobe berechnet worden und ist damit eine Stichprobenstatistik. Auch hier interessieren wir uns aber in der Regel dafür, ob in der Population, aus der die Stichprobe stammt, ein Zusammenhang vorliegt oder nicht: Den entsprechenden Populationsparameter nennen wir \(\rho\) (kleines “rho”) und der dazugehörige Schätzer ist die Pearson-Korrelation \(r\) der Stichprobe.
Über \(\rho\) können wir nun ganz analog zu den Tests über Mittelwerte Hypothesenpaare formulieren:
Klar sollte sein: Selbst wenn in der Population \(\rho=0\) gilt, wird in einer Stichprobe in der Regel \(r\neq 0\) sein.
Wir entwickeln nun im Folgenden eine Prüfgröße auf Basis des allgemeinen t-Bruches zum Prüfen der Nullhypothese \(H_0:\rho = 0\). Das heißt, wir entwickeln eine Prüfgröße, welche uns angeben soll, ob ein empirischer Zusammenhang \(r\) in einer Stichprobe hinreichend unplausibel unter der \(H_0\) ist. In den vorherigen Kapiteln haben wir bereits die wünschenswerten Eigenschaften einer Prüfgröße behandelt:
Dies trifft direkt auf \(r\) zu: Je mehr \(r\) gegen \(-1/+1\) geht, desto eher sprechen die Daten gegen den Teil der \(H_0\), dass \(\rho =0\) ist, also für die \(H_1\).
Hier wird die Sache etwas kniffeliger und wir schauen uns nun die Verteilung von \(r\) bei \(\rho = 0\) an. Für die folgende Abbildung wurden 10000 Stichproben vom Umfang \(n=30\) simuliert, wobei die wahre Korrelation in der Population \(\rho = 0\) sei:
Auch wenn die Verteilung annähernd glockenförmig aussieht und damit stark einer t- oder Normalverteilung ähnelt, ist sie leider weder das eine noch das andere. Tatsächlich ist die genaue Verteilung unklar. Das liegt auch daran, dass die Werte von \(r\) nur zwischen \(-1\) und \(1\) liegen können.
Abhilfe kann allerdings wieder der t-Bruch schaffen und wir gehen wieder zunächst vom allgemeinen t-Bruch aus: \[t=\frac{T-\tau_0}{SE_T}\] für \(T\) setzen wir nun \(r\) ein (als Schätzer des Parameters \(\rho\)). Für den geschätzten Standardfehler von \(r\) setzen wir – ohne Herleitung – ein: \[SE_r=\sqrt{\frac{1-r^2}{n-2}}\] Somit ergibt sich für den t-Bruch der Korrelation:
\[t=\frac{T-\tau_0}{SE_T}=\frac{r-0}{\sqrt{\frac{1-r^2}{n-2}}}=\frac{r\sqrt{n-2}}{\sqrt{1-r^2}}\]
Nun wiederholen wir die Simulation der letzten Abbildung (mit 10000 Stichproben vom Umfang \(n = 10\)) und berechnen dabei aber neben der eigentlichen Korrelation den gerade eben eingeführten t-Bruch pro Stichprobe:
Nun sieht die Verteilung der t-Werte einer t-Verteilung eher ähnlich und auch der Wertebereich geht in die richtige Richtung. Tatsächlich ist \(t\) auch \(t\)-verteilt bzw. genauer gesagt gilt: Eine Zufallsvariable \(\boldsymbol{t}\), die jeder Stichprobe den Bruch \[t=\frac{r\sqrt{n-2}}{\sqrt{1-r^2}}\] zuweist, ist bei Annahme der \(H_0:\rho = 0\) t-verteilt mit \(n-2\) Freiheitsgraden: \[\boldsymbol{t}\overset{H_0}{\sim} t_{n-2}\] Zudem sprechen extreme Werte von \(t\) eher gegen die Nullhypothese. Der t-Bruch erfüllt also beide Eigenschaften einer Prüfgröße.
Somit haben wir alles in der Hand um einen Signifikanztest für die Korrelation durchzuführen. Konkret müssen wir hierfür den t-Bruch der Korrelation berechnen und diesen empirischen t-Wert mit der theoretischen t-Verteilung mit \(n-2\) Freiheitsgraden vergleichen. Hierzu können wir entweder kritische t-Werte oder einen p-Wert berechnen. Die Entschungsregel lautet dann:
“Wenn (1) \(|t|\geq t_{n-2;1-\frac{\alpha}{2}}\) ist oder wenn (2) \(p\leq\alpha\) ist, dann haben wir ausreichend Zweifel an der Gültigkeit der \(H_0\) und entscheiden wir uns für die \(H_1\).”
Eine abschließende Warnung sei allerdings noch gegeben: Wenn Korrelationen auf sehr kleinen Stichproben basieren, kommt es zu Problemen bei der Verteilung des Korrelationskoeffizienten. Um dies zu verdeutlichen, simulieren wir erneut 10000 Stichproben (aus einer Population mit \(\rho = 0\)), variieren aber diesmal den Stichprobenumfang:
Zu sehen ist, dass gerade bei kleinen Stichproben sehr hohe Korrelationskoeffizienten auftreten, obwohl in der Population eigentlich die \(H_0\) gilt (mit \(\rho = 0\))! Dies bedeutet, dass wir bei kleinen Stichproben eher dazu neigen durch Zufall (aufgrund einer hohen Korrelation) die Nullhypothese fälschlicherweise zu verwerfen. Wir laufen also Gefahr, mehr Fehler 1. Art zu begehen und somit unser gesetztes \(\alpha\)-Niveau nicht zu halten! Dies sollten wir immer im Hinterkopf behalten bei der Interpretation von Ergebnissen, die auf einer kleinen Stichprobe beruhen!
Nun betrachten wir den Fall der einfachen, linearen Regression (siehe Teil 6). Ziel der einfachen, linearen Regression war es, den Zusammenhang zwischen einem Kriterium \(Y\) und einem Prädiktor \(X\) mit Hilfe einer Regressionsgerade \(\hat Y\) zu beschreiben: \[\hat{Y}=b\cdot X+a\] Die optimalen Werte für \(b\) und \(a\) hatten wir bestimmt als (siehe hier für Details): \[b=\frac{\text{Kov}(X,Y)}{S_X^2}\hspace{0.5cm}\text{und}\hspace{0.5cm} a=M_Y-b\cdot M_X\]
In der Regel möchten wir aber nicht nur die Regressionsgerade für eine Stichprobe beschreiben, sondern inferenzstatistische Aussagen über die Population machen, also ob zum Beispiel die Steigung \(b\) auch in der Population von 0 verschieden ist.
Hierfür nutzen wir die gleiche Logik wie für \(r\) und \(\rho\): Der Wert \(b\) wird auf Basis einer Stichprobe berechnet, aber auch in der Population gibt es einen entsprechenden Parameter und wir nennen ihn \(\beta\) (ähnlich gibt es auch einen Populationsparameter für \(a\)). Klar ist, dass selbst wenn es keinen Zusammenhang zwischen dem Prädiktor und dem Kriterium in der Population gäbe (\(\beta = 0\)), \(b\) nicht exakt \(0\) sein wird.
Somit stellt sich auch hier wieder die Frage, wie wir entscheiden können, ob ein empirischer Zusammenhang \(b\) hinreichend unplausibel unter der Nullhypothese \(H_0:\;\beta = 0\) ist. Hilfe bringt wieder eine Prüfgröße auf Basis des allgemeinen t-Bruchs: \[t=\frac{T-\tau_0}{SE_T}\] Als erwartungstreuen Schätzer für den Populationsparameter \(\beta\) können wir direkt \(b\) nutzen. Der geschätzte Standardfehler von \(b\), \(SE_b\), ist zwar etwas schwerer zu bestimmen, allerdings gibt es auch hier eine passende Formel: \[SE_b=\sqrt{\frac{\frac{S_Y^2\cdot(1-r^2_{XY})}{n-2}}{S_X^2}}\] Eingesetzt in die allgemeine Formel des t-Bruchs, ergibt sich somit für den t-Bruch des Steigungskoeffizienten: \[t=\frac{T-\tau_0}{SE_T} = \frac{b-0}{SE_b} = \frac{b-0}{\sqrt{\frac{\frac{S_Y^2\cdot(1-r^2_{XY})}{n-2}}{S_X^2}}}\] Interessanterweise taucht in der Formel von \(SE_b\) die Pearson-Korrelation der beiden Variablen auf. Tatsächlich lässt sich der t-Bruch sogar umformulieren, sodass er sich auch so darstellen lässt:
\[t=\frac{b-0}{SE_b}= \frac{b-0}{\sqrt{\frac{\frac{S_Y^2\cdot(1-r^2_{XY})}{n-2}}{S_X^2}}} =\frac{r_{XY}\sqrt{n-2}}{\sqrt{1-r_{XY}^2}}\] Vergleichen wir nun diesen t-Bruch mit dem t-Bruch der Korrelation, sehen wir, dass beide \(t\)-Brüche identisch sind. In anderen Worten: Der t-Bruch des Steigungskoeffizienten \(b\) entspricht dem t-Bruch des Korrelationskoeffizienten \(r\). Somit gilt auch: Wenn eine Korrelation zweier Variablen signifikant von Null verschieden ist, dann ist eine Variable auch ein sich signifikant von Null unterscheidender Prädiktor für die andere Variable im Fall einer einfachen, linearen Regression (und umgekehrt). Dies macht den Zusammenhang von Korrelation und der einfachen linearen Regression noch einmal deutlich.
Der Begriff der Freiheitsgrade wurde bereits verwendet als Parameter der t-Verteilung. Etwas oberflächlich kann gesagt werden, dass Freiheitsgrade die Anzahl der Werte widergeben, die frei gewählt werden können, ohne einen interessierenden statistischen Parameter oder ein benötigtes Zwischenergebnis zu verändern.
Beispiel für die Bedeutung in empirischen Daten:
Als Parameter von Dichtefunktionen bestimmen Freiheitsgrade deren genaues Aussehen. Bei t-Tests hängen die Freiheitsgrade mit dem Stichprobenumfang \(n\) zusammen: Je größer \(n\), desto mehr Freiheitsgrade, desto schmaler die Verteilung, und desto mehr ähnelt die t-Verteilung der Normalverteilung.
Auch Kontigenztafeln, wie wir sie zur Herleitung von \(\chi^2\) in Teil 5 eingeführt haben, haben in einem ganz ähnlichen Sinn Freiheitsgrade. Sind zu einer \(2\times 2\)-Kontigenztafel die Randverteilungen gegeben, dann kann genau 1 Wert frei gewählt werden und alle anderen Werte ergeben sich dann automatisch. In der linken Kontingenztafel der folgenden Abbildung haben wie bspw. den Wert 7 willkürlich gewählt, daraus ergeben sich dann aber die Besetzungen der verbleibenden drei Zellen automatisch (siehe rechter Teil der Abbildung).