Willkommen bei Stats by Randolph. Hier geht es zur Hauptseite mit weiteren Informationen und Inhalten.

Autor:innen dieser Seite: An den Inhalten dieser Seite haben mitgearbeitet: Valentin Koob, Eva Röttger und Markus Janczyk. Der Inhalt dieser Seite wird in der Lehre in den Studiengängen Psychologie von der AG Forschungsmethoden und Kognitive Psychologie an der Universität Bremen verwendet, steht aber allen Interessierten zur Verfügung. Rückmeldungen/Fehler/Vorschläge können gesendet werden an .

Versionshistory:

  • v1.1: sprachlich korrigierte und leicht überarbeitete Version (14.9.2023)
  • v1.0: erste online-gestellte Version (31.8.2023)

10 Punktschätzung

Das Problem, welches die Inferenzstatistik lösen soll, ist, dass wir i.d.R. an sog. Populationen oder Grundgesamheiten interessiert sind, aber nur die Daten einer Stichprobe aus dieser Population vorliegen haben (siehe dazu auch Teil 7). Sowohl die Population als auch die Stichprobe haben aber Kennwerte, die etwas über die Lage und Verteilung der Werte einer Variablen aussagen:

  • (Stichproben-)Statistiken können auf Basis von Stichproben tatsächlich berechnet werden (siehe Deskriptive Statistik) und werden üblicherweise mit lateinischen Buchstaben bezeichnet.

  • Die eigentlich interessanten (Populations-)Parameter sind hingegen unbekannt und werden i.d.R. mit griechischen Buchstaben bezeichnet.

Da wir also die Populationsparameter nicht kennen, wollen wir aus den Stichprobenstatistiken etwas über sie “lernen”. Dies wird dann als “Schätzen der Parameter mit den Stichprobenstatistiken” bezeichnet, oder kurz als Parameterschätzung. Wir fokussieren hier auf die beiden Parameter \(\mu\) und \(\sigma^2\), also Mittelwert und Varianz einer (normalverteilten) Variablen in der Population und klären dabei zwei Fragen:

  • Welche Statistiken eignen sich, um \(\mu\) und \(\sigma^2\) “möglichst gut” zu schätzen?
  • Welche Kriterien muss ein Schätzer erfüllen, um als “möglichst gut” zu gelten?

10.1 Der Populationsparameter \(\mu\)

Wir beginnen die Betrachtungen mit einem vereinfachten Beispiel und stellen uns vor, wir würden die Population tatsächlich kennen.

10.1.1 Ein vereinfachtes (aber illustratives) Beispiel

Dazu betrachten wir zur Illustration eine Population, die nur aus 4 Elementen besteht und die wir–etwas unrealistisch–alle kennen: \[x_1=2,\hspace{.3cm}x_2=4,\hspace{.3cm}x_3=6,\hspace{.3cm}x_4=8\]

In diesem Fall können wir die Parameter \(\mu\) und \(\sigma^2\) einfach mit den aus der Deskriptiven Statistik bekannten Formeln berechnen. Als Mittelwert bzw. Erwartungswert ergibt sich \[\mu=\frac{1}{4}\cdot(2+4+6+8)=5\] und als Varianz ergibt sich \[\sigma^2=\frac{1}{4}\cdot ((2-5)^2 + (4-5)^2 + (6-5)^2 + (8-5)^2) = 5. \]

Nun führen wir eine Zufallsvariable ein (vgl. Teil 9). Bisher hatten wir das zufällige Ziehen einer Person als ein Zufallsexperiment aufgefasst. In gewisser Weise entspricht dies einer Stichprobe vom Umfang \(n=1\) und es entsprechen sich Population und \(\Omega\), da jedes Mitglied der Population Ausgang des Zufallsexperiments sein kann.

Nun erlauben wir allgemeiner Stichproben vom Umfang \(n\geq 1\). Das Zufallsexperiment ist dann also das Ziehen einer Stichprobe vom Umfang \(n\) und die Menge der möglichen Ausgänge umfasst nun alle möglichen Stichproben dieses Umfangs. Diese Menge nennen wir \(\Omega^n\) und sie ergibt sich indem wir alle \(n\)-Kombinationen (mit Zurücklegen) der Elemente \(\omega_i\in\Omega\) bilden. Formal ergibt sich \(\Omega^n\) als sog. kartesisches Produkt oder Mengenprodukt. Die Elemente eines Mengenprodukts werden als geordnete Paare oder Tupel bezeichnet und bestehen jeweils aus Elementen der Ausgangsmengen, wobei das erste Element eines Tupels aus der ersten Menge stammt und das zweite Element aus der zweiten Menge. Wenn z.B. die Mengen \(X\) und \(Y\) gegeben sind, dann ist die Ergebnismenge des kartesischen Produkts \[X\times Y=\{(x,y)|x\in X, y\in Y\}\] Für ein Beispiel mit \(X={1,2,3}\) und \(Y={8,9}\) ergibt sich also \[X\times Y=\{(1,8), (1,9), (2,8), (2,9), (3,8), (3,9)\}\] Kommen wir nun zur Menge \(\Omega\) zurück, dann bedeutet \(\Omega^n\) nichts anderes als \[\Omega^n = \underbrace{\Omega \times \Omega \times \ldots \times \Omega}_{n\text{-mal}}\] Die Elemente der Menge \(\Omega^n\) sind sog. \(n\)-Tupel, wobei je ein solches \(n\)-Tupel eine Zusammenfassung einer Stichprobe aus \(\Omega\) vom Umfang \(n\) beschreibt.

Wir beginnen mit Stichproben vom Umfang \(n=2\), d.h. die Menge \(\Omega^2\) beinhaltet alle möglichen Zweierstichproben der Population. Die Zufallsvariable \(\bar{\mathbf{X}}\) ordnet nun jeder Zweierstichprobe den Mittelwert ihrer Elemente zu. Formal ist die Zufallsvariable also eine Abbildung von \(\Omega^2\) nach \(\Omega'\subseteq\mathbb{R}\):

\[\begin{equation*} \boldsymbol{\bar{X}}\colon \Omega^n\rightarrow\mathbb{R}\qquad\text{mit}\qquad \underset{n\text{-Tupel}}{\underbrace{(\omega_1,\ldots,\omega_n)}}\rightarrow \underset{M}{\underbrace{\frac{1}{n}\sum_{i=1}^n X_{\omega_i}}}\;. \end{equation*}\] Die Abbildung weist also jedem der \(n\)-Tupel den Mittelwert \(M\) seiner Bestandteile \(\omega_i\) zu.

Nehmen wir an, wir würden mit Zurücklegen ziehen, dann sind also 16 verschiedene Zweierstichproben möglich und die folgende Tabelle fasst die Mittelwerte dieser Zweierstichproben zusammen:

Wenn jede der 16 Stichproben mit gleicher Wahrscheinlichkeit \(p=\frac{1}{16}\) gezogen wird, dann können wir leicht die Wahrscheinlichkeitsfunktion berechnen:

Da \(\boldsymbol{\bar{X}}\) als eine diskrete Zufallsvariable aufgefasst werden kann, können wir mit den bekannten Formeln ihren Erwartungswert und Varianz berechnen: \[E(\boldsymbol{\bar{X}})=5\hspace{1cm}\text{und}\hspace{1cm} \sigma^2_{\boldsymbol{\bar{X}}}=2.5 \] Zur Erinnerung sind hier nochmal die Parameter der Population wiederholt und es sollte eine Beziehung zwischen ihnen und dem Erwartungswert und der Varianz von \(\boldsymbol{\bar{X}}\) auffallen: \[\mu=5\hspace{1cm}\text{und}\hspace{1cm}\sigma^2=5\] Diese Beziehung werden wir im nächsten Abschnitt generalisieren.

10.1.2 Die Formalisierung

Im allgemeinen Fall gilt für Erwartungswert und Varianz von \(\boldsymbol{\bar{X}}\): \[E(\boldsymbol{\bar{X}})=\mu\hspace{1cm}\text{und}\hspace{1cm} \sigma^2_{\boldsymbol{\bar{X}}}=\frac{\sigma^2}{n} \]

Diese beiden Beziehungen sind relativ einfach zu beweisen. Für den Erwartungswert gilt nämlich \[E(\boldsymbol{\bar{X}})=E\left(\frac{1}{n}\sum_{i=1}^n\boldsymbol{X_i}\right) =\frac{1}{n}\sum_{i=1}^nE(\boldsymbol{X_i})=\frac{1}{n}\sum_{i=1}^nE(\boldsymbol{X}) =\frac{1}{n}nE(\boldsymbol{X}) = E(\boldsymbol{X}) \text{ .}\] Ähnlich gilt für die Varianz \[\begin{equation*}\begin{split} V(\boldsymbol{\bar{X}})&=V\left(\frac{1}{n}\sum_{i=1}^n\boldsymbol{X_i}\right) =\frac{1}{n^2}V\left(\sum_{i=1}^n{\boldsymbol{X_i}}\right)=\frac{1}{n^2}\sum_{i=1}^n{V(\boldsymbol{X})} =\frac{1}{n^2}nV(\boldsymbol{X})=\frac{V(\boldsymbol{X})}{n}\text{ .} \end{split} \end{equation*}\]

Als nächsten Schritt visualisieren wir einmal die Mittelwerte, die tatsächlich auftreten und fragen uns, ob es hier welche gibt, die besonders häufig auftreten und ob eine bestimmte Verteilungsform der Mittelwerte ersichtlich wird. Dazu führen wir eine Simulation durch, bei der 10000-mal Stichproben vom Umfang \(n=4\) aus der oben eingeführten Population gezogen werden (natürlich muss dies mit Zurücklegen getan werden). Dann schauen wir uns die relativen Häufigkeiten der Mittelwerte als Histogramm an:

An dieser Abbildung werden ein paar Eigenschaften deutlich:

  • Werte um 5 herum treten besonders häufig auf: Dies ist zu erwarten, da ja auch der Erwartungswert der Zufallsvariablen \(E(\boldsymbol{\bar{X}})=5\) war.
  • Je weiter weg ein Mittelwert von 5 ist, desto seltener tritt er auf.
  • Die gesamte Verteilung scheint symmetrisch um den Wert 5 zu sein und schaut einer Normalverteilung ähnlich.

Tatsächlich ist es so, dass–wenn die Ausgangsvariable \(X\) in der Population normalverteilt ist mit einem Erwartungswert \(\mu\) und einer Varianz \(\sigma^2\)–die Zufallsvariable \(\bar{\mathbf{X}}\) auch normalverteilt ist. Dies ergibt sich aus einer allgemeinen Eigenschaft der Normalverteilung: Errrechnet sich eine Zufallsvariable als Summe \(n\)-vieler normalverteilter Zufallsvariablen (so wie es beim Mittelwert ja vorkommt), dann ist die Zufallsvariable selbst auch normalverteilt. Die Parameter dieser Normalverteilung sind dann die bereits bestimmten Parameter für den Erwartungswert und die Varianz: \[\bar{\mathbf{X}}~\sim N(\mu,\frac{\sigma^2}{n})\] Weil die Stichprobengröße \(n\) im Nenner der Varianz steht, folgt natürlich, dass die Varianz der Verteilung der Mittelwerte immer schmaler wird, je größer \(n\) wird.

10.1.3 Der Standardfehler des Mittelwerts

Wir können festhalten, dass die Wurzel aus der Varianz der Zufallsvariablen \(\bar{\mathbf{X}}\), also \[\sqrt{\frac{\sigma^2}{n}}=\frac{\sigma}{\sqrt{n}}\] genau das ist, was wir in Teil 4 als Standardfehler des Mittelwerts bezeichnet haben; in anderen Worten also die Standardabweichung des Mittelwerts.

Um besser zu verstehen, was dies bedeutet, betrachten wir nun Werte auf einer Variablen, die in der Population normalverteilt sind mit einem Erwartungswert von 5 und einer Varianz von 4, also \[{\bf X}\sim N(5,4).\]

Aus dieser Population ziehen wir jeweils 1000 Stichproben vom Umfang \(n\in\{5,20,50,100\}\), berechnen deren Mittelwerte und schauen uns die relativen Häufigkeiten für jede Stichprobengröße als Histogramm an. Zusätzlich eingezeichnet in rot sind die theoretisch erwarteten Normalverteilungen des Mittelwerts, mit den entsprechenden Parametern für \(\mu\) und \(\sigma^2\):

Wie erwartet, wird die Verteilung mit steigender Stichprobengröße immer schmaler. Aus Teil 9 wissen wir, dass bei einer Normalverteilung etwa 68% der Werte im Bereich \(\mu\pm\sigma\) liegen. Da der Standardfehler des Mittels nichts anderes ist, als die Standardabweichung der resultierenden Normalverteilung (der Mittelwerte), heißt dies, dass im Bereich \(\mu \pm \text{Standardfehler}\) eben etwa 68% der möglichen Mittelwerte liegen.

Anders ausgedrückt bedeutet dies, dass mit kleiner werdendem Standardfehler (z.B. durch eine größere Stichprobe) der eine Mittelwert (unserer Studie) mit größerer Wahrscheinlichkeit näher an \(\mu\) liegt.

10.1.4 Zusammenfassung

Zusammengefasst wird der Mittelwert \(M\) einer Stichprobe quasi nie genau \(\mu\) entsprechen. Aber der Erwartungswert der Verteilung aller denkbaren Mittelwerte, also der Zufallsvariablen \(\bar{\mathbf{X}}\), ist genau \(\mu\). Zusätzlich wird die Varianz von \(\bar{\mathbf{X}}\) kleiner, je größer die Stichprobe wird: Ein Mittelwert \(M\) liegt also mit höherer Wahrscheinlichkeit näher an \(\mu\), je größer die Stichprobe ist, und weder unter- noch überschätzen wir \(\mu\) systematisch.

Insgesamt erscheint der Mittelwert also als ein “guter” Schätzer für den Populationsparameter \(\mu\). Was wir mit “gut” genauer meinen, wird im nächsten Abschnitt behandelt.

10.2 Gütekriterien von Parameterschätzern

Prinzipiell kann jede Stichprobenstatistik als Schätzer für einen Parameter genutzt werden. Natürlich wollen wir dabei aber gewisse Qualitätskriterien erfüllt wissen, die darüber entscheiden, ob eine Statistik ein “guter” Schätzer für den in Frage stehenden Parameter ist. Die zwei wichtigsten Gütekriterien, die wir hier zunächst betrachten, sind Erwartungstreue und Konsistenz.

Im Folgenden meinen wir mit \(T\) einen Schätzer für den Parameter \(\tau\) und mit \(\mathbf{T}\) eine Zufallsvariable, die einer Stichprobe (also einem Element aus \(\Omega^n\)) den Schätzer \(T\) zuordnet.

10.2.1 Erwartungstreue

Ein Schätzer gilt als erwartungstreu (engl. unbiased), wenn der Erwartungswert einer Zufallsvariablen, die den Elementen aus \(\Omega^n\) den Schätzer zuweist, gleich dem Populationsparameter ist. Der Schätzer weist dann also keine systematische Verzerrung auf; weder unter- noch überschätzt er systematisch den Parameter.

Formal kann Erwartungstreue wie folgt definiert werden:

Sei \(T\) ein Schätzer für einen Populationsparameter \(\tau\) (kleines “Tau”). \(T\) ist ein erwartungstreuer Schätzer, wenn \[E(\mathbf{T})=\tau\]

10.2.2 Konsistenz

Ein Schätzer wird als konsistent bezeichnet, wenn eine Vergrößerung des Stichprobenumfangs die Wahrscheinlichkeit erhöht, dass der Schätzer nahe am Populationsparameter liegt.

Formal kann Konsistenz wie folgt definiert werden:

Sei \(\tau\) ein Populationsparameter und \(T_n\) eine Folge von Schätzern, wobei \(n\) der Stichprobenumfang ist. \(T_n\) ist ein konsistenter Schätzer für \(\tau\), wenn für jedes beliebige \(\epsilon>0\hspace{0.2cm}(\epsilon\in\mathbb{R})\) gilt: \[P(|T_n-\tau|\geq\epsilon)\rightarrow 0\hspace{0.5cm}\text{für }n\rightarrow\infty\] In Worten bedeutet dies: Die Wahrscheinlichkeit, dass ein Schätzer \(T\) um mehr als ein beliebiges \(\epsilon\) vom Parameter \(\tau\) abweicht geht gegen Null, wenn die Stichprobengröße \(n\) gegen unendlich geht.

10.2.3 Erwartungstreue, Konsistenz und der Mittelwert

Vor dem Hintergrund der gerade diskutierten Kriterien fragen wir nun: Ist der Mittelwert dann ein “guter Schätzer” für \(\mu\)?

Tatsächlich haben wir bereits gezeigt, dass er ein erwartungstreuer Schätzer für \(\mu\) ist, da gilt: \(E(\bar{\mathbf{X}})=\mu\). Da mit zunehmendem \(n\) die Genauigkeit der Schätzung größer wird, ist er auch ein konsistenter Schätzer. Insgesamt erfüllt der Mittelwert also beide Eigenschaften als ein Schätzer für \(\mu\).

10.2.4 Weitere Gütekriterien von Parameterschätzern

Wir haben bisher nur Erwartungstreue und Konsistenz diskutiert. Es gibt aber noch weitere Gütekriterien, die an gute Schätzer angelegt werden können:

  • Effizienz/Wirksamkeit: Kennzeichnet die Präzision der Schätzung im Vergleich zu anderen Schätzern; je kleiner die Varianz der Schätzwerte um den Parameter, desto effizienter ist ein Schätzer.
  • Suffizienz/Erschöpfung: ein Schätzer ist suffizient, wenn er alle in den Daten einer Stichproben enthaltenen Informationen berücksichtigt.

10.3 Der Populationsparameter \(\sigma^2\)

Nun fragen wir uns als nächstes, welche Stichprobenstatistik wir nutzen können, um die Populationsvarianz \(\sigma^2\) zu schätzen. Naheliegend ist es natürlich, dass \(S^2\) ein geeigneter Schätzer für \(\sigma^2\) ist. Wir betrachten daher nun eine Zufallsvariable \(\mathbf{S^2}\), die jeder Stichprobe vom Umfang \(n\) ihre Varianz \(S^2\) zuordnet (\(X\) meint dabei eine Zufallsvariable, die jeder Versuchsperson ihren Wert zuordnet):

\[\begin{equation*} \boldsymbol{S^2}\colon \Omega^n\rightarrow\mathbb{R}\qquad\text{mit}\qquad(\omega_1,\ldots,\omega_n)\rightarrow \underset{S^2}{\underbrace{\frac{\sum_{i=1}^n(X_{\omega_i}-M_{\omega})^2}{n}}}\;. \end{equation*}\]

Diese Zufallsvariable ordnet also jedem \(n\)-Tupel (jeder Stichprobe) die Varianz der Werte in der Stichprobe zu.

Nun fragen wir uns, ob \(S^2\) ein erwartungstreuer Schätzer für \(\sigma^2\) ist. Wäre diese der Fall, müsste gelten: \[E(\mathbf{S^2})=\sigma^2\] Wenn wir den Erwartungswert der Zufallsvariablen allerdings berechnen (siehe hier für die detailierte Herleitung) erhalten wir: \[E(\mathbf{S^2})=\frac{n-1}{n}\cdot\sigma^2\] Dies bedeutet natürlich, dass \(S^2\) kein erwartungstreuer Schätzer für \(\sigma^2\) ist. Stattdessen unterschätzt \(S^2\) den fraglichen Parameter systematisch. Um dies zu korrigieren, betrachten wir eine korrigierte Stichprobenvarianz, nämlich \[\hat{S}^2=\frac{n}{n-1}\cdot S^2,\] als Schätzer. Die entsprechende Zufallsvariable bezeichnen wir mit \(\mathbf{\hat{S}^2}\) und für ihren Erwartungswert gilt tatsächlich: \[E(\mathbf{\hat{S}^2})=\sigma^2\] Die korrigierte Stichprobenvarianz ist also der gesuchte erwartungstreue Schätzer für die Populationsvarianz. (Und sie ist zudem auch ein konsistenter Schätzer.)

Dazu noch eine Anmerkung: In Teil 4 hatten wir festgestellt, dass die R-Funktion var() zu einem anderen Ergebnis kommt, als die Berechnung der Varianz “von Hand”. Dies liegt daran, dass manchmal (auch in R) die (Ko-)Varianz definiert wird, indem durch \(n-1\) dividiert wird (statt durch \(n\)), also: \[\hat{S}^2=\frac{1}{n-1}\cdot\sum_{i=1}^n(x_i-M)^2.\] Dies ist dann direkt die korrigierte Varianz als erwartungstreuer Schätzer, wie eine kleine Umformung schnell zeigt: \[\begin{equation*} \hat{S}^2=\frac{n}{n-1}\cdot S^2=\frac{n}{n-1}\cdot\frac{1}{n}\sum_{i=1}^n (x_i-M)^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-M)^2 \end{equation*}\]

Wir werden im Folgenden hier die Stichprobenvarianz \(S^2\) und die korrigierte Stichprobenvarianz \(\hat{S}^2\) immer auseinanderhalten.

11 Logik des Hypothesentestens

In diesem Teil erarbeiten wir uns nun mit dem Vorwissen der letzten Teile (siehe insbesondere auch Teil 7) nun die Logik der (klassischen) Inferezstatistik. Die Ausgangslage ist in der folgenden Abbildung zusammengefasst:

Ausgehend von einer Forschungsfrage wird eine (theoretisch begründete) Hypothese formuliert, die sich auf Parameter von Populationen bezieht. In unserem Fall formuliert diese Hypothese, dass der Erwartungswert einer Population \(A\) größer sein solle als der einer Population \(B\). Aus dieser (inhaltlichen) Hypothese wird nun das Paar der statistischen Hypothesen formuliert. Die Alternativhypothese \(H_1\) formuliert die (inhaltliche) Hypothese in kurzer und prägnanter Form; die Nullhypothese \(H_0\) formuliert das Gegenteil (und schließt die Gleichheit der beiden Parameter mit ein).

Die übergeordnete Frage ist nun: Wie kommen wir zu einer Entscheidung zwischen \(H_0\) und \(H_1\)? Inferenzstatistische Tests verfolgen dazu eine indirekte Logik, die wir hier nun erarbeiten wollen. Wir werden zunächst mit Simulationen arbeiten, um die Implikationen und Probleme besser zu verstehen. Im nächsten Teil übertragen wir das Vorgehen auf “richtige Tests”, nämlich die Familie der t-Tests.

11.1 Ausgangslage und Ziel

Wir beginnen mit einer Zusammenfassung der Logik der Entscheidung, wie sie in der folgenden Abbildung dargestellt ist.

Das Ziel all unserer Überlegungen ist dabei: Wie kommen wir zu einer Entscheidung zwischen \(H_0\) und \(H_1\)? Der wesentliche erste Schritt dazu ist, dass wir annehmen, in der Population würde die spezifische \(H_0\) gelten, d.h. es gäbe z.B. keinen Unterschied zwischen den Erwartungswerten beider Populationen. Zu beachten ist dabei, dass obwohl die \(H_0\) auch Unterschiede in der anderen Richtung als in der Alternativhypothese umfasst, die Annahme der spezifischen \(H_0\) immer auf der Gleichheit basiert! Eine ganz ähnliche Annahme haben wir bereits bei der Herleitung des \(\chi^2\)-Koeffizienten gemacht, wenn wir gefragt haben: Wie sollten die Häufigkeiten der einzelnen Zellen sein, wenn es keinen Zusammenhang geben würde? Tatsächlich ist die Annahme der (spezifischen) Nullhypothese der Beginn eines jeden inferenzstatistischen Tests.

Am Ende eines Tests steht dann die Frage: Besteht hinreichend Grund, an genau dieser Annahme zu zweifeln? Wenn wir diese Frage mit “nein” beantworten, bleiben wir dabei, an die Gültigkeit der \(H_0\) zu glauben. Gibt es jedoch “ausreichend” Gründe, an der Annahme zu zweifeln, dann entscheiden wir uns, stattdessen von der Gültigkeit der \(H_1\) auszugehen.

Um zwei Dinge müssen wir uns nun im Weiteren kümmern:

  • Woher kommen die Gründe, an der Annahme der \(H_0\) zu zweifeln (dies ist in der Abbildung das große Fragezeichen)?
  • Was sind “ausreichend” Gründe für diese Zweifel, um uns für die \(H_1\) zu entscheiden?

Dazu führen wir nun ein kleines Gedankenexperiment durch.

11.2 Ein Gedankenexperiment

11.2.1 Grundidee

Die Ausgangslage der folgenden Überlegungen ist nun also die Annahme, die spezifische Nullhypothese \(H_0: \mu_A=\mu_B\) wäre gültig. Mit anderen Worten: Es gibt hinsichtlich \(\mu\) keinen Unterschied zwischen Populationen. (Wir ignorieren hier erst einmal, dass sich Populationen dann trotzdem hinsichtlich z.B. der Varianz unterscheiden können. Später werden wir sehen, dass tatsächlich oft angenommen wird, die beiden Populationen haben die gleiche Varianz. Man redet dann von Varianzhomogenität.) Ähnlich wie in Teil 10 nehmen wir vereinfacht an, wir würden alle Elemente der Population(en) \(A\) und \(B\) kennen.

Die folgende Abbildung stellt nun zwei Populationen \(A\) und \(B\) dar, die sich hinsichtlich \(\mu\) nicht unterscheiden:

Gilt also die Nullhypothese, dass beide Erwartungswerte gleich sind, also \(H_0: \mu_A=\mu_B\), dann könnten wir auch sagen, beide Populationen unterscheiden sich nicht und es gibt eigentlich nur eine einzige Population:

Führen wir nun eine Studie durch, würden wir dennoch zwei Stichproben \(A\) und \(B\) ziehen. Gilt aber die \(H_0\), stammen beide Stichproben aus der gleichen Population. Die folgende Abbildung illustriert, dass zwei Stichproben vom Umfang \(n=2\) aus dieser Population gezogen werden. Für beide Stichproben werden die entsprechenden Mittelwerte \(M_A\) und \(M_B\) berechnet und daraus dann ein Differenzwert \(D = M_A-M_B=-2.0\):

Diesen Vorgang wiederholen wir nun, und erhalten dieses Mal \(D=2.0\).

Diesen Vorgang können wir nun sehr häufig (oder unendlich viele Male) wiederholen. Technisch gesehen, können wir dann eine Zufallsvariable betrachten, die jeder Paarung zweier Stichproben \(A\) und \(B\) vom Umfang \(n=2\) die Differenz ihrer Mittelwerte zuordnet, also \(D=M_A-M_B\). Von dieser (hier: diskreten) Zufallsvariablen können wir dann auch eine Verteilung bzw. Wahrscheinlichkeitsfunktion bestimmen und uns insbesondere fragen:

  • Welche Werte(bereiche) für \(D\) kommen besonders häufig vor?
  • Welche Werte(bereiche) für \(D\) kommen selten vor?
  • Ähnelt die resultierende Verteilung optisch einer bestimmten Verteilung, die wir bereits kennen?

Dabei ist stets zu bedenken, dass die Fragen nun beantwortet werden vor dem Hintergrund, die \(H_0\) würde gelten. Bevor Sie weiterlesen, versuchen Sie diese Fragen selbst zu beantworten.

11.2.2 Simulationsergebnisse

Natürlich führen wir die häufigen Wiederholungen der Stichprobenziehungen nicht per Hand durch, sondern per Simulation. Der folgende Code wiederholt die Stichprobenziehung 5000 mal und die resultierenden Differenzwerte werden als Histogramm relativer Häufigkeiten visualisiert:

library(HistogramTools)             # Paket um relative Häufigkeiten mit 
                                    # PlotRelativeFrequency() zu plotten
set.seed(4)                         # zur Reproduzierbarkeit, kann auch geändert
                                    # werden, um andere Ergebnisse zu erhalten

population <- c(4,7,3,5,4,9,2,5,6,8,5,4,3,6,7,4,5,6,8,6)  # Definition der Population
repetitions <- 5000                 # wie oft wird gezogen?
size <- 2                           # Stichprobengröße

Ds <- NULL                       # späterer Vektor mit den Differenzwerten

for (i in 1:repetitions) {          # soviele Wiederholungen wie "repetitions"
  
  # zunächst werden die Stichproben gezogen
  # Erst eine große Stichprobe mit size*2 vielen Elementen ohne Zurücklegen...
  stichprobe_gesamt <- sample(x = population, 
                              size = 2 * size,
                              replace = FALSE)
  # ...und diese dann aufteilen in die zwei Stichproben A und B:
  stichprobe_A <- stichprobe_gesamt[1:size]                # 1. Hälfte
  stichprobe_B <- stichprobe_gesamt[ (size+1) : (2*size)]  # 2. Hälfte
  
  # Berechnung und Speicherung der Differenz der Mittelwerte...
  differenz <- mean(stichprobe_A) - mean(stichprobe_B)
  Ds <- c(Ds, differenz)
    
}

# dann ein Histogramm der relativen Häufigkeiten plotten
PlotRelativeFrequency( hist(Ds, breaks = 20, plot = FALSE), 
                       main = "relative Häufigkeiten der Differenzen",
                       xlab = expression(plain("Differenz ")~D==M[A]-M[B]),
                       ylab = "relative Häufigkeit",
                       xlim = c(-8,8),
                       ylim = c(0,0.15),
                       axes = FALSE ,
                       col = "gray90",
                       cex.lab = 1.2)
abline(h=0)
axis(1, at = seq(-8,8,2))
axis(2,)

Betrachten wir dieses Histogramm, werden drei Dinge deutlich:

  • Werte um 0 kommen besonders häufig vor, während….
  • …betragsmäßig große Werte (d.h. sowohl negative als auch positive große Werte) seltener werden.
  • Zudem ist die resultierende Verteilung symmetrisch um 0.

11.3 Entscheidungen auf Basis der Simulation

Wir können das eingangs dargestellte Entscheidungsschema nun ein Stückchen erweitern. Insbesondere haben wir nun simuliert, welche Mittelwertunterschiede eigentlich zu erwarten sind, wenn die Nullhypothese tatsächlich gelten würde. Es ist hier wichtig zu realisieren, dass wir diese Annahme quasi in die Simulation “eingebaut” haben, indem wir die Stichproben aus der gleichen Population gezogen haben. Die resultierende Verteilung ist nun die Basis für das weitere Vorgehen:

11.3.1 Kritische Werte

Im Folgenden tun wir nun so, als würden wir diese simulierte Verteilung der errwarteten Differenzwerte kennen (wenn die Nullhypothese gilt!). Tatsächlich haben wir aber im Normalfall nicht 5000 Studien durchgeführt, sondern genau 1 Studie. Zusätzlich wissen wir–anders als in der Simulation–ja nicht, ob die \(H_0\) oder die \(H_1\) gilt; wir wollen ja am Ende eine Entscheidung treffen, an welche Hypothese wir glauben. (Wir werden am Ende dieses Teils und dann in Teil 12 sehen, dass die Probleme dieser recht unrealistischen Annahmen gar nicht so groß sind, wie es nun vielleicht erst einmal klingt.)

  • Fall 1: Die Studie hat \(D=0.5\) ergeben. Betrachten wir die Verteilung der relativen Häufigkeiten der simulierten Differenzwerte, stellen wir fest, dass Werte \(D\geq 0.5\) scheinbar generell sehr häufig auftreten (die orange-farbenen Balken), wenn die \(H_0\) gilt:

  • Fall 2: Die Studie hat \(D=4.0\) ergeben. Betrachten wir die Verteilung der relativen Häufigkeiten der simulierten Differenzwerte, stellen wir fest, dass Werte \(D\geq 4.0\) scheinbar sehr selten auftreten (die orange-farbenen Balken), wenn die \(H_0\) gilt:

Warum haben wir hier immer formuliert, “Werte ‘größer oder gleich’ sind soundso häufig?” Diese Formulierung wird später noch sehr wichtig werden. Momentan reicht, wenn wir uns klarmachen, dass für die Alternativhypothese \(\mu_A>\mu_B\) insbesondere große Werte von \(D=M_A-M_B\) sprechen. Je größer ein Wert, desto mehr spricht er also für die \(H_1\) und damit gegen die \(H_0\). Dies ist ein Grund, warum nicht nur der konkrete Wert von \(D\), sondern eben auch die noch größeren Werte mit einbezogen werden. (Der zweite Grund ist, dass wir zukünftig mit Dichtefunktionen stetiger Zufallsvariablen arbeiten und dann die Wahrscheinlichkeit eines einzelnen Wertes Null ist.)

Zusammenfassend können wir für die beiden betrachteten Fälle festhalten:

  • Fall 1 (\(D=0.5\))
    • Werte \(D\geq 0.5\) sind bei Gültigkeit der \(H_0\) sehr wahrscheinlich.
    • Dies interpretieren wir so, dass–wegen der großen Wahrscheinlichkeit einen solchen Wert zu erhalten, wenn die \(H_0\) gilt–es wenig Anlass zum Zweifel an dieser Annahme gibt.
    • Wir entscheiden uns also, (weiterhin) davon auszugehen, dass tatsächlich die \(H_0\) gilt.
  • Fall 2 (\(D=4.0\))
    • Werte \(D\geq 4.0\) sind bei Gültigkeit der \(H_0\) sehr unwahrscheinlich.
    • Dieses Ergebnis nehmen wir nun zum Anlass zu sagen: “Da diese Werte–bei Annahme der Gültigkeit der \(H_0\)– nur so selten auftreten, haben wir berechtigte Zweifel an genau dieser Annahme.”
    • Wir entscheiden uns in diesem Fall also, davon auszugehen, die \(H_1\) würde gelten und der postulierte Unterschied in den Erwartungswerten läge tatsächlich vor.

Die nächste Frage, die es zu klären gilt, ist nun: Was bedeutet sehr unwahrscheinlich, um hinreichend Zweifel an der Gültigkeit der \(H_0\) zu säen? Auf diese Frage kann die Statistik keine klare Antwort geben. Allerdings gibt es Konventionen, die sich in der Forschungswelt etabliert haben. Wir einigen uns hier auf eine Wahrscheinlichkeit von 0.05 (also 5%) und nennen diese Wahrscheinlichkeit \(\alpha\) (kleines “Alpha”).

Betrachten wir noch einmal kurz die Hypothesen (auch wenn wir das Folgende gerade schon implizit gesagt haben): \[H_0:\mu_A\leq\mu_B\text{ und }H_1:\mu_A>\mu_B\] Die \(H_1\) postuliert, dass \(\mu_A\) größer als \(\mu_B\) sein soll. Dies nennt man eine gerichtete Alternativhypothese (und dieser Fall ist zunächst einfacher zu verstehen, wir werden den Fall ungerichteter Hypothesen aber im nächsten Teil 12 aufgreifen). Gegen die Nullhypothese (bzw. für die Alternativhypothese) sprechen daher besonders hohe positive \(D\)-Werte.

Gemeinsam mit dem gerade eingeführten Wert \(\alpha=.05\) als Definition für “sehr unwahrscheinlich”, würden wir uns also für die \(H_1\) entscheiden, wenn der \(D\)-Wert unserer Studie bzw. ein größerer \(D\)-Wert nur mit einer Wahrscheinlichkeit von maximal \(\alpha=.05\) vorkommt.

In der folgenden Abbildung sind nun diejenigen möglichst großen Differenzwerte rot eingezeichnet, die zusammen in etwa 5% aller auftretenden Differenzwerte (der obigen Simulation) ausmachen. Im Beispiel wären das alle Werte \(D\geq 3.0\):

Diese Betrachtung heißt aber nun auch: Wenn die \(H_0\) gilt, dann kommt \(D\geq 3.0\) mit einer relativen Häufigkeit (d.h., bei einer unendlich langen Simulation mit einer Wahrscheinlichkeit) von nur etwa 0.05 vor. Diesen Wert (hier also: 3.0) nennen wir den kritischen \(D\)-Wert, \(D_\text{krit}\), und auf seiner Basis können wir eine erste fomale Entscheidungsregel formulieren:

Entscheidungsregel 1: “Wenn \(D\geq D_\text{krit}\) ist, dann tritt der \(D\)-Wert (bzw. ein noch größerer) so selten auf, wenn die \(H_0\) gelten würde, dass wir an dieser Annahme Zweifel haben. Wir entscheiden uns daher für die \(H_1\).”

11.3.2 Entscheidungsschema

Auf Basis der Überlegungen zu kritischen Werten und der Entscheidungsregel können wir das oben bereits eingeführte Schema nun weiter vervollständigen (bevor wir noch eine alternative Entscheidungsregel kennenlernen werden):

11.3.3 \(p\)-Werte

Die Entscheidungsregel mit kritischen Werten ist die “klassische Entscheidungsregel” und hat (historisch gesehen) den Vorteil, dass diese Werte in Form von Tabellen etc. aufgelistet werden können. In der heutigen Praxis wird aber oft eine andere Regel verwendet, die auf sog. p-Werten basiert. Dazu bestimmen wir die Wahrscheinlichkeit \(p\), mit der der \(D\)-Wert der Studie oder ein noch größerer \(D\)-Wert auftreten, wenn die \(H_0\) gilt. Ist dieses so berechnete \(p\) kleiner bzw. gleich dem Wert \(\alpha\), dann entscheiden wir uns für die \(H_1\), da der \(D\)-Wert oder ein größerer \(D\)-Wert hinreichend unwahrscheinlich ist (genauer mit einer Wahrscheinlichkeit von \(p\) vorkommt), wenn die \(H_0\) gilt (!). Anmerkung: Bei unserem aktuellen Gedankenexperiment gibt es im eigentlichen Sinne keine Wahrscheinlichkeiten, sondern nur simulierte relative Häufigkeiten. Für uns sind diese relativen Häufigkeiten hier aber hinreichende Approximationen an Wahrscheinlichkeiten :).

Wir bleiben bei der gerichteten Alternativhypothese \(H_1:\mu_A> \mu_B\) und nehmen an, wir würden \(D=3.5\) erhalten haben. Wiederum basierend auf der oben erzeugten Verteilung relativer Häufigkeiten für \(D\)-Werte, sind nun diejenigen Werte rot gefärbt, die größer oder gleich \(D=3.5\) sind. Dies sind etwa 1.92% aller \(D\)-Werte und die entsprechende relative Häufigkeit dieser Werte können wir in unserem Fall wiederum approximativ als Wahrscheinlichkeit interpretieren. Differenzwerte \(D\geq 3.5\) kommen also mit einer Wahrscheinlichkeit von etwa \(p=.0192\) vor.

Daraus können wir eine zweite Entscheidungsregel formulieren:

Entscheidungsregel 2: “Wenn \(p\leq\alpha\) ist, dann tritt der \(D\)-Wert bzw. ein noch größerer \(D\)-Wert so selten auf, wenn die \(H_0\) gelten würde, dass wir an dieser Annahme Zweifel haben. Wir entscheiden uns daher für die \(H_1\).”

11.3.4 \(p\)-Werte vs. kritische Werte

Wir haben nun die beiden möglichen Entscheidungsregeln eingeführt, auf Basis derer wir Entscheidungen zwischen \(H_0\) und \(H_1\) treffen können. Diese Logik wird bei den “tatsächlichen” Signifikanztests ganz ähnlich immer wieder vorkommen. Vorab wollen wir hier aber noch ein paar Dinge direkt anmerken, auf die wir auch weiter immer wieder hinweisen werden.

Zunächst einmal bleibt festzuhalten, dass beide Entscheidungsregeln immer zur gleichen Entscheidung kommen. Da der kritische Wert von \(\alpha\) abhängt, bedeutet \(p\leq \alpha\) auch immer, dass \(D\geq D_\text{krit}\) gilt (siehe hier für eine interaktive Visualisierung anhand des \(t\)-Tests; siehe Kapitel 12). Entscheidet man sich schließlich dafür, fortan von der Gültigkeit der \(H_1\) auszugehen, so wird auch von einem signifikanten Ergebnis gesprochen.

Darüber hinaus ist der \(p\)-Wert bei genauerer Betrachtung eine bedingte Wahrscheinlichkeit. Der \(p\)-Wert wurde schließlich bestimmt unter der Annahme, die \(H_0\) würde gelten. Er ist daher eine bedingte Wahrscheinlichkeit über Daten, gegeben \(H_0\) gilt: \[p=p(\text{Daten}|H_0)\] Das bedeutet aber auch, dass er tatsächlich “nur” etwas über die Wahrscheinlichkeit von Daten aussagt, nicht aber über die Wahrscheinlichkeit der Nullhypothese. Tatsächlich wird diese ja als gültig angenommen (aber diese Annahme kann falsch sein).

Eine frequentistische Interpretation des \(p\)-Werts wäre: Würde man das gleiche Zufallsexperiment unendlich oft (unter stets gleichen Bedingungen) wiederholen, so erhält man einen Wert größer/gleich \(D\) mit einer relativen Häufigkeit von \(p\) (d.h., in \(p\cdot 100\)% aller Fälle).

11.4 Ausblick

Im abschließenden Abschnitt von Teil 11 betrachten wir noch einige Aspekte, die auch in den folgenden Tests dann immer eine Rolle spielen werden (und die entsprechend auch immer wieder erwähnt und detaillierter ausgeführt werden). Schließlich geben wir noch einen Ausblick auf die Familie der \(t\)-Tests, die geeignet sind, die hier betrachtete Situation genauer abzubilden und den “eigentlichen” inferenzstatistischen Test darstellen (auch wenn die Logik exakt die gleiche wie bei unseren Simulationen sein wird).

11.4.1 Fehlentscheidungen

Zunächst betrachten wir noch einmal die Situation mit dem kritischen Wert \(D_{krit}=3.0\), wie in der folgenden Abbildung dargestellt:

Nun stellen wir uns vor, Sie führen eine Studie durch (d.h. Sie ziehen einmal zwei Stichproben aus der gleichen Population, da ja die \(H_0\) angenommen wird) und sie erhalten den Wert \(D=4.5\). Wie entscheiden Sie sich nun?

Gemäß der oben eingeführten Entscheidungsregel 1, würde die Entscheidung für die \(H_1\) ausfallen. Wichtig ist aber nun, sich klarzumachen, dass in der Simulation die \(H_0\) gilt; beide Stichproben stammen ja aus der gleichen Population! Dies bedeutet aber: Auch wenn die \(H_0\) tatsächlich gilt, kommen \(D\)-Werte vor, aufgrund derer Sie sich für die \(H_1\) entscheiden. Solche Werte kommen zwar nur selten vor, aber sie kommen eben vor. Ob der \(D\)-Wert einer einzelnen Studie einer dieser seltenen Werte ist, oder tatsächlich daher rührt, dass die beiden Populationen sich hinsichtlich des Erwartungswertes unterscheiden (siehe dazu auch den nächsten Abschnitt), wissen wir aber nie.

Als Fehler 1. Art oder \(\alpha\)-Fehler wird eine falsche Entscheidung bezeichnet, bei der in der Population tatsächlich die \(H_0\) gilt, wir uns aber für die \(H_1\) entscheiden. Auch hier ist ein weiterer Aspekt bereits erwähnenswert: In der bisher betrachteten Situation wissen wir (aufgrund der Programmierung der Simulation), was in der Population zutrifft. Daher können wir hier auch klar sagen, ob wir eine richtige Entscheidung treffen würden oder einen Fehler begehen. In der Realität wollen wir aber gerade eine Entscheidung zwischen \(H_0\) und \(H_1\) herbeiführen. Da wir also nicht wissen, was in der Population zutrifft, wissen wir auch nie, ob unsere Entscheidung richtig oder falsch ist. Wir haben aber immerhin durch die Wahl eines relativ kleinen Wertes für \(\alpha\) die Wahrscheinlichkeit eines Fehlers 1. Art klein gehalten.

11.4.2 Gültigkeit der Alternativhypothese

Bisher sind wir von der Gültigkeit der \(H_0\) ausgegangen, d.h. wir haben zwei Stichproben aus einer einzigen Population gezogen und unter dieser Bedingung den kritischen Wert bestimmt. Nun nehmen wir an, es würde in der Population eine ganz bestimmte \(H_1\) gelten, derzufolge sich \(\mu_A\) und \(\mu_B\) um einen bestimmten Betrag unterscheiden. Die beiden Stichproben werden dann jeweils aus zwei verschiedenen Populationen gezogen.

Wir haben diese Situation nun so herbeigeführt, dass wir zu jedem Wert der Ausgangspopulation (die nun die Population \(B\) darstellt) einfach 2 dazu addiert haben. Die Population \(A\) hat daher einen Erwartungswert, der um genau 2 größer ist, als der von Population \(B\): \[\mu_A=\mu_B + 2\] Nun führen wir die gleiche Simulation wie weiter oben durch, nur ziehen wir Stichprobe \(A\) nun aus der Population \(A\) und Stichprobe \(B\) entsprechend aus Population \(B\):

Hier sehen wir als besonders wichtiges Merkmal, dass der Peak der relativen Häufigkeiten nun um die 2 herum liegt (statt bei 0, wie in der obigen Simulation). Nun zeichnen wir noch den kritischen Wert ein, den wir oben aus Basis der \(H_0\)-Annahme bestimmt haben und bestimmen wieviel Prozent aller Differenzwerte \(D\) kleiner bzw. größer als \(D_\text{krit}\) sind:

Nun betrachten wir wieder zwei Fälle und fragen uns, wie die Entscheidung ausfallen würde:

  • Fall 1: Wir erhalten \(D=4.5\). Auf Basis der Entscheidungsregel entscheiden wir uns für die \(H_1\) (weil \(D\geq 3.0\)). Würde nun aber tatsächlich die spezifische \(H_1\) der letzten Simulation gelten, hätten wir eine richtige Entscheidung getroffen.
  • Fall 2: Wir erhalten \(D=2.0\). Auf Basis der Entscheidungsregel entscheiden wir uns für die \(H_0\) (weil \(D< 3.0\)). Würde nun aber tatsächlich die spezifische \(H_1\) der letzten Simulation gelten, hätten wir eine falsche Entscheidung getroffen.

Als Fehler 2. Art oder \(\beta\)-Fehler wird eine falsche Entscheidung bezeichnet, wenn in der Population eine bestimmte \(H_1\) gilt, die Entscheidung aber für die \(H_0\) ausfällt. Wir sehen, dass selbst in der Simulation, in die wir die \(H_1\) quasi rein-programmiert haben, dennoch viele \(D\)-Werte so ausfallen, dass wir uns fälschlicherweise für die \(H_0\) entscheiden würden. Dies sind die orange-farbenen Balken im vorherigen Histogramm und ihre Gesamtwahrscheinlichkeit ist die maximale Wahrscheinlichkeit einen Fehler 2. Art zu begehen. Wir nennen diese Wahrscheinlichkeit hier schon einmal \(\beta\).

Die blauen Balken sind diejenigen \(D\)-Werte bei denen wir, bei Gültigkeit der speziellen \(H_1\), eine richtige Entscheidung treffen würden. Ihr Gesamtwahrscheinlichkeit ist dann \(1-\beta\) und wird Power oder Teststärke genannt. Wir werden auf die Fehler und auf die Power in Teil 14 detailliert zurück kommen.

11.4.3 Die Familie der \(t\)-Tests

Bisher haben wir \(D=M_A-M_B\) ermittelt und eine Zufallvariable betrachtet, die jeder Paarung zweier Stichproben \(D\) zuweist. Die Wahrscheinlichkeiten für das Auftreten von Wertebereichen von \(D\) haben wir mit einer Simulation ermittelt, bei der–wenn die \(H_0\) angenommen wird–die entsprechenden \(D\)-Werte symmetrisch um 0 verteilt waren und deren Form einer Normalverteilung ähnelte.

Das Problem dabei ist aber: Im realen Fall haben wir nur das Ergebnis einer einzelnen Studie und keine Simulationen vorher durchgeführt. Wie kommen wir nun an die Wahrscheinlichkeiten für bestimmte Werte und Wertebereiche ohne Simulation?

Die Lösung dazu werden wir in Teil 12 genauer präsentieren und hier nur kurz skizzieren. Tatsächlich berechnen wir statt \(D\) den folgenden Wert \(t\): \[t=\frac{M_A-M_B}{SE_{M_A-M_B}},\] also die Mittelwertdifferenz dividiert durch ihren Standardfehler. In diesem Fall können wir von einer Zufallsvariablen, die z.B. jeder Paarung zweier Stichproben genau diesen Wert \(t\) zuweist, sprechen und, wenn wir die \(H_0\) annehmen, deren Verteilung mathematisch (statt mit Simulationen) bestimmen: Wenn die \(H_0\) gilt, ist eine solche Zufallsvariable (zentral) \(t\)-verteilt!