Bei den bisherigen Betrachtungen sind wir von der (angenommenen) Gültigkeit der Nullhypothese ausgegangen und die Entscheidungsregeln (sowohl mittels kritischer Werte als auch mit dem \(p\)-Wert) bauten auf dieser Annahme auf. Nun gehen wir einen letzten Schritt weiter und nehmen an, eine bestimmte Alternativhypothese würde gelten.

Aufbauend auf den Überlegungen die uns dann zum Konzept der Power (bzw. der Teststärke) bringen, erlaubt uns dies schließlich auch die Berechnung einer optimalen Stichprobengröße vor der Durchführung einer Studie.

Begleitende ShinyApps zu diesem Thema:

Ergänzende Hinweise finden sich auch in:

1 Ausgangssituation

1.1 Bisher: zwei Populationen mit \(\mu_A = \mu_B\)

Bisher sind wir bei der Bestimmung der Verteilung der Zufallsvariablen \(\mathbf{t}\) von der Gültigkeit der Nullhypothese ausgegangen bzw. präziser: von dem Teil der Nullhypothese, der die Gleichheit der Erwartungswerte postuliert, also \(\mu_A=\mu_B\) oder als Effekstärke ausgedrpckt \(\delta = 0.0\). Bei gleichzeitiger Varianzhomogenität (d.h. \(\sigma_A^2=\sigma_B^2\)) lässt sich diese Situation wie folgt visualisieren, wobei wir hier davon ausgehen, beide Erwartungswerte seien Null:

Unter dieser Bedingungen war die Zufallsvariable \(\mathbf{t}\) zentral t-verteilt mit \(m\) Freiheitsgraden, also \[\mathbf{t}\overset{H_0}{\sim}t_m\]

1.2 jetzt: zwei Populationen mit \(\mu_A \neq \mu_B\)

Nun nehmen wir entsprechend an, eine bestimmte der möglichen Alternativhypothesen würde gelten und fragen uns, wie die Zufallsvariable \(\mathbf{t}\) dann verteilt ist. Die entsprechende Ausgangslage kann wie folgt dargestellt werden, hier für \(\mu_A=\mu_B+3\) bzw. \(\delta = 3.0\) (wenn \(\sigma_A^2=\sigma^2_B=0\)):

2 Nonzentrale \(t\)-Verteilungen und Power

Stammen zwei unabhängige Stichproben aus Populationen mit je verschiedenem Erwartungswert \(\mu_A\neq \mu_B\), dann ist die Zufallsvariable \(\mathbf{t}\) nicht mehr zentral \(t\)-verteilt, sondern nonzentral \(t\)-verteilt. Die nonzentrale \(t\)-Verteilung hat (auch) \(m\) Freiheitsgrade, aber zusätzlich einen Nonzentralitätsparameter \(ncp\), der proportional zum Effekt \(\delta\) in der Population ist:1 \[ncp = \delta\cdot\sqrt{\frac{n_A\cdot n_B}{n_A+n_B}}\]

Die folgende Abbildung stellt die zentrale t-Verteilung mit \(ncp = 0\) und verschiedene zentrale t-Verteilungen einander gegenüber:

Ersichtlicherweise sind nonzentrale t-Verteilungen nicht mehr symmetrisch um Null und je größer der Effekt \(\delta\) ist, desto größer ist der Nonzentralitätsparameter \(ncp\) und desto weiter weg von Null und desto "breiter" und einseitig steiler ist die Verteilung (hier links steiler als rechts).

Die folgende Abbildung stellt die beiden Situationen "Nullhypothese gilt" (links) und "eine bestimmte Alternativhypothese gilt" (rechts) einander gegenüber:

Der kritische Wert wurde, wie gewohnt, unter Annahme der Gültigkeit der Nullhypothese bestimmt. Die farbigen Abschnitte der Verteilungen bedeuten dann folgendes:

  • rot: \(\alpha\cdot 100\)% der Fläche ab kritischem \(t\)-Wert bei Gültigkeit der Nullhypothese \(\Rightarrow\) \(t\geq t_{\text{krit}}\) ist dann ein Fehler 1. Art
  • grün: \((1-\alpha)\cdot 100\)% der Fläche bis zu kritischem \(t\)-Wert bei Gültigkeit der Nullhypothese \(\Rightarrow\) \(t< t_{\text{krit}}\) ist dann korrekte Entscheidung
  • orange: Fläche \(\beta\) bis zu kritischem \(t\)-Wert bei Gültigkeit der Alternativhypothese \(\Rightarrow\) \(t< t_{\text{krit}}\) ist dann ein Fehler 2. Art
  • blau: Fläche \(1-\beta\) ab kritischem \(t\)-Wert bei Gültigkeit der Alternativhypothese \(\Rightarrow\) \(t\geq t_{\text{krit}}\) ist dann korrekte Entscheidung

Zusammengefasst also:

  • Der kritische \(t\)-Wert wird aufgrund eines gewählten \(\alpha\) unter Annahme der Nullhypothese berechnet.
  • Die blaue Fläche unter der nonzentralen \(t\)-Verteilung bei einer bestimmten Alternativhypothese (die einen bestimmten Effekt annimmt), also die Wahrscheinlichkeit bei Gültigkeit dieser Alternativhypothese ein signifikantes Ergebnis zu bekommen (\(t\geq t_{\text{krit}}\)), ist die Power oder Teststärke. Man schreibt für die Power auch \(1-\beta\).
  • Die maximale Wahrscheinlichkeit eines Fehlers 2. Art ist dann \(\beta\), also die Fläche unter der nonzentralen \(t\)-Verteilung bis zu \(t_{\text{krit}}\).

Cohen (1988, S. 4) hat die Power definiert als: "The power of a statistical test of a null hypothesis is the probability that it will lead to the rejection of the null hypothesis, i.e., the probability that it will result in the conclusion that the phenomenon exists."

3 Einflussfaktoren auf die Power

Es gibt mehrere Faktoren, die die Power beeinflussen:

1. Wahl des Signifikanzniveaus \(\alpha\):

  • Wird \(\alpha\) kleiner gewählt, wird \(t_{\text{krit}}\) dadurch größer und die Power \(1-\beta\) wird entsprechend bzw. die maximale Wahrscheinlichkeit \(\beta\) eines Fehlers 2. Art wird größer.
  • Wird \(\alpha\) größer gewählt, wird \(t_{\text{krit}}\) dadurch kleiner und die Power \(1-\beta\) wird entsprechend größer bzw. die maximale Wahrscheinlichkeit \(\beta\) eines Fehlers 2. Art wird kleiner.

2. "Wahre" Größe des Effektes \(\delta\):

  • Je größer der Effekt \(\delta\) in der Population ist, desto größer ist auch der Nonzentralitätsparameter. Dadurch wird die nonzentrale \(t\)-Verteilung weiter von der Null verschoben.
  • Bei gleichbleibendem \(t_{\text{krit}}\) wird als Konsequenz dann die Power \(1-\beta\) auch entsprechend größer.
  • Allerdings ist zu beachten, dass der "wahre" Effekt \(\delta\) nicht beeinflussbar ist.

3. Verringerung des Standardfehlers im Nenner des \(t\)-Bruchs: Den \(t\)-Bruch hatten wir wie folgt definiert, wobei im Nenner der Standardfehler der (im Zähler stehenden) Mittelwertdifferenz zu finden ist: \[t=\frac{M_A-M_B}{\sqrt{\frac{(n_A-1)\hat{S}^2_A+(n_B-1)\hat{S}^2_B}{n_A+n_B-2}}\cdot\sqrt{\frac{1}{n_A} +\frac{1}{n_B}}}\] Der \(t\)-Bruch würde also größer werden, wenn der Standardfehler kleiner wird. Hier gibt es zwei Ansatzpunkte:

  • Eine kleinere Populationsvarianz führt (tendenziell) auch kleineren Stichprobenvarianzen. Die Populationsvarianz ist allerdings nicht beeinflussbar.
  • Eine größere Stichprobe \(n\) sorgt aber ebenfalls dafür, dass der Nenner kleiner und der \(t\)-Bruch dadurch größer wird. Mit der Stichprobengröße haben wir zudem einen gut beeinflussbaren Faktor.

Die Wirkungen dieser Faktoren können mit dieser ShinyApp nachvollzogen werden.

4 Optimaler Stichprobenumfang

Eine wichtige Erkenntnis ist, dass die Power eines Tests mit der Stichprobengröße steigt. Dies können wir auch anhand einer Simulation illustrieren, die die relative Häufigkeit signifikanter \(t\)-Tests als Funktion der Stichprobengröße bestimmt. Es zeigt sich aber auch, dass die Zunahme der Power mit der Stichprobengröße nicht linear ist, sondern sie zunächst stark ansteigt, während später die Zunahme immer geringer wird.

repetitions <- 1000
samplesizes <- c(2,10,20,30,40,50,60,70,80,90,100) # pro Gruppe
delta <- 0.5
alpha <- 0.05

sig <- numeric(repetitions * length(samplesizes))
i <- 1
# simuliert
for (n in samplesizes) {
  for (j in 1:repetitions) {
    sample1 <- rnorm(n, 0, 1)
    sample2 <- rnorm(n, delta, 1)
    t.res <- t.test(sample1,
                    sample2,
                    var.equal = TRUE)
    sig[i] <- ifelse(t.res$p.value <= alpha,1,0)
    i <- i+1
  }
}

sig.matrix <- t(matrix(sig,
                       repetitions,
                       length(samplesizes)))
percent.sig <- rowMeans(sig.matrix)

# analytisch (vgl. unten)
power <- power.t.test(delta = delta,
                      n = samplesizes, 
                      type = "two.sample",
                      sig.level = alpha)$power

# plotten
plot(samplesizes,
     percent.sig, 
     pch = 19,
     cex = 1.5,
     ylim = c(0,1),
     axes = FALSE,
     cex.lab = 1.2,
     xlab="Gesamt-Stichprobengröße",
     ylab = expression(paste("rel. Hfgk. signifikant / ",1-beta)))

axis(2)
axis(1,
     at = samplesizes,
     labels = samplesizes*2)
abline(h = c(0,1),
       lty = c(1,2))
points(samplesizes,
       power,
       type = "l",
       lty = 1.5)

In der Abbildung sind die schwarzen Kreise die simulierten Datenpunkte und die durchgezogene Linie stellt die (mit der Funktion power.t.test(); siehe weiter unten) analytisch bestimmte Power dar:

Insgesamt gibt es also vier voneinander abhängige Größen:

  1. das gewählte \(\alpha\)
  2. die Effektstärke in der Population
  3. die Power \(1-\beta\)
  4. der Stichprobenumfang \(n\)

Kennen wir drei dieser Größen, kann die vierte davon bestimmt werden. Dies ermöglicht daher Antworten auf bspw. folgende Frage: Jemand geht von einem bestimmten Effekt \(\delta=0.5\) in der Population aus, wendet \(\alpha = .05\) und möchte den Effekt, wenn vorhanden, mit einer Power von \(1-\beta=.90\) aufdecken können. Wie groß muss die Stichprobe sein, die dies gewährleistet?

5 Praktische Berechnung

In R können Power-Berechnungen im Kontext von \(t\)-Tests mit der Funktion power.t.test() durchgeführt werden. Die gerade gestellte Frage erfordert bspw. folgenden Aufruf:

power.t.test(n = NULL,                    # n soll bestimmt werden
             delta = 0.5, sd = 1,         # angenommener Effekt
             sig.level = 0.05,            # alpha = 0.05
             power = 0.8,                 # 1-beta = 0.8
             type = "two.sample",         # unabhängige Stichproben
             alternative = "two.sided")   # ungerichtete H1
## 
##      Two-sample t test power calculation 
## 
##               n = 63.76576
##           delta = 0.5
##              sd = 1
##       sig.level = 0.05
##           power = 0.8
##     alternative = two.sided
## 
## NOTE: n is number in *each* group

Der optimale Stichprobenumfang beträgt also \(n=64\) Versuchspersonen pro Gruppe, insgesamt also \(n=128\) Versuchspersonen.

Eine andere Fragestellung wäre: Wir haben \(n=30\) Versuchspersonen pro Gruppe. Wie groß ist die Power, einen Effekt von \(\delta=0.5\) aufzudecken?

power.t.test(n = 30,                      # n pro Gruppe
             delta = 0.5, sd = 1,         # Effekt
             sig.level = 0.05,            # alpha = 0.05
             power = NULL,                # Power soll bestimmt werden
             type = "two.sample",         # unabhängige Stichproben
             alternative = "two.sided")   # ungerichtete H1
## 
##      Two-sample t test power calculation 
## 
##               n = 30
##           delta = 0.5
##              sd = 1
##       sig.level = 0.05
##           power = 0.477841
##     alternative = two.sided
## 
## NOTE: n is number in *each* group

Das Ergebnis hier wäre, dass die Power mit \(1-\beta = .48\) in dieser Situation gering ausfällt.

Eine alternative Möglichkeit der Powerbestimmung bietet das (frei verfügbare) Programm G*Power (Faul, Erdfelder, Lang, & Buchner, 2007).

6 Literatur

Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Hillsdale: Erlbaum.

Faul, F., Erdfelder, E., Lang, A.-G., & Buchner, A. (2007). G*Power 3: A flexible statistical power analysis program for the social, behavioral, and biomedical sciences. Behavior Research Methods, 39, 175-191.


  1. In manchen Publikationen wird der Nonzentralitätsparameter selber mit \(\delta\) bezeichnet (während dann der Effekt oft mit \(\hat{d}\) bezeichnet wird). Im Kontext der \(F\)- oder \(\chi^2\)-Verteilungen wird der Nonzentralitätsparameter häufig mit einem \(\lambda\) bezeichnet. Wir verwenden hier generisch \(ncp\) unabhängig von der Verteilung.