Bei den bisherigen Betrachtungen sind wir von der (angenommenen) Gültigkeit der Nullhypothese ausgegangen und die Entscheidungsregeln (sowohl mittels kritischer Werte als auch mit dem \(p\)-Wert) bauten auf dieser Annahme auf. Nun gehen wir einen letzten Schritt weiter und nehmen an, eine bestimmte Alternativhypothese würde gelten.
Aufbauend auf den Überlegungen die uns dann zum Konzept der Power (bzw. der Teststärke) bringen, erlaubt uns dies schließlich auch die Berechnung einer optimalen Stichprobengröße vor der Durchführung einer Studie.
Begleitende ShinyApps zu diesem Thema:
Ergänzende Hinweise finden sich auch in:
Bisher sind wir bei der Bestimmung der Verteilung der Zufallsvariablen \(\mathbf{t}\) von der Gültigkeit der Nullhypothese ausgegangen bzw. präziser: von dem Teil der Nullhypothese, der die Gleichheit der Erwartungswerte postuliert, also \(\mu_A=\mu_B\) oder als Effekstärke ausgedrpckt \(\delta = 0.0\). Bei gleichzeitiger Varianzhomogenität (d.h. \(\sigma_A^2=\sigma_B^2\)) lässt sich diese Situation wie folgt visualisieren, wobei wir hier davon ausgehen, beide Erwartungswerte seien Null:
Unter dieser Bedingungen war die Zufallsvariable \(\mathbf{t}\) zentral t-verteilt mit \(m\) Freiheitsgraden, also \[\mathbf{t}\overset{H_0}{\sim}t_m\]
Nun nehmen wir entsprechend an, eine bestimmte der möglichen Alternativhypothesen würde gelten und fragen uns, wie die Zufallsvariable \(\mathbf{t}\) dann verteilt ist. Die entsprechende Ausgangslage kann wie folgt dargestellt werden, hier für \(\mu_A=\mu_B+3\) bzw. \(\delta = 3.0\) (wenn \(\sigma_A^2=\sigma^2_B=0\)):
Stammen zwei unabhängige Stichproben aus Populationen mit je verschiedenem Erwartungswert \(\mu_A\neq \mu_B\), dann ist die Zufallsvariable \(\mathbf{t}\) nicht mehr zentral \(t\)-verteilt, sondern nonzentral \(t\)-verteilt. Die nonzentrale \(t\)-Verteilung hat (auch) \(m\) Freiheitsgrade, aber zusätzlich einen Nonzentralitätsparameter \(ncp\), der proportional zum Effekt \(\delta\) in der Population ist:1 \[ncp = \delta\cdot\sqrt{\frac{n_A\cdot n_B}{n_A+n_B}}\]
Die folgende Abbildung stellt die zentrale t-Verteilung mit \(ncp = 0\) und verschiedene zentrale t-Verteilungen einander gegenüber:
Ersichtlicherweise sind nonzentrale t-Verteilungen nicht mehr symmetrisch um Null und je größer der Effekt \(\delta\) ist, desto größer ist der Nonzentralitätsparameter \(ncp\) und desto weiter weg von Null und desto "breiter" und einseitig steiler ist die Verteilung (hier links steiler als rechts).
Die folgende Abbildung stellt die beiden Situationen "Nullhypothese gilt" (links) und "eine bestimmte Alternativhypothese gilt" (rechts) einander gegenüber:
Der kritische Wert wurde, wie gewohnt, unter Annahme der Gültigkeit der Nullhypothese bestimmt. Die farbigen Abschnitte der Verteilungen bedeuten dann folgendes:
Zusammengefasst also:
Cohen (1988, S. 4) hat die Power definiert als: "The power of a statistical test of a null hypothesis is the probability that it will lead to the rejection of the null hypothesis, i.e., the probability that it will result in the conclusion that the phenomenon exists."
Es gibt mehrere Faktoren, die die Power beeinflussen:
1. Wahl des Signifikanzniveaus \(\alpha\):
2. "Wahre" Größe des Effektes \(\delta\):
3. Verringerung des Standardfehlers im Nenner des \(t\)-Bruchs: Den \(t\)-Bruch hatten wir wie folgt definiert, wobei im Nenner der Standardfehler der (im Zähler stehenden) Mittelwertdifferenz zu finden ist: \[t=\frac{M_A-M_B}{\sqrt{\frac{(n_A-1)\hat{S}^2_A+(n_B-1)\hat{S}^2_B}{n_A+n_B-2}}\cdot\sqrt{\frac{1}{n_A} +\frac{1}{n_B}}}\] Der \(t\)-Bruch würde also größer werden, wenn der Standardfehler kleiner wird. Hier gibt es zwei Ansatzpunkte:
Die Wirkungen dieser Faktoren können mit dieser ShinyApp nachvollzogen werden.
Eine wichtige Erkenntnis ist, dass die Power eines Tests mit der Stichprobengröße steigt. Dies können wir auch anhand einer Simulation illustrieren, die die relative Häufigkeit signifikanter \(t\)-Tests als Funktion der Stichprobengröße bestimmt. Es zeigt sich aber auch, dass die Zunahme der Power mit der Stichprobengröße nicht linear ist, sondern sie zunächst stark ansteigt, während später die Zunahme immer geringer wird.
repetitions <- 1000
samplesizes <- c(2,10,20,30,40,50,60,70,80,90,100) # pro Gruppe
delta <- 0.5
alpha <- 0.05
sig <- numeric(repetitions * length(samplesizes))
i <- 1
# simuliert
for (n in samplesizes) {
for (j in 1:repetitions) {
sample1 <- rnorm(n, 0, 1)
sample2 <- rnorm(n, delta, 1)
t.res <- t.test(sample1,
sample2,
var.equal = TRUE)
sig[i] <- ifelse(t.res$p.value <= alpha,1,0)
i <- i+1
}
}
sig.matrix <- t(matrix(sig,
repetitions,
length(samplesizes)))
percent.sig <- rowMeans(sig.matrix)
# analytisch (vgl. unten)
power <- power.t.test(delta = delta,
n = samplesizes,
type = "two.sample",
sig.level = alpha)$power
# plotten
plot(samplesizes,
percent.sig,
pch = 19,
cex = 1.5,
ylim = c(0,1),
axes = FALSE,
cex.lab = 1.2,
xlab="Gesamt-Stichprobengröße",
ylab = expression(paste("rel. Hfgk. signifikant / ",1-beta)))
axis(2)
axis(1,
at = samplesizes,
labels = samplesizes*2)
abline(h = c(0,1),
lty = c(1,2))
points(samplesizes,
power,
type = "l",
lty = 1.5)
In der Abbildung sind die schwarzen Kreise die simulierten Datenpunkte und die durchgezogene Linie stellt die (mit der Funktion power.t.test()
; siehe weiter unten) analytisch bestimmte Power dar:
Insgesamt gibt es also vier voneinander abhängige Größen:
Kennen wir drei dieser Größen, kann die vierte davon bestimmt werden. Dies ermöglicht daher Antworten auf bspw. folgende Frage: Jemand geht von einem bestimmten Effekt \(\delta=0.5\) in der Population aus, wendet \(\alpha = .05\) und möchte den Effekt, wenn vorhanden, mit einer Power von \(1-\beta=.90\) aufdecken können. Wie groß muss die Stichprobe sein, die dies gewährleistet?
In R können Power-Berechnungen im Kontext von \(t\)-Tests mit der Funktion power.t.test()
durchgeführt werden. Die gerade gestellte Frage erfordert bspw. folgenden Aufruf:
power.t.test(n = NULL, # n soll bestimmt werden
delta = 0.5, sd = 1, # angenommener Effekt
sig.level = 0.05, # alpha = 0.05
power = 0.8, # 1-beta = 0.8
type = "two.sample", # unabhängige Stichproben
alternative = "two.sided") # ungerichtete H1
##
## Two-sample t test power calculation
##
## n = 63.76576
## delta = 0.5
## sd = 1
## sig.level = 0.05
## power = 0.8
## alternative = two.sided
##
## NOTE: n is number in *each* group
Der optimale Stichprobenumfang beträgt also \(n=64\) Versuchspersonen pro Gruppe, insgesamt also \(n=128\) Versuchspersonen.
Eine andere Fragestellung wäre: Wir haben \(n=30\) Versuchspersonen pro Gruppe. Wie groß ist die Power, einen Effekt von \(\delta=0.5\) aufzudecken?
power.t.test(n = 30, # n pro Gruppe
delta = 0.5, sd = 1, # Effekt
sig.level = 0.05, # alpha = 0.05
power = NULL, # Power soll bestimmt werden
type = "two.sample", # unabhängige Stichproben
alternative = "two.sided") # ungerichtete H1
##
## Two-sample t test power calculation
##
## n = 30
## delta = 0.5
## sd = 1
## sig.level = 0.05
## power = 0.477841
## alternative = two.sided
##
## NOTE: n is number in *each* group
Das Ergebnis hier wäre, dass die Power mit \(1-\beta = .48\) in dieser Situation gering ausfällt.
Eine alternative Möglichkeit der Powerbestimmung bietet das (frei verfügbare) Programm G*Power (Faul, Erdfelder, Lang, & Buchner, 2007).
Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Hillsdale: Erlbaum.
Faul, F., Erdfelder, E., Lang, A.-G., & Buchner, A. (2007). G*Power 3: A flexible statistical power analysis program for the social, behavioral, and biomedical sciences. Behavior Research Methods, 39, 175-191.
In manchen Publikationen wird der Nonzentralitätsparameter selber mit \(\delta\) bezeichnet (während dann der Effekt oft mit \(\hat{d}\) bezeichnet wird). Im Kontext der \(F\)- oder \(\chi^2\)-Verteilungen wird der Nonzentralitätsparameter häufig mit einem \(\lambda\) bezeichnet. Wir verwenden hier generisch \(ncp\) unabhängig von der Verteilung.↩