Willkommen bei Stats by Randolph. Hier geht es zur Hauptseite mit weiteren Informationen und Inhalten.

Autor:innen dieser Seite: An den Inhalten dieser Seite haben mitgearbeitet: Valentin Koob und Markus Janczyk. Der Inhalt dieser Seite wird in der Lehre in den Studiengängen Psychologie von der AG Psychologische Forschungsmethoden und Kognitive Psychologie an der Universität Bremen verwendet, steht aber allen Interessierten zur Verfügung. Rückmeldungen/Fehler/Vorschläge können gesendet werden an randolph@uni-bremen.

Versionshistory:

v1.0: erste online-gestellte Version (20.6.2024)

14 Grundlagen Bayes-Statistik

In den bisherigen Teilen von Statistik I und II haben wir bei der inferenzstatistischen Absicherung sog. Nullhypothesen-Signifikanztests verwendet. Wir haben dabei festgehalten, dass der \(p\)-Wert immer eine Wahrscheinlichkeit von Daten gegeben eine Hypothese gilt (zumeist die Nullhypothese) ist. Bayesianische Statistik strebt an, Wahrscheinlichkeiten über Hypothesen zu berechnen. Wir werden hier in diesem Teil 14 die Grundbegriffe dieses Ansatzes behandeln.

# Pakete die in diesem Teil benutzt werden:
library(BayesFactor)
library(schoRsch)
library(ez)

14.1 Grundlagen

Den Ansatz der Bayes-Statistik gibt es eigentlich schon sehr lange. In vielen Wissenschaften, wie auch der Psychologie, hatte sich aber der Nullhypothesen-Signifikanztest im Rahmen der Auswertung und Entscheidungsfindung durchgesetzt. In der letzten Zeit wurde aber vermehrt Kritik an diesem Ansatz geäußert und es wurde und es wird teils “hitzig” darüber diskutiert, inwiefern Nullhypothesen-Signifikanztests modifiziert, durch andere Verfahren ergänzt oder gar vollständig von diesen Alternativen abgelöst werden sollten. In diesem Kontext wurde sich auch für die Bayes-Statistik stark gemacht. Dazu kommt vermutlich noch, dass moderne Computer die teils aufwändigen Rechnungen nun auch brauchbar schnell lösen können, um tatsächlich praktisch mit ihnen arbeiten zu können.

Wir können hier diese Diskussion nicht komplett beschreiben und behandeln; die Interessierten unter den Leser:innen finden schnell viele Foren, Artikel, etc. zu diesem Thema. Im Folgenden geht es i.W. um die Grundidee und wichtige Begriffe und Einsatzgebiete. Es soll auch nicht verheimlicht werden, dass es auch an der Bayesianischen Herangehensweise Kritik gibt.

14.1.1 Zwei Wahrscheinlichkeitsbegriffe

Klassische inferenzstatistische Verfahren verfolgen – wie wir insbesondere in Statistik I erarbeitet haben – eine Entscheidungslogik, die nicht darauf abzielt, für eine einzelne Untersuchung notwendigerweise korrekt zu sein. Dies wäre auch ein unerreichbares Ziel und bei allen Entscheidungen können Fehler 1. und 2. Art gemacht werden. Stattdessen wird versucht, über viele Untersuchungen hinweg, in den meisten Fällen eine korrekte Entscheidung zu ermöglichen. Der zentrale Wahrscheinlichkeitsbegriff der klassischen Inferenzstatistik ist also der einer relativen Häufigkeit auf lange Sicht (sog. frequentistischer oder objektiver Wahrscheinlichkeitsbegriff): Gilt die \(H_0\), so entscheidet man sich in 95% der Fälle korrekt für deren Beibehaltung, wenn \(\alpha = 0.05\) angenommen wird. In den verbleibenden 5% der Fälle begeht man einen Fehler 1. Art. Gilt hingegen eine bestimmte \(H_1\), so entscheidet man sich im Mittel in \((1-\beta)\cdot 100\)% der Fälle korrekterweise gegen die \(H_0\), während man in den verbleibenden Fällen einen Fehler 2. Art begeht. Diese Auffassung von Wahrscheinlichkeiten als relative Häufigkeiten auf lange Sicht drückt sich auch direkt im \(p\)-Wert als einer der zentralen Statistiken der Nullhypothesen-Signifikanztests aus. Der \(p\)-Wert war ja nichts anderes als eine bedingte Wahrscheinlichkeit über Daten gegeben eine Hypothese: \[p = P(\text{Daten}|H_0)\]

Der Wahrscheinlichkeitsbegriff der Bayes-Statistik hingegen sieht Wahrscheinlichkeiten als Überzeugungen, also als subjektive Wahrscheinlichkeiten für das Zutreffen einer bestimmten Hypothese an. Diese Überzeugungen beruhen im Kontext wissenschaftlicher Untersuchungen einerseits auf den erhobenen Daten, andererseits auf Vorannahmen über die generelle Wahrscheinlichkeit bzw. Plausibilität einer Hypothese (sog. priors). Im Kontext der Bayes-Statistik ist demnach vor allem folgende Wahrscheinlichkeit von Interesse: \[P(\text{Hypothese}|\text{Daten, Vorannahmen})\] Auf den ersten Blick orientiert sich die Bayes-Statistik also direkter an der Frage, die im Kontext eines Nullhypothesen-Signifikanztests nur über Umwege beantwortet wird: die Frage danach, welche Hypothese man im Angesicht der verfügbaren Datenlage vertreten sollte. Die konsequente Ausrichtung der statistischen Auswertung am eigentlichen Ziel einer Untersuchung wird von Anhänger:innen der Bayes-Statistik häufig als großer Vorteil dieser Methode im Vergleich zum klassischen Vorgehen gesehen. Bei näherer Betrachtung ist die Herangehensweise der Bayes-Statistik jedoch mindestens ebenso indirekt wie die der klassischen Inferenzstatistik. Bevor wir zum zentralen Satz der Bayes-Statistik kommen, dem Satz von Bayes bzw. dem Bayes-Theorem, wollen wir zunächst noch ein Problem bei der Arbeit mit \(p\)-Werten anreißen.

14.1.2 Die Verteilung von \(p\)-Werten

Wir haben im Zusammenhang mit Power bereits gesehen, dass die Wahrscheinlichkeit ein signifikantes Ergebnis zu erzielen steigt, wenn die Stichproben größer werden. Dies legt nahe, dass bei Gültigkeit der (angenommenen) Alternativhypothese die resultierenden \(p\)-Werte tendenziell kleiner werden und gegen Null gehen. Statt dies formal zu zeigen, betrachten wir einfach die Ergebnisse einer Simulation. Grundlage für den oberen rechten Teil der folgenden Abbildung ist eine Alternativhypothese, die einen (mittleren) Effekt von \(\delta = 0.5\) annimmt. Dann wurden jeweils Stichproben verschiedenen Umfangs aus den Populationen gezogen, ein \(t\)-Test berechnet und der \(p\)-Wert extrahiert. Die kleinen Punkte stellen \(p\)-Werte individueller Ziehungen dar, während die roten Punkte die Mittelwerte dieser \(p\)-Werte sind. Erkennbar werden die \(p\)-Werte im Trend kleiner, je größer die zugrunde liegenden Stichproben sind. Die beiden kleinen Abbildungen unten rechts verdeutlichen dies noch einmal. Hier wurden die relativen Häufigkeiten der \(p\)-Werte für zwei exemplarische Stichprobenumfänge visualisiert. Erkennbar gibt es eine schiefe Verteilung mit häufigeren kleinen \(p\)-Werten; ein Muster, welches zudem ausgeprägter ist, wenn die Stichproben größer sind.

Die interessantere – und häufig nicht richtig beantwortete – Frage ist aber: Wie verhält sich der \(p\)-Wert, wenn die Nullhypothese gilt? Denken Sie zunächst einmal kurz darüber nach, bevor Sie weiterlesen! … Eine oft gehörte Antwort auf diese Frage ist, der \(p\)-Wert würde in diesem Fall dann nicht gegen 0, sondern gegen 1 gehen. Leider ist diese Antwort falsch. Der linke-obere Teil der folgenden Abbildung stellt die gleiche Simulation für \(\delta = 0\) dar. Hier wird deutlich, dass in diesem Fall eine steigende Stichprobengröße keinen Einfluss auf die Häufigkeit bestimmter \(p\)-Werte besitzt.

14.2 Der Satz von Bayes

Der Satz von Bayes ist nach einer posthumen Veröffentlichung von Thomas Bayes (1701-1761) benannt. Er beschreibt den Zusammenhang der beiden bedingten Wahrscheinlichkeiten \(P(A|B)\) und \(P(B|A)\), also der bedingten Wahrscheinlichkeit eines Ereignisses \(A\) bei Vorliegen eines Ereignisses \(B\) und der bedingten Wahrscheinlichkeit eines Ereignisses \(B\) bei Vorliegen eines Ereignisses \(A\).

14.2.1 Herleitung

Die Herleitung des Satzes von Bayes ist eigentlich sehr einfach. Ausgangspunkt ist dabei die Definition der beiden bedingten Wahrscheinlichkeiten, die wir direkt minimal umformen: \[P(A|B)=\frac{P(A\cap B)}{P(B)}\Leftrightarrow P(A\cap B)=P(A|B)\cdot P(B)\] bzw. \[P(B|A)=\frac{P(B\cap A)}{P(A)}\Leftrightarrow P(B\cap A)=P(B|A)\cdot P(A)\] Da nun \(P(B\cap A)=P(A\cap B)\) ist, können wir die beiden rechtesten Teile gleichsetzen und eine kleine Umformung ergibt bereits den Satz von Bayes: \[\begin{equation*} \begin{aligned} &P(A|B)\cdot P(B)=P(B|A)\cdot P(A)\\ \Leftrightarrow & \boxed{P(A|B)=\frac{P(B|A)\cdot P(A)}{P(B)}} \end{aligned} \end{equation*}\]

Mithilfe dieses Satzes kann also die bedingte Wahrscheinlichkeit von \(A\) gegeben \(B\), also \(P(A|B)\), ausgedrückt werden durch die bedingte Wahrscheinlichkeit von \(B\) gegeben \(A\), also \(P(B|A)\), sowie den beiden Wahrscheinlichkeiten von \(A\) und \(B\) einzeln, also \(P(A)\) und \(P(B)\). Bevor wir weiter betrachten, was wir hieraus gewinnen können, schauen wir zunächst ein Beispiel an.

14.2.2 Ein einfaches Beispiel

Trotz seiner einfachen mathematischen Grundlage liefert der Satz von Bayes häufig Ergebnisse, die der Intuition vieler Personen widersprechen. Dies wurde unter anderem im Kontext medizinischer Diagnosen eindrucksvoll gezeigt.

Medizinische Diagnosen ähneln klassischen Hypothesentests, da zwischen konkurrierenden Hypothesen (“Krankheit vorhanden” vs. “Krankheit nicht vorhanden”) auf Basis erhobener Daten entschieden werden soll. Hierbei ist eine medizinische Untersuchung dann besonders hilfreich, wenn sie zwei Gütekriterien genügt: Sensitivität und Spezifität. Hohe Sensitivität liegt vor, wenn bei Vorhandensein einer Krankheit diese auch als solche erkannt wird; also bei hohen Werten für \(P(\text{positives Untersuchungsergebnis}|\text{Krankheit vorhanden})\) bzw. kurz: \(P(+|K)\). Hohe Spezifität liegt dann vor, wenn gesunde Personen auch tatsächlich als solche erkannt werden; also bei hohen Werten für \(P(\text{negatives Untersuchungsergebnis}|\text{Krankheit nicht vorhanden})\) bzw. kurz: \(P(-|\neg K)\).

Wir stellen uns nun eine Untersuchungsmethode vor, die Hinweise auf das Vorliegen der Autoimmunerkrankung Multiple Sklerose liefern soll. Die Prävalenz dieser Krankheit liegt bei etwa 2 von 1000 Personen und wir nehmen an, die verwendete Methode hätte eine Sensitivität von 80% und eine Spezifität von 95%. Wie hoch ist nun die Wahrscheinlichkeit, dass die Krankheit tatsächlich vorliegt, wenn ein positives Untersuchungsergebnis vorliegt, also \(P(K|+)\)?

Um dies nach der obigen Gleichung zu berechnen, benötigen wir noch die Wahrscheinlichkeit \(P(+)\), dass bei einer beliebigen Person ein positives Untersuchungsergebnis auftritt. Diese können wir mit dem Satz der totalen Wahrscheinlichkeit (vgl. Statistik I, Teil 8) berechnen als \[\begin{equation*} \begin{aligned} P(+)&=P(+|K)\cdot P(K)+P(+|\neg K)\cdot P(\neg K)\\ &=0.8\cdot 0.002+(1-0.95)\cdot (1-0.002)\\ &=0.0515 \end{aligned} \end{equation*}\] Daraus folgt: \[P(K|+)=\frac{P(+|K)\cdot P(K)}{P(+)} =\frac{0.8\cdot 0.002}{0.0515}=0.0311\] Die Wahrscheinlichkeit, tatsächlich an der Krankheit erkrankt zu sein, liegt bei einem positiven Testergebnis also dennoch nur bei etwa 3%, was der Intuition vieler Laien, aber auch vieler Mediziner:innen, deutlich widerspricht.

14.3 Der Bayes-Faktor

Im Kontext empirischer Forschung formalisiert der Satz von Bayes den Zusammenhang zwischen Hypothesen und den zum Test dieser Hypothesen erhobenen Daten. Hierzu ersetzen wir das Ereignis \(A\) mit einer zu prüfenden Hypothese und das Ereignis \(B\) mit den erhobenen Daten. Es ergibt sich: \[ P(\text{Hypothese}|\text{Daten}) = \frac{P(\text{Daten}|\text{Hypothese})\cdot P(\text{Hypothese})}{P(\text{Daten})} \] In der (englischsprachigen) Literatur werden die hier verwendeten Terme oft mit folgenden Begriffen bezeichnet:

\(P(\text{Hypothese}|\text{Daten})\): posterior probability
\(P(\text{Daten}|\text{Hypothese})\): likelihood
\(P(\text{Hypothese})\): prior probability (kurz: prior)
\(P(\text{Daten})\): marginal likelihood

14.3.1 Herleitung und Bedeutung

Wären alle Terme rechts des Gleichheitszeichens der vorherigen Gleichung bekannt, so ließe sich tatsächlich eine Wahrscheinlichkeit für bestimmte Hypothesen anhand der aktuellen Datenlage berechnen. Dies ist jedoch leider nicht ohne Weiteres möglich und wir möchten hier zwei kritische Einschränkungen hervorheben.

Die erste Einschränkung betrifft die Berechnung von likelihoods, also von \(P(\text{Daten}|\text{Hypothese})\), da deren Berechnung zwingend eine spezifische Hypothese benötigt. Dies trifft typischerweise vor allem auf die Nullhypothese zu, während die Alternativhypothese für viele Forschungsfragen oft nur unspezifisch formuliert wird (was auch die Berechnung der Power dann unmöglich macht). Dies ist der Grund, warum klassische Nullhypothesen-Signifikanztests den \(p\)-Wert unter Annahme der Nullhypothese berechnen und ihre Entscheidungslogik an diesem Kennwert ausrichten. Eine notwendige Voraussetzung für die Durchführung eines Bayesianischen Hypothesentests ist es demnach, eine spezifische Alternativhypothese zu formulieren.¹

Die zweite Einschränkung betrifft die Abschätzung der prior probability und der marginal likelihood, von denen insbesondere die marginal likelihood üblicherweise nicht (oder nur sehr aufwändig) bestimmt werden kann. Formuliert man die Gleichung aber für zwei Hypothesen, z.B. \(H_0\) und \(H_1\), und dividiert die Terme, dann kürzt sich die marginal likelihood heraus: \[\begin{equation*} \underbrace { \frac{P(H_1|\text{Daten})}{P(H_0|\text{Daten})} }_{=\text{posterior odds ratio}} = \frac{ \frac{P(\text{Daten}|H_1)\cdot P(H_1)}{P(\text{Daten})} } { \frac{P(\text{Daten}|H_0)\cdot P(H_0)}{P(\text{Daten})} }= \underbrace{\frac{ P(\text{Daten}|H_1) }{ P(\text{Daten}|H_0)}}_{=\text{Bayes-Faktor}} \cdot \underbrace{ \frac{P(H_1)}{P(H_0)} }_{=\text{prior odds ratio}} \end{equation*}\] Das Verhältnis zweier likelihoods, welches für zwei konkurrierende Hypothesen angibt, welche der beiden Hypothesen die verfügbaren Daten korrekter widerspiegelt, wird auch als Bayes-Faktor (BF) bezeichnet: \[\begin{equation} \text{BF}_{10}=\frac{P(\text{Daten}|H_1)}{P(\text{Daten}|H_0)}= \frac{P(H_1|\text{Daten})}{P(H_0|\text{Daten}) } \cdot \frac{P(H_0)}{P(H_1)} \end{equation}\] Der Index 10 zeigt dabei, welche Hypothese dem Zähler des Bayes-Faktors zugrunde liegt (die erste Ziffer), und welche dem Nenner (die zweite Ziffer).

Mitunter wird der Bayes-Faktor auch so interpretiert, dass er direkt das posterior odds ratio angibt, also der Bayes-Faktor angäbe, um wieviel wahrscheinlicher die eine gegenüber der anderen Hypothese ist. Diese Beziehung stimmt aber nur, wenn das prior odds ratio 1 ist und dies trifft nur in genau einer Situation zu, nämlich wenn \(P(H_1)=P(H_0)=0.5\) ist. Dies ist sicherlich eine machbare Annahme, jedoch nicht unbedingt immer sinnvoll. Sie mag sogar einer Grundidee der Bayesianischen Herangehensweise widersprechen, nämlich dass Vorkenntnisse mit in die a priori Bewertung von Hypothesen einfließen sollen. Sinnvoller ist der Einbezug des prior odds ratios in der Form, dass der Bayes-Faktor angibt, um welchen Faktor sich das prior odds ratio ändert. Das heißt, er verändert die vorher getroffenen Annahmen über die Plausibilität der \(H_1\) gegenüber der \(H_0\) in Abhängigkeit der vorliegenden Daten.

14.3.2 Interpretation und Transitivität

Der Bayes-Faktor ist eines der zentralen Ergebnisse einer Bayesianischen Analyse und Bayesianische Hypothesentests wurden in jüngerer Zeit für alle gängigen Verfahren der klassischen Inferenzstatistik entwickelt. Die wichtigste Interpretation dabei ist:

\(\text{BF}_{10}>1\): die Daten sind unter der \(H_1\) wahrscheinlicher
\(\text{BF}_{10}=1\): die Daten sind unter der \(H_1\) genauso wahrscheinlich wie unter der \(H_0\)
\(0<\text{BF}_{10}<1\): die Daten sind unter der \(H_0\) wahrscheinlicher

Darüber hinaus finden sich in der Literatur auch zahlreiche Vorschläge, wie bestimmte Bayes-Faktoren interpretiert werden bzw. in Worte gefasst werden sollten. Die nachfolgende Tabelle fasst eine verbreitete Klassifikation zusammen, die einer Kombination der Vorschläge von Jeffreys (1961) und Kass und Raftery (1995) entspricht:

Die in der Tabelle aufgeführten Werte gelten dabei nur für Evidenz für dasjenige Modell, welches in der obigen Gleichung zur Herleitung des Bayes-Faktors in den Zähler eingegangen ist. Bayes-Faktoren mit einem Wert von \(\text{BF}_{\text{01}} > 1\) würden entsprechend Evidenz für die \(H_0\) beschreiben während \(\text{BF}_{\text{01}} < 1\) Evidenz für die \(H_1\) indizieren würden. Hierbei gilt: \[\text{BF}_{\text{01}} = \frac{1}{\text{BF}_{\text{10}}}\] Wie angedeutet finden sich auch andere Vorschläge in der Literatur² und auch ein weiterer interessanter Punkt kann hier festgehalten werden: Verschiedentlich werden auch Interpretationen der Art “Wenn der \(\text{BF}>X\) ist, dann entscheide Dich für die und die Hypothese!” vorgeschlagen. Berücksichtigt man, dass ein oft vorgebrachter Hauptkritikpunkt an der klassischen Inferenzstatstik die dichotome Entscheidungsfindung in Abhängigkeit vom \(p\)-Wert ist, wird indirekt auch hier eine dichotome Entscheidungsfindung eingeführt.

Eine wichtige Eigenschaft in diesem Kontext ist auch die Transitivität des Bayes-Faktors. Kurz gesagt: Wenn (1) eine Hypothese \(A\) 10-mal so viel Evidenz wie eine Hypothese \(B\) erfährt, also \(\text{BF}_{AB}=10\) ist, und (2) die Hypothese \(B\) 5-mal so viel Evidenz wie eine Hypothese \(C\) erfährt, also \(\text{BF}_{BC}=5\), dann ist auch \(\text{BF}_{AC}=\text{BF}_{AB}\cdot \text{BF}_{BC}=50\): die Hypothese \(A\) erfährt also 50-mal so viel Evidenz wie die Hypothese \(C\). Dadurch ist es auch sinnvoll, in einer Serie von Studien das posterior odds ratio der ersten Studie zum prior odds ratio der zweiten Studie zu machen usw.

14.3.3 Beziehung zum \(p\)-Wert

Die Diskussion um klassische Inferenzstatistik vs. Bayesianische Verfahren ist auch von zunehmendem Misstrauen gegenüber klassischen inferenzstatistischen Methoden geprägt, welche häufig für Probleme, wie eine mangelnde Replizierbarkeit empirischer Forschungsergebnisse, verantwortlich gemacht werden. Dabei argumentieren Vertreter:innen der Bayes-Statistik auch, dass Bayesianische Verfahren einen genuin überlegenen Zugang zur Analyse empirischer Daten bieten.

Ob man diese Auffassung teilen möchte ist weitgehend eine Entscheidung, die jede empirisch arbeitende Person für sich selbst treffen sollte. Kritisch sollte dabei bedacht werden, dass Bayesianische Verfahren zwar tatsächlich einige Vorteile gegenüber klassischen Verfahren mit sich bringen, dabei jedoch andere Einschränkungen in Kauf nehmen und weitere, teilweise nicht immer offensichtliche Annahmen machen (ein Vergleich beider Verfahren findet sich auch in Tschirk, 2014). Auch sind Bayesianische Verfahren weit weniger standardisiert als klassische Verfahren, sodass es sowohl bezüglich der Berechnung als auch bezüglich der Interpretation der resultierenden Bayes-Faktoren keinen Konsens gibt. Dies wird auch an den zahlreichen verfügbaren Vorschlägen zur Interpretation des Bayes-Faktors deutlich (und auch der Bayes-Faktor an sich wird durchaus kritisiert).

Weiterhin ist angesichts des häufig vorgebrachten Argumentes eines qualitativen Unterschieds zwischen klassischen Verfahren und ihren Bayesianischen Alternativen empirisch festzuhalten, dass beide Varianten oft zu sehr ähnlichen Ergebnissen führen; Entscheidungen aufgrund von Bayes-Faktoren sind lediglich etwas konservativer als Entscheidungen aufgrund von \(p\)-Werten, wie beispielsweise Daten einer großangelegten Vergleichsstudie nahelegen (Wetzels et al., 2011). Die folgende Abbildung zeigt die Enge dieses Zusammenhangs anhand simulierter Daten.³ Aufgrund dieser Datenlage und aufgrund des fehlenden Konsens über die exakte Interpretation von Bayes-Faktoren ist m.E. keine generelle Notwendigkeit vorhanden, Bayesianischen Verfahren den unbedingten Vorzug gegenüber klassischen Nullhypothesen-Tests zu geben. Vielmehr haben beide Herangehensweise ihre Vor- und ihre Nachteile und eine informierte Entscheidung über die adäquate Auswertungsstrategie ist vermutlich wichtiger als ein dogmatisches Festhalten an einer von beiden Varianten.

Ein möglicher Vorteil Bayesianischer Verfahren ergibt sich aber durchaus bei der Absicherung eines Nulleffekts. Die klassische Inferenzstatistik ist hierzu nur bedingt in der Lage, während die Bayes-Statistik explizit die Möglichkeit vorsieht, auch Evidenz für eine Überlegenheit der Nullhypothese über die Alternativhypothese zu liefern. Dazu betrachten wir noch einmal das Konvergenzverhalten von \(p\)-Werten und nun auch von Bayes-Faktoren in Abhängigkeit von der Stichprobengröße. Bereits zu Beginn dieses Teils haben wir gesehen, dass bei Gültigkeit einer Alternativhypothese mit \(\delta=0.5\) – wie zu erwarten – der \(p\)-Wert kleiner wird und gegen Null konvergiert, wenn die Stichprobenumfänge zunehmen. Diese Situation ist im linken Teil der folgenden Abbildung noch einmal dargestellt. Wie verhält sich der Bayes-Faktor (hier: \(\text{BF}_{10}\)) dabei? Für die gleichen simulierten Daten, die für die \(p\)-Werte benutzt worden sind, ist auch der entsprechende Bayes-Faktor berechnet worden und dies ist der rechte Teil der Abbildung. Aus Darstellungsgründen ist dort der logarithmierte Bayes-Faktor abgetragen, damit die \(y\)-Achse nicht übermäßig skaliert werden muss. Das hat zur Folge, dass positive Werte nun als Evidenz für die \(H_1\) zu werten sind, ein Wert von 0 einem \(BF=1\) entspricht und negative Werte als Evidenz für die \(H_0\) zu werten sind. Offenkundig wird mit zunehmendem Stichprobenumfang der Bayes-Faktor immer größer, auch wenn es einzelne Bayes-Faktoren gibt, die kleiner als 0 sind und damit als Evidenz für die Nullhypothese zu werten wären (aber genauso gibt es ja auch \(p\)-Werte die größer als \(\alpha\) sind).

Wir haben außerdem oben bereits gesehen, dass der \(p\)-Wert bei Gültigkeit der Nullhypothese (also \(\delta=0.0\)) kein Konvergenzverhalten zeigt, sondern sich gleichverteilt und im Mittel um \(p=0.5\) schwankt. Dies ist in der folgenden Abbildung im linken Teil noch einmal visualisiert. Ähnlich zur letzten Abbildung haben wir nun im rechten Teil den (logarithmierten) Bayes-Faktor abgebildet. Hier ist nun ein wünschenswertes Verhalten zu erkennen, denn der (logarithmierte) Bayes-Faktor wird tatsächlich mit zunehmendem Stichprobenumfang kleiner (bzw. der Bayes-Faktor konvergiert gegen Null).

Erfordert eine Forschungsfrage also die Dokumentation eines Nulleffektes – sprich: soll Evidenz für die Abwesenheit eines Effektes gesammelt werden statt lediglich die Abwesenheit von Evidenz für diesen Effekt attestiert werden – so kann Bayes-Statistik ein zielführendes Handwerkszeug darstellen. Auch hier gilt selbstverständlich der oben erwähnte Kritikpunkt heterogener Bewertungsrichtlinien; und auch in diesem Anwendungsgebiet führen klassische Verfahren und Bayesianische Alternativen häufig zu übereinstimmenden Ergebnissen.

14.4 Praktische Berechnung mit R

Es gibt mittlerweile zahlreiche Möglichkeiten Bayesianische Analysen durchzuführen. Dazu gehören diverse Webseiten, Programme wie JASP (https://jasp-stats.org/), Software wie Stan (https://mc-stan.org/) mit Anbindung zu R oder auch diverse Pakete für R. Wir demonstrieren hier Funktionen aus dem Paket BayesFactor.

Als Datensatz nehmen wir die Daten, die wir auch beim Thema (mehrfaktorielle) Varianzanalyse bereits benutzt haben:

daten <- read.table("./Daten//daten_training.dat", 
                    header = TRUE)
# Kodieren nach Alter
daten$Altersgruppe <- "jünger"
daten$Altersgruppe[daten$Alter >= 8] <- "älter"
# faktorisieren
daten$VP <- as.factor(daten$VP)
daten$Trainingstage <- as.factor(daten$Trainingstage)
daten$Altersgruppe <- as.factor(daten$Altersgruppe)

Zur Erinnerung, wir haben hier ein zweifaktorielles Design vorliegen mit dem dreistufigen Faktor “Schlafentzug” (0 Tage vs. 1 Tag vs. 2 Tage) und dem zweistufigen Faktor “Altersgruppe” (jünger vs. älter). Die abhängige Variable war die Anzahl der erinnerten Wörter in einem Gedächtnisexperiment.

14.4.1 Bayesianischer \(t\)-Test

Wir führen nun zunächst einen klassischen \(t\)-Test für den Vergleich jüngere vs. ältere Versuchspersonen durch:

t.ergebnis <- t.test(Sprachtest ~ Altersgruppe,
                     data = daten,
                     var.equal = TRUE)
t_out(t.ergebnis)

##                  Test                          Results
## 1  Two Sample t-test: t(28) = 2.26, p = .032, d = 0.82

Mit \(p=.032\) würden wir uns also (bei \(\alpha=0.05\)) für die Alternativhypothese entscheiden und davon ausgehen, dass jüngere Versuchspersonen mehr Wörter wiedergeben können als ältere Versuchspersonen.

Nun führen wir das Bayesianische Äquivalent mit der Funktion ttestBF() durch, der wir die Werte der beiden Altersgruppen übergeben:

bf.ttest <- ttestBF(x = daten$Sprachtest[daten$Altersgruppe == "jünger"],
                    y = daten$Sprachtest[daten$Altersgruppe == "älter"])
bf.ttest # Ergebnis ausgeben

## Bayes factor analysis
## --------------
## [1] Alt., r=0.707 : 2.180258 ±0.01%
## 
## Against denominator:
##   Null, mu1-mu2 = 0 
## ---
## Bayes factor type: BFindepSample, JZS

Der Bayes-Faktor ist hier also 2.18, was den wichtigsten Teil des Outputs darstellt. Dies ist zwar einerseits als Evidenz für die Alternativhypothese zu werten, andererseits – wendet man übliche Klassifikationen an – ist diese Evidenz aber auch nicht überwältigend, sondern eher vernachlässigbar.

14.4.2 Bayesianische Varianzanalyse

Varianzanalysen-Äquivalente können mit der Funktion anovaBF() berechnet werden. Wenden wir diese Funktion in Modellsprache auf den Vergleich beider Altersgruppen an, ergibt sich der gleiche Wert wie eben beim \(t\)-Test:

anovaBF(Sprachtest ~ Altersgruppe, 
        data = daten)

## Bayes factor analysis
## --------------
## [1] Altersgruppe : 2.180258 ±0.01%
## 
## Against denominator:
##   Intercept only 
## ---
## Bayes factor type: BFlinearModel, JZS

Bei mehrfaktoriellen Designs verwenden wir die gleiche Modellsprache wie bei aov():

bf.anova <- anovaBF(Sprachtest ~ Altersgruppe * Trainingstage, 
                    data = daten)
bf.anova

## Bayes factor analysis
## --------------
## [1] Trainingstage                                             : 144.2842 ±0%
## [2] Altersgruppe                                              : 2.180258 ±0.01%
## [3] Trainingstage + Altersgruppe                              : 1635.563 ±1.03%
## [4] Trainingstage + Altersgruppe + Trainingstage:Altersgruppe : 3208.229 ±1.23%
## 
## Against denominator:
##   Intercept only 
## ---
## Bayes factor type: BFlinearModel, JZS

Die Ausgabe enthält hier jeweils einen Bayes-Faktor für den Vergleich des angegebenen Modells – definiert über die in der Modellgleichung enthaltenen Faktoren – mit dem Null-Modell, welches lediglich den Gesamtmittelwert der Untersuchung berücksichtigt (Doppelpunkte zeigen hierbei eine Interaktion zweier Faktoren an). Sollen nun zwei Modelle miteinander verglichen werden, kann man sich die transitive Eigenschaft von Bayes-Faktoren zunutze machen: Der Quotient zweier Bayes-Faktoren in der Ausgabe entspricht dem Bayes-Faktor für den entsprechenden Modellvergleich. Wollen wir also den Bayes-Faktor für die Interaktion extrahieren, müssen wir das Interaktionsmodell ([4]) mit dem Haupteffektmodell ([3]) in Beziehung setzen:

bf.anova.IA <- bf.anova[4] / bf.anova[3]
bf.anova.IA

## Bayes factor analysis
## --------------
## [1] Trainingstage + Altersgruppe + Trainingstage:Altersgruppe : 1.961545 ±1.6%
## 
## Against denominator:
##   Sprachtest ~ Trainingstage + Altersgruppe 
## ---
## Bayes factor type: BFlinearModel, JZS

Hier sehen wir, dass die Bayesianische Varianzanalyse keine substantielle, sondern lediglich anekdotische Evidenz für die Interaktion von Schlafentzug und Altersgruppe liefert (was passt zur oben erwähnten Konservativität Bayesianischer Entscheidungen).

Auch Varianzanalysen mit Messwiederholung können mit der Funktion berechnet werden. Hierzu ist der Faktor, der die Versuchspersonen kodiert additiv, mit in das Modell zu geben und mit dem Argument whichRandom als Zufallseffekt zu kennzeichnen:

anovaBF(dv ~ Faktor1 * Faktor2 + VP,
        whichRandom = "VP",
        data = XXX)

Hierbei sei allerdings angemerkt, dass es kürzlich Kritik an der Art und Weise gab, wie ANOVAs mit Messwiederholung implementiert wurden. Besitzt das Untersuchungsdesign mehrere Faktoren mit Messwiederholung kann es zu erstaunlich unterschiedlichen Ergebnissen zwischen einer Bayesianischen ANOVA und einer klassischen ANOVA kommen. Interessierte Leser:innen seien auf den Artikel von van den Bergh (2023) verwiesen. Ggf. ist es daher besser, hier auf das Programm JASP auszuweichen.

14.5 Abschließende Hinweise

Über vermeintliche Kritik an Nullhypothesen-Signifikanztest und Bayes-Statistik als Alternative wurden viele Artikel und Bücher geschrieben. Hier konnten wir nur einen Einblick in die Denkweise des Bayesianischen Ansatzes bekommen und wir denken, es gibt nicht “die” Auswertungsstrategie, sondern beide Herangehensweisen haben ihre Vor- und ihre Nachteile. Ein definitiver Vorteil generell ist es allerdings, wenn Auswertungsverfahren mit Verstand und Kenntnis der Logik und der Implikationen durchgeführt werden, statt ein etabliertes Schema abzuspulen.

Sie finden im Internet schnell Artikel, die die eine oder die andere Variante preisen; bilden Sie sich ihre eigene Meinung! Lesenswert als Vergleich ist auch das Buch von Tschirk (2014) und auch ein Artikel von Garcia-Perez (2016). Weitere Hinweise auf Literatur finden sich auch in Kapitel 12 von Janczyk und Pfister (2020).

14.6 Literatur

Dienes, Z. (2014). Using Bayes to get the most out of non-significant results. Frontiers in Psychology, 5, 781.

Garcia-Perez, M.A. (2016). Thou shalt not bear false witness against null hypothesis significance testing. Educational and Psychological Measurement, 77, 631-662.

Janczyk, M. & Pfister, R. (2020). Inferenzstatistik verstehen. Von A wie Signifikanztest bis Z wie Konfidenzintervall (3. Auflage). Berlin: Springer.

Jeffreys, H. (1961). Theories of probability (3. Aufl.). Oxford: Oxford University Press.

Kass, E.E. & Raftery, A.E. (1995). Bayes factors. Journal of the American Statistical Association, 90, 773–795.

Schönbrodt, F.D., Wagenmakers, E.J., Zehetleitner, M., & Perugini, M. (2017). Sequential hypothesis testing with Bayes factors: Efficiently testing mean differences. Psychological Methods, 22, 322-339.

Tschirk, W. (2014). Statistik: Klassisch oder Bayes. Zwei Wege im Vergleich. Berlin: Springer Spektrum.

van den Bergh, D., Wagenmakers, E. J., & Aust, F. (2023). Bayesian repeated-measures analysis of variance: An updated methodology implemented in JASP. Advances in Methods and Practices in Psychological Science, 6(2).

Wetzels, R., Matzke, D., Lee, M.D., Rouder, J., Iverson, G., & Wagenmakers, E.-J. (2011). Statistical evidence in experimental psychology: An empirical comparison using 855 t tests. Perspectives on Psychological Science, 6, 291–298.

Einige populäre Methoden zur Berechnung eines Bayesianischen Hypothesentests umgehen diese Einschränkung, indem sie besondere Verteilung (bspw. die sog. Cauchy-Verteilung), heranziehen. Die mathematischen Details dieses Vorgehens sind nicht trivial und insbesondere ist auch hier eine versteckte Abschätzung der nach der Alternativhypothese zu erwartenden Effektstärke enthalten, die sich in gängigen Softwarepaketen jedoch hinter verschiedenen, automatisch gesetzten Standardwerten verbirgt.↩︎
So wird ein Bayes-Faktor von \(\text{BF}_{\text{10}}=3\) von vielen Autor:innen bereits als substantielle Evidenz für die Alternativhypothese gewertet (z.B. Dienes, 2016) während andere Autor:innen erst ab \(\text{BF}_{\text{10}}=6\) oder \(\text{BF}_{\text{10}}=10\) von nennenswerter Evidenz für die Alternativhypothese sprechen (beide letzteren Vorschläge finden sich in Schönbrodt et al., 2016).↩︎
Zur besseren Visualisierung sind hier logarithmierte Skalen verwendet worden um Abstände zu egalisieren. Mehr Informationen dazu gibt es z.B. unter https://www.nicebread.de/a-short-taxonomy-of-bayes-factors/.↩︎

Statistik II

Grundlagen Bayes-Statistik

AG Psychologische Forschungsmethoden und Kognitive Psychologie, Institut für Psychologie, Universität Bremen