Willkommen bei Stats by Randolph. Hier geht es zur Hauptseite mit weiteren Informationen und Inhalten.
Autor:innen dieser Seite: An den Inhalten dieser Seite haben mitgearbeitet: Valentin Koob, Eva Röttger und Markus Janczyk. Der Inhalt dieser Seite wird in der Lehre in den Studiengängen Psychologie von der AG Forschungsmethoden und Kognitive Psychologie an der Universität Bremen verwendet, steht aber allen Interessierten zur Verfügung. Rückmeldungen/Fehler/Vorschläge können gesendet werden an randolph@uni-bremen.
Versionshistory:
Die Stochastik bezeichnet ein Teilgebiet der Mathematik, das sich mit der Beschreibung von zufälligen Vorgängen und deren Ausgängen beschäftigt. Stochastisch bedeutet dabei “zufällig”. Ein Ereignis wird als zufällig bezeichnet, wenn sein Ausgang grundsätzlich nicht vorhersehbar ist. Sie umfasst die Gebiete der Wahrscheinlichkeitstheorie und der mathematischen Statistik. In dieser Online-Reihe zur Statistik werden wir uns primär mit Verfahren beschäftigen, die auf Basis von Beobachtungsdaten Modellparameter und deren Verteilungen schätzen, um Aussagen über die Angemessenheit von Hypothesen zu treffen. Hierfür sind jedoch einige wahrscheinlichkeitstheoretische Konzepte notwendig, die wir zuerst behandeln wollen.
Erstaunlicherweise haben die meisten Menschen, auch wenn sie wenig Erfahrung mit der Stochastik haben, ein sehr gutes intuitives Verständnis von Wahrscheinlichkeiten (zumindest bis zu einem gewissen Schwierigkeitsgrad der gestellten Probleme). Stellen wir uns einmal vor, wir würden einen 6-seitigen Würfel werfen und müssten vorher angeben, mit welcher Wahrscheinlichkeit bzw. Chance wir eine 6 werfen werden. Die meisten Personen werden richtig antworten, dass die “Wahrscheinlichkeit ein Sechstel” (\(\frac{1}{6}\)) bzw. “eine Chance von 1 zu 6” beträgt – haben wir doch bereits als Kinder im Zuge von Gesellschaftsspielen mit den Eltern leidliche Erfahrungen mit dem Zufall machen müssen.
Um zu dieser Erkenntnis zu gelangen, machen wir uns in der Regel bewusst, dass es beim Würfelwurf sechs verschiedene Ausgänge geben kann, von denen alle gleich wahrscheinlich sind (sofern der Würfel nicht manipuliert ist). Sind wir nun an der Wahrscheinlichkeit eines bestimmten Ausgangs interessiert, so ist die gesuchte Wahrscheinlichkeit das Verhältnis der Anzahl der möglichen Ausgänge die zum fraglichen Ereignis passen (im Beispiel wäre dies 1, da die 6 auf dem Würfel eben nur einmal vorkommt) zur Gesamtanzahl der möglichen Ausgänge (im Beispiel wäre dies 6, da der Würfel sechs verschiedene Zahlen umfasst). Eine solche Situation wird in der Stochastik als Laplace-Experiment bezeichnet, und im Folgenden werden wir die formalen Grundlagen für diese und andere stochastische Situationen klären.
Interessanterweise erklärt eine solche Logik nur die Intuition hinter unserer Einschätzung von Wahrscheinlichkeiten, nicht jedoch die genaue Bedeutung der Wahrscheinlichkeit selbst. Grundsätzlich lassen sich zwei Arten von Wahrscheinlichkeitsbegriffen unterscheiden: der objektive und der subjektive Wahrscheinlichkeitsbegriff. Der entscheidende Unterschied liegt darin, wie wir zu einer Wahrscheinlichkeitsaussage über ein Ereignis gelangen. Bei dem sogenannten objektiven Wahrscheinlichkeitsbegriff hängt die Wahrscheinlichkeitsaussage nicht von einer einzelnen Person ab, sondern sie basiert auf einer frequentistischen Betrachtungsweise, die sich auf relative Häufigkeiten stützt. Das bedeutet, dass die Wahrscheinlichkeit für das Eintreten eines Ereignisses (zum Beispiel das Werfen einer bestimmten Zahl bei einem Würfelwurf) der relativen Häufigkeit dieses Ereignisses auf lange Sicht entspricht. Wenn wir den Würfel theoretisch unendlich oft werfen und bei jedem Wurf die entsprechende Augenzahl notieren würden, wäre die objektive Wahrscheinlichkeit für eine bestimmte Augenzahl identisch mit ihrer relativen Häufigkeit. Der subjektive Wahrscheinlichkeitsbegriff hingegen bezieht sich auf die persönliche Einschätzung der Wahrscheinlichkeit von Ereignissen und löst sich dabei von jeder Notwendigkeit eines beobachtbaren und wiederholbaren Prozesses. Zum Beispiel könnte es heißen: “Meine Freundin wird mich wahrscheinlich bald besuchen.”, oder, “Ich bin mir sicher, dass es Menschen auf dem Mars gibt”. Diesem und den folgenden Teilen legen wir den frequentistischen (objektiven) Wahrscheinlichkeitsbegriff zu Grunde.
Im Zuge der Stochastik werden Zufallsvorgänge mathematisch beschrieben. In der Regel bezeichnen wir diese Zufallsvorgänge als sogenannte Zufallsexperimente. Obwohl eine exakte Definition nicht wirklich möglich ist, beschreiben wir hier ein Zufallsexperiment als einen Vorgang oder Versuch, der exakt festgelegte Bedingungen besitzt und unter diesen gleichen Bedingungen (im Prinzip) unendlich oft wiederholbar ist. Dabei sind zwar die möglichen Ausgänge bekannt, der Ausgang einer konkreten Durchführung des Zufallsexperiments ist jedoch nicht vorhersehbar. Ein Zufallsexperiment ist also eine Beschreibung eines stochastischen Versuchs. Klassische Beispiele hierfür sind das Werfen einer Münze, das einmalige Werfen eines Würfels oder das dreimalige Werfen eines Würfels. Im Bereich der Statistik sind weitere einschlägige Beispiele das Ziehen einer Person in eine Stichprobe oder das Ziehen einer möglichen Stichprobe aus einer Population.
Ein Zufallsexperiment besitzt also zwei Charakteristika:
Mathematisch kann man am Beispiel des Münzwurfs die möglichen Ausgänge eines Zufallsexperiments als Menge beschreiben:
\[\text{Menge der möglichen Ausgänge = }\{\text{"Kopf"},\text{"Zahl"}\}\]
Den Ausgängen, also den Elementen der Menge, werden nun Zahlen zugeordnet, die Wahrscheinlichkeiten darstellen.
Da wir ab nun die möglichen Ausgänge von Zufallsvorgängen/-experimenten als Mengen behandeln werden, wollen wir kurz die Mengentheorie und manche ihrer Rechenregeln behandeln.
Grundlegend sind Mengen Ansammlungen bzw. Zusammenfassungen von Elementen. Dabei kann die Anzahl der Elemente innerhalb einer Menge beliebig groß oder klein sein, das heißt, Mengen können null Elemente, eine abzählbare Anzahl an Elementen, oder sogar unendlich viele Elemente besitzen. Mengen werden i.d.R. mit Großbuchstaben, ihre Elemente mit Kleinbuchstaben bezeichnet. Möchte man die Elemente einer Menge explizit auflisten, so werden i.d.R. geschweifte Klammern benutzt.
Beispiel: Eine Menge \(A\), welche alle natürlichen Zahlen von 1 bis 5 beinhaltet, könnte so geschrieben werden:
\[A = \{1,2,3,4,5\}\] Dabei ist es wichtig zu beachten, dass eine Menge darüber definiert ist, welche Elemente sie beinhaltet, wobei eine Ordnung der Elemente bzw. das mehrfache Vorkommen von Elementen irrelevant ist. Hieraus folgt, dass bspw. die Menge \(A\) äquivalent zu den Mengen \(\{1,5,4,3,2\}\) oder \(\{1,1,5,4,3,2\}\) ist.
Um zu beschreiben, dass ein Element \(a\) in einer Menge \(A\) vorkommt, schreiben wir: \[a \in A \quad (\text{bspw. }1 \in A),\] bzw. wenn sie nicht vorkommt: \[ a \notin A \quad (\text{bspw. }6 \notin A) .\]
Es gibt eine Vielzahl unterschiedlicher Mengen, sodass manche von Ihnen ein besonderes Symbol erhalten. Beispiele für Mengen, die uns bereits begegnet sind oder im Folgenden häufiger begegnen werden sind die …
Neben der expliziten Auflistung von Elementen einer Menge (bspw. \(A=\{1,2,3,4,5\}\)) oder der Definition bestimmter Symbole für besondere Mengen (bspw. \(\mathbb{R}\)), gibt es weitere Arten eine Menge zu beschreiben. Die geläufigsten Varianten sind:
Arbeitet man mit mehreren Mengen (bspw. \(A\) und \(B\)), so lassen sich bestimmte Beziehungen zwischen diesen bzw. Mengenoperationen auf diesen Mengen definieren:
Man sagt \(A\) ist eine Teilmenge von \(B\) (\(A\subseteq B\)), wenn jedes Element von \(A\) auch in \(B\) enthalten ist. Enthält \(B\) mehr Elemente als \(A\), so spricht man von einer echten Teilmenge.
Die Schnittmenge von \(A\) und \(B\) (\(A\cap B\)) ist die Menge derjenigen Elemente, die sowohl in \(A\) als auch in \(B\) enthalten sind.
Die Vereinigungsmenge von \(A\) und \(B\) (\(A\cup B\)) ist die Menge derjenigen Elemente, die in \(A\) oder in \(B\) enthalten sind.
Die Differenzmenge von \(A\) und \(B\) (\(A\setminus B\)) ist die Menge derjenigen Elemente, die in \(A\) enthalten sind, aber nicht in \(B\).
Wenn \(A\subseteq B\) ist, dann ist die Komplementärmenge von \(A\) bzgl. \(B\) (\(\bar{A}\)) die Menge \(B\), ohne die Elemente von \(A\) (\(\bar{A}=B\setminus A\)).
Die Potenzmenge \(\mathcal{P}(A)\) ist die Menge, die alle Teilmengen von \(A\) enthält, inkl. \(A\) selber und der leeren Menge \(\emptyset\). Die Elemente der Potenzmenge sind also wiederum Mengen.
Die Mächtigkeit (oder Kardinalität ) \(|A|\) gibt an, wie viele Elemente in \(A\) enthalten sind.
Zum besseren Verstädnnis betrachten wir nun ein paar Beispiele, wobei wir von beiden Mengen \(A=\{1,2,3,4,5\}\) und \(B=\{4,5,6\}\) ausgehen:
Sei nun \(A=\{1,2,3\}\) und \(B=\{1,2,3,4,5,6\}\), sodass \(A\) eine echte Teilmenge von \(B\) ist (\(A \subset B\)), dann wären die Komplementärmenge von \(A\) bzgl. \(B\) also \(\bar{A} = \{4,5,6\}\).
Für die eben beschriebenen Mengenoperationen gibt es zudem Rechenregeln, die konzeptuell denen für das Rechnen mit reellen Zahlen ähnlich sind:
Die Mengenlehre bildet die Grundlage zur formalen Beschreibung eines Zufallsexperiments. Dabei werden alle möglichen Ausgänge eines Zufallsexperimentes als Ergebnisse bezeichnet, wobei ein Ergebnis oft als \(\omega_j\) (“klein Omega”) bezeichnet wird. Im Folgenden werden wir zunächst nur Fälle mit endlich vielen Ergebnissen betrachten. Die Menge, welche nun alle Ergebnisse enthält, heißt Ergebnismenge und wird mit \(\Omega = \{\omega_1,\ldots,\omega_n\}\) bezeichnet (“groß Omega”).
Beim einmaligen Werfen einer Münze mit den Ausgängen Kopf und Zahl (K bzw. Z) wäre die Ergebnismenge bspw. \[\Omega=\{K,Z\}\quad ,\] beim einmaligen Werfen eines Würfels hingegen \[\Omega=\{1,2,3,4,5,6\} \quad.\] Es kann vorkommen, dass ein Zufallsexperiment aus mehreren Teilprozessen besteht. Betrachten wir beispielsweise die Ausgänge beim zweimaligen Werfen einer Münze, wobei die beiden Münzen unterscheidbar sind, so besteht jeder Ausgang aus zwei Teilausgängen; dem Ausgang des ersten und dem Ausgang des zweiten Münzwurfs. Diese Teilausgängen werden dann in sog. n-Tupeln mit runden Klammern gelistet, wobei n für die Anzahl der Teilausgänge steht. Beim zweimaligen Münzwurf mit unterscheidbaren Münzen ist die Menge aller Ausgänge wie folgt darstellbar
\[\Omega = \{(K, K),\; (K, Z),\; (Z, K),\; (Z, Z) \} \quad ,\] wobei ein Element der Menge \(\Omega\) eine mögliche Kombination der beiden Teilausgänge zusammenfasst.
Die Ergebnismenge \(\Omega\) stellt die essenzielle Grundlage zur Beschreibung eines Zufallsexperiments dar. Auf dieser Menge bauen nun weitere Mengen bzw. Operationen auf.
Ein Ereignis ist eine Teilmenge der Ergebnismenge, welche somit einen Teil der möglichen Ergebnisse beinhaltet, \[A\subseteq \Omega,\] wobei die einelementigen Teilmengen \(\{\omega_1\},\ldots,\{\omega_n\}\) als Elementarereignisse bezeichnet werden. Man sagt, dass ein Ereignis \(A\) eingetreten ist, wenn das Ergebnis \(\omega_j\) eines Durchgangs des Zufallsexperiments in \(A\) enthalten ist, also \(\omega_j \in A\) ist.
Beispiele für mögliche Ereignisse beim einmaligen Werfen eines Würfels:
Ereignisse fassen also alle möglichen Ergebnisse des Zufallsexperiments zusammen, die zum Eintreten des jeweiligen Ereignisses führen. Die Menge aller denkbaren Ereignisse ist also die Potenzmenge der Ergebnismenge: \[\mathcal{P}(\Omega)\]
Auf einer jeden Ergebnismenge \(\Omega\) eines Zufallsexperiments baut die Wahrscheinlichkeitstheorie auf. Schließlich ist Kennzeichen eines Zufallsexperimentes ja, dass man nicht weiß, welches Ergebnis (und damit auch Ereignis) eintritt. Die “Chance” des Eintretens eines Ereignisses \(A\) versucht man daher mit Zahlen zu beschreiben. Gehorchen diese Zahl einer gewissen Axiomatik, dann heißen sie Wahrscheinlichkeiten. Die Wahrscheinlichkeit des Eintretens von Ereignis \(A\) wird \(P(A)\) geschrieben.
Diese auch als Wahrscheinlichkeitsaxiome bekannten Axiome sind die grundlegenden Regeln der Wahrscheinlichkeitstheorie. Sie wurden von dem russischen Mathematiker Andrei Kolmogorow Anfang der 30er Jahre entwickelt. Es gibt drei Axiome, auf denen die Wahrscheinlichkeitstheorie aufbaut:
Positivität: Die Wahrscheinlichkeit eines jeden Ereignisses \(A\) einer Ereignismenge ist immer eine reelle Zahl zwischen 0 und 1. Das heißt, für die Wahrscheinlichkeit eines Ereignisses \(A\) gilt stets: \(0 \leq P(A) \leq 1\).
Normiertheit: Die Wahrscheinlichkeit des sicheren Ereignisses \(A = \Omega\) ist 1. Hieraus folgt, dass es kein Ereignis geben kann, dessen Eintretenswahrscheinlichkeit größer als 1 ist.
Additivität: Wenn zwei Ereignisse \(A\) und \(B\) disjunkt sind (das heißt, sie haben keine gemeinsamen Ergebnisse; \(A\cap B=\emptyset\)), dann ist die Wahrscheinlichkeit, dass entweder A oder B eintritt, die Summe ihrer Wahrscheinlichkeiten: \(P(A \cup B) = P(A) + P(B)\).
Aus diesen Axiomen lassen sich einige Feststellungen und Rechenregeln für Wahrscheinlichkeiten ableiten (die i.Ü. denen für relative Häufigkeiten entsprechen):
Die Wahrscheinlichkeit des unmöglichen Ereignisses ist \(0\), \(P(\emptyset)=0\).
Wenn ein Ereignis \(A\) eine Teilmenge eines anderen Ereignisses \(B\) ist, dann gilt \(P(A) \leq P(B)\).
Wenn man die Wahrscheinlichkeit eines Ereignisses \(A\) kennt, dann kennt man auch die Wahrscheinlichkeit für das Gegenereignis, dass \(A\) nicht auftritt, \(P(\bar{A})=1-P(A)\).
Wenn es mehrere Ereignisse \(A_i\) gibt, welche alle paarweise disjunkt sind, dann ist die Wahrscheinlichkeit, dass eins der Ereignisse eintritt die Summe aller Einzelwahrscheinlichkeiten; \(P(A_1\cup A_2 \cup\ldots \cup A_n)=P(A_1)+P(A_2)+\ldots+P(A_n)\), falls alle \(A_i\) paarweise disjunkt.
Sollten zwei Ereignisse \(A\) und \(B\) nicht paarweise disjunkt sein, dann ist die Wahrscheinlichkeit, dass entweder \(A\) oder \(B\) auftritt, die Summe der einzelnen Wahrscheinlichkeiten minus die Wahrscheinlichkeit der Schnittmenge; \(P(A\cup B)=P(A)+P(B)-P(A\cap B)\).
Beispiele zu den Feststellungen anhand des Würfelwurfs:
Möchten wir wissen, wie wahrscheinlich es ist, bei einem Würfel mit den Zahlen \(0\) bis 6 eine 7 zu würfeln, so fragen wir nach der Wahrscheinlichkeit des unmöglichen Ereignisses, \(P(\emptyset)\), welche \(0\) ist.
Die Wahrscheinlichkeit des Ereignisses “Der Würfelwurf ergab die Zahl 3 oder kleiner” (\(A = \{1,2,3\}\)) ist geringer, als die Wahrscheinlichkeit des Ereignisses “Der Würfelwurf ergab die Zahl 4 oder kleiner (\(B = \{1,2,3,4\}\))
Wenn man weiß, dass die Wahrscheinlichkeit “eine 6 zu würfeln” \(P(\{6\}) = \frac{1}{6}\) ist, so weiß man auch, dass die Wahrscheinlichkeit “keine 6 zu würfeln” \(1-P(\{6\}) = \frac{5}{6}\) ist.
Die Wahrscheinlichkeit für das Ereignis “der Würfel zeigt eine Zahl kleiner gleich 2 oder größer gleich 5” (\(P(A\cup B)\)) ergibt sich aus der Teilwahrscheinlichkeit “der Würfel zeigt eine Zahl kleiner gleich 2” (\(A\)) plus der Teilwahrscheinlichkeit “der Würfel zeigt eine Zahl größer gleich 5” (\(B\)), \(P(A\cup B) = P(A) + P(B)\).
Die Wahrscheinlichkeit für das Ereignis “der Würfel zeigt eine Zahl kleiner gleich 2 oder kleiner gleich 3” (\(P(A\cup B)\)) ergibt sich aus der Teilwahrscheinlichkeit “der Würfel zeigt eine Zahl kleiner gleich 2” (\(A\)) plus die Teilwahrscheinlichkeit “der Würfel zeigt eine Zahl kleiner gleich 3” (\(B\)) minus der Ergebnisse, welche sich beide Ereignisse teilen (\(A\cap B\)); hier also minus der Wahrscheinlichkeit “für Zahlen kleiner oder gleich 2”, \(P(A\cup B) = P(A) + P(B) - P(A\cap B)\).
Wie gelangen wir aber nun zu den Zahlen, die wir als Wahrscheinlichkeiten bezeichnen? Die bisherigen Ausführungen und Beispiele legen eine Verwandtschaft zu relativen Häufigkeiten nahe.
Die Laplace-Wahrscheinlichkeit: Haben in einem Zufallsexperiment alle Elementarereignisse \({\omega_j}\) die gleiche Wahrscheinlichkeit, dann spricht man von einem Laplace-Experiment.
Sei also \(\Omega=\{ \omega_1,\ldots,\omega_n\}\) eine Ergebnismenge (mit \(n\)-vielen Ergebnissen), dann ist die Wahrscheinlichkeit eines jeden Elementarereignisses \(\{\omega_j\}\) bei Vorliegen eines Laplace-Experiments: \[P(\{\omega_j\}) = \frac{1}{|\Omega|}=\frac{1}{n}\]
Unter dieser Voraussetzung kann die Laplace-Wahrscheinlichkeit eines beliebigen Ereignisses \(A\) bestimmt werden als \[P(A)=\frac{\text{Anzahl der für $A$ günstigen Ergebnisse}}{\text{Anzahl aller möglichen Ergebnisse}},\] also ganz ähnlich wie die relativen Häufigkeiten, die wir im Rahmen der Deskriptiven Statistik kennengelernt haben (vgl. Teil 3).
Die Berechnung der Laplace-Wahrscheinlichkeit wollen wir im Folgenden
anhand eines Beispiels zum dreifachen Münzwurf (\(K\)=Kopf vs. \(Z\)=Zahl) verdeutlichen. Beim
Zufallsexperiment “dreifaches Werfen einer Münze” besteht jedes Element
der Ergebnismenge \(\Omega\) aus einem
3-Tupel, wobei jedes 3-Tupel genau eine mögliche Kombination der Würfe
beschreibt.
\[\begin{equation*}
\begin{aligned}
\Omega=\{&(K,K,K),(K,K,Z), (K,Z,K),(Z,K,K),\\
&(K,Z,Z),(Z,K,Z),(Z,Z,K),(Z,Z,Z)\}
\end{aligned}
\end{equation*}\] Da \(|\Omega| =
8\), besitzen alle Elementarereignisse (unter Annahme eines
Laplace-Experiments) die gleiche Wahrscheinlichkeit von \(P(\{\omega_j\})=\frac{1}{8}\).
Fragt man nun nach der Wahrscheinlichkeit des Ereignisses \(A\)= “der dreifache Münzwurf ergab genau zweimal Zahl”, \(A = \{(K,Z,Z), (Z,K,Z), (Z,Z,K)\}\), so ergibt sich \[P(A)=\frac{3}{8},\] denn genau 3 von 8 Ergebnissen, führen zum Eintreten von \(A\).
Die Wahrscheinlichkeit des Gegenereignisses \(\bar{A}\)= “nicht genau zweimal Zahl” ist dann: \[P(\bar{A})=1-P(A)=\frac{5}{8}\]
Ein enger Bezug von Wahrscheinlichkeiten und relativen Häufigkeiten im Sinne eines objektiven Wahrscheinlichkeitsbegriffs wird auch deutlich, wenn wir die relativen Häufigkeiten von Ergebnissen eines Zufallsexperiments als Grenzwert betrachten. Gehen wir hierfür wieder vom Zufallsexperiment “dreimaliges Werfen einer Münze” aus, wobei wir uns aber diesmal nicht für die expliziten Ergebnisse des dreimaligen Münzwurfs interessieren, sondern nur noch für die Häufigkeit “Zahl”. Da wir beim dreimaligen Münzwurf minimal “\(0\)-mal Zahl” und maximal “3-mal Zahl” beobachten können, ist die Ergebnismenge: \[\Omega'=\{0,1,2,3\}\] Wie würden nun die Wahrscheinlichkeiten der Elementarerereignisse lauten? Unter Berücksichtigung der Laplace’schen Wahrscheinlichkeitsrechnung können wir in diesem Fall die Ergebnisse aus \(\Omega'\) als Ereignisse der generelleren Menge \(\Omega\) auffassen, sodass wir die folgenden Wahrscheinlichkeiten ableiten können: \[P(\{0\})=\frac{1}{8}\hspace{0.2cm}\text{und}\hspace{0.2cm} P(\{1\})=\frac{3}{8}\hspace{0.2cm}\text{und}\hspace{0.2cm} P(\{2\})=\frac{3}{8}\hspace{0.2cm}\text{und}\hspace{0.2cm} P(\{3\})=\frac{1}{8},\] denn es gibt nur eine Möglichkeit \(0\)- oder 3-mal “Zahl” zu werfen (immer “Zahl” oder immer “Kopf”) bzw. je drei Möglichkeiten genau 1- oder 2-mal “Zahl” zu werfen (entweder genau im ersten, zweiten oder dritten Wurf eine “Zahl” bzw. “Kopf”).
Die Frage ist allerdings, was wir machen können, wenn diese logische Ableitung auf Basis von gleich wahrscheinlichen Ergebnissen eines Zufallsexperiments nicht möglich ist? Zum Beispiel, weil wir uns nicht über die zugrundeliegende Ergebnismenge \(\Omega\) bewusst sind, oder weil wir nicht wissen, wie wahrscheinlich ein bestimmtes Ergebnis ist (bspw. wenn wir vermuten, dass eine Münze gezinkt ist)? In diesem Fall müssen wir die Wahrscheinlichkeit eines Ergebnisses als Grenzwert einer relativen Häufigkeit betrachten. Das heißt, uns bleibt nach einer frequentistischen Betrachtungsweise nichts anderes übrig, als ein gegebenes Zufallsexperiment sehr häufig durchzuführen und dabei zu zählen, wie häufig ein Ergebnis auftritt und daraus dessen relative Häufigkeit zu berechnen.
Zur Illustration dieser Grenzwertbetrachtung führen wir im folgenden zwei kleine Simulationen mit R durch und betrachten einen dreimaligen Münzwurf. Mit R definieren wir zunächst die Anzahl der Durchgänge und bereiten zwei Variablen vor. Die erste hält fest, ob ein Ereignis eingetreten ist. Die zweite hält die relative Häufigkeit des Ereignisses über die Durchgänge hinweg fest:
n <- 300 # Wie oft 3 mal werfen?
relHfgk.ereignis <- NULL # relative Häufigkeit bis Durchgang x
ereignis.eingt <- NULL # Ereignis eingetreten in Durchgang x?
Danach schreiben wir eine Schleife, innerhalb derer wir
n
-mal zufällig dreimal “Kopf” oder “Zahl” “Werfen” (wobei
das dreimalige “Werfen” durch die Funktion sample
simuliert
wird) und innerhalb derer wir kontinuierlich die relative Häufigkeit von
“zweimal Zahl” bis zum x-ten Wurf speichern:
for (i in 1:n) { # so oft 3 mal werfen, wie n gesetzt ist
einDurchgang <- sample(x = c("Kopf","Zahl"), # Ausgänge pro Wurf: Kopf oder Zahl
size = 3, # immer 3x werfen
replace = TRUE) # "mit Zurücklegen"
# Ereignis "2 mal Zahl" eingetreten? ...und anhängen
ereignis.eingt <- c(ereignis.eingt,
sum(einDurchgang == "Zahl") == 2)
# rel. Häufigkeit des Ereignisses "2 mal Zahl" berechnen und anhängen
relHfgk.ereignis <- c(relHfgk.ereignis, sum(ereignis.eingt)/i)
}
Zum Schluss plotten wir die relative Häufigkeit als eine Funktion der Anzahl der Würfe:
plot(c(1:n), relHfgk.ereignis,
ylim = c(0,1),
type = "l",
ylab = "rel. Hfgk. '2 x Zahl'",
xlab = "Anzahl Würfe",
cex.axis = 1.3,
cex.lab = 1.5)
abline(h = 3/8, lty = 2)
Zu erkennen ist, dass zu Beginn der Reihe die relative Häufigkeit von “zweimal Zahl” stark schwankt, sich allerdings mit zunehmender Anzahl an Durchgängen (= dreimaligem Werfen der Münze) um den Wert \(\frac{3}{8}\) stabilisiert. In anderen Worten: Je häufiger wir die Münze dreimal werfen, desto näher kommt die relative Häufigkeit von “zweimal Zahl” dem Wert \(\frac{3}{8}\). Das ergibt Sinn, wenn wir die oben hergeleitete theoretische Wahrscheinlichkeit uns ins Gedächtnis rufen.
Nun erweitern wir die Simulation auf alle Elementarereignisse des
3-fachen Münzwurfs. Hierfür modifizieren wir die Schleife derart, sodass
in jedem Durchgang die Häufigkeit von “Zahl” an den Vektor
absHfgk.Zahl
angehängt wird.
n <- 1000 # Wie oft 3 mal werfen?
absHfgk.zahl <- NULL
for (i in 1:n) {
einWurf <- sample(x = c("Kopf","Zahl"), # mögliche Teilergebnisse: Kopf und Zahl
size = 3, # immer 3x ziehen
replace = TRUE) # "mit Zurücklegen"
absHfgk.zahl <- c(absHfgk.zahl, sum(einWurf == "Zahl")) # abs. Häufigkeit Zahl anhängen
}
Im Anschluss bestimmen wir über alle Durchgänge hinweg, wie häufig entweder 0-mal, 1-mal, 2-mal, oder 3-mal “Zahl” geworfen wurde.
barplot(table(absHfgk.zahl)/n,
ylim = c(0,1),
ylab = "rel. Hfgk.",
xlab = "Anzahl 'Zahl'",
cex.lab = 1.3,
cex.axis = 1.5)
abline(h = c(0,1/8,3/8),
lty = c(1,2,2))
text(1, 0.9,
paste("nach",n,"Ziehungen"),
pos = 4,
cex = 1.5)
Zu erkennen ist, dass wir in je circa \(12.5\%\) der Fälle 0-mal oder 3-mal eine Zahl geworfen haben. Die Ergebnisse 1- oder 2-mal “Zahl” kamen hingegen in etwa in \(37.5\%\) der Fälle vor, was sich auch mit den oben errechneten Wahrscheinlichkeiten von \(P(\{0\})=P(\{3\})=\frac{1}{8}\) bzw. \(P(\{1\})=P(\{2\})=\frac{3}{8}\) deckt.
Dies bedeutet, dass wir eine Wahrscheinlichkeit nach dem objektiven Wahrscheinlichkeitsbegriff als eine relative Häufigkeit auf lange Sicht interpretieren können: “Führen wir immer und immer wieder das selbe Zufallsexperiment durch, und zwar unendlich oft, so ist die Wahrscheinlichkeit eines Ereignisses nichts anderes als dessen relative Häufigkeit”. Da wir auch im Alltag häufig mit Wahrscheinlichkeiten konfrontiert sind, scheint diese Erkenntnis auf den ersten Blick etwas trivial. Wir werden einer solchen Logik aber im Zuge der Inferenzstatistik sehr häufig begegnen. Es ist also wichtig, dieses Prinzip grundlegend zu verstehen. :)
Formal können wir die Essenz des objektiven Wahrscheinlichkeitsbegriffs beschreiben als: Sei \(A\) ein Ereignis eines Zufallsexperiments mit Ergebnismenge \(\Omega\), dann stabilisiert sich die Folge der relativen Häufigkeiten \(p_n(A)\) bei \(P(A)\) wenn \(n\) gegen unendlich geht: \[p_n(A)\rightarrow P(A)\text{, wenn }n\rightarrow \infty\] Der Grenzwert der relativen Häufigkeiten eines Ereignisses \(A\) ist somit als die Wahrscheinlichkeit von \(A\), also \(P(A)\), zu interpretieren.
In der Stochastik ist es essenziell, alle Ergebnisse eines Zufallsexperiments zu kennen, um hierauf aufbauend sinnvoll Wahrscheinlichkeiten für bestimmte Ereignisse abzuleiten (bspw. mit Hilfe der Laplace’schen Wahrscheinlichkeitsrechnung).
Die Anzahl aller Ergebnisse eines Zufallsexperiments aufzulisten, ist die Disziplin der Kombinatorik (die “Lehre des Abzählens”); oft illustriert durch ein Urnenmodell. Hierbei stellt man sich eine Urne mit \(N\) Kugeln vor, aus der sukzessive gezogen wird. Die entnommenen Kugeln bilden hierbei eine Stichprobe vom Umfang \(n\). Dabei gibt es das …
Weiterhin kann man beim Urnenmodell unterscheiden, ob die Reihenfolge der gezogenen Elemente berücksichtigt werden soll oder nicht:
Später (siehe v.a. Statistik 2 und Forschungsmethoden) werden sich die Stichproben i.d.R. auf Personen beziehen, welche mit gleicher Wahrscheinlichkeit aus einer Population gezogen werden. Das nennt man einfache Zufallsstichprobe, weil jedes Element der Population die gleiche Wahrscheinlichkeit hatte, in die Stichprobe gezogen zu werden. Auch dies kann man sich in Form eines Urnenmodells vorstellen.
Bei der Stichprobenziehung stellt sich häufig die Frage “Wie viele mögliche Stichproben gibt es überhaupt?”. Oder in anderen Worten: “Wie viele Ergebnisse des Zufallsexperiments ‘Ziehen einer Stichprobe’ vom Umfang \(n\) gibt es”? Eine Antwort hierauf liefert eben die Kombinatorik und im Folgenden wollen wir alle Kombinationen der möglichen Urnenmodelle (d.h. mit/ohne Zurücklegen kombiniert mit mit/ohne Berücksichtigung der Reihenfolge) durchgehen. Eine wichtige Formel im Kontext der Kombinatorik ist der Binomialkoeffizient, sodass wir diesen vorher kurz betrachten wollen.
Der Binomialkoeffizient ist zunächst eine Operation auf zwei Zahlen \(b\) und \(a\), dessen Bedeutung wir später noch genauer betrachten werden. Gelesen wird der Binomialkoffizient als “b über a”, wobei die dahinterliegende Rechnung eine Kombination aus Multiplikation, Division und Fakultät beinhaltet: \[{{b}\choose {a}} =\frac{b!}{(b-a)!\cdot a!}\hspace{1cm}\text{für } 0\leq a\leq b\]
Da die Fakultät von 0 bzw. 1 gleich 1 ist (\(0!=1!=1\)), ergibt der Binomialkoeffizient für gewisse Sonderfälle die folgenden Werte: \[\begin{align*} {{0}\choose{0}}&= \frac{0!}{(0-0)! \cdot 0!} = \frac{1}{1 \cdot 1} = 1 \quad \quad \text{wenn } b = a = 0 \\\\ {{b}\choose{0}} &= \frac{b!}{(b-0)! \cdot 0!} = \frac{b!}{b! \cdot 1} = 1 \quad \quad \text{wenn } a = 0 \\\\ {{b}\choose{b}}&= \frac{b!}{(b-b)! \cdot b!} = \frac{b!}{0! \cdot b!} = \frac{b!}{1 \cdot b!} = 1 \quad \quad \text{wenn } a = b \\\\ {{b}\choose{1}}&= \frac{b!}{(b-1)! \cdot 1!} = \frac{b!}{(b-1)!} = \frac{b \cdot (b-1) \cdot \ldots \cdot 1 }{(b-1) \cdot \ldots \cdot 1 } = b \quad \quad \text{wenn } a = 1 \end{align*}\]
Möchte man den Binomialkoeffizienten mit R berechnen, geschieht dies
mit der Funktion choose()
:
choose(3,2) # 3 über 2
## [1] 3
Betrachten wir nun den Fall “mit Berücksichtigung der Reihenfolge (Variation)” und “mit Zurücklegen”. Das heißt, wir stellen uns vor, wir ziehen \(n\)-mal aus einer Urne mit \(N\) Kugeln, wobei wir darauf achten, in welcher Reihenfolge wir die Kugelen gezogen haben und, dass wir jede Kugel nach dem Ziehen wieder zurück in die Urne werfen.
In einem solchen Fall können wir genau \(N^n\) unterschiedliche Stichproben ziehen. Die Formel \(N^n\) ergibt sich unmittelbar, wenn wir uns überlegen, welche der \(N\)-vielen Kugeln man pro Zug ziehen kann. Für unseren ersten Zug können wir eine der \(N\)-vielen Kugeln ziehen. Da wir im Anschluss die Kugel aber wieder zurücklegen, können wir im zweiten Zug wieder aus allen \(N\)-vielen Kugeln wählen/ziehen. Dies zieht sich solange fort, bis wir \(n\)-viele Kugeln gezogen haben. Außerdem beachten wir ja die Reihenfolge der gezogenen Kugeln, was bedeutet die Reihenfolge “Kugel A -> Kugel B” beschreibt eine andere Stichprobe als die Reihenfolge “Kugel B -> Kugel A”. Auf Basis dieser Überlegung haben wir also \[N_{\text{Zug 1}} \cdot N_{\text{Zug 2}} \cdot \ldots \cdot N_{\text{Zug n }} = N^n\] Möglichkeiten, eine Stichprobe vom Umfang \(n\) aus \(N\) vielen Objekten zu ziehen.
In diesem Fall kommt es wieder darauf an, in welcher Reihenfolge wir die Kugeln ziehen, allerdings legen wir die gezogenen Kugeln diesmal nicht wieder zurück.
Dann gibt es \[\frac{N!}{(N-n)!} = N \cdot (N-1) \cdot \ldots \cdot (N-n+1)\] viele mögliche Stichproben.
Auch hier ergibt sich die Formel unmittelbar, wenn wir uns überlegen, welche der Kugeln wir pro Durchgang ziehen können. Im ersten Durchgang können wir jede der \(N\)-vielen Kugeln erwischen. Im zweiten Durchgang fehlt nun allerdings die im ersten Durchgang gezogene Kugeln, sodass wir für den zweiten Durchgang nur \(N-1\)-viele Kugeln ziehen können. Die Logik setzt sich dann fort bis wir \(n\)-viele Kugeln gezogen haben.
In diesem Fall beachten wir die Reihenfolge der gezogenen Kugeln nicht und legen die Kugeln nach dem Ziehen auch nicht wieder zurück in die Urne.
Dann gibt es \[{N} \choose{n}\] viele mögliche Stichproben.
Um diese Formel herzuleiten (vgl. Henze, 2013), stellen wir uns zunächst vor, wir würden die Kugeln \(k_j\) einer entsprechenden Stichprobe vom Umfang \(n\) kennen, (\(k_1\), \(k_2\), \(\ldots\), \(k_n\)). Die Kugeln jeder Stichprobe können nun auf \(n!\)-viele Möglichkeiten vertauscht werden. Das entspricht allen denkbaren Stichproben für den Fall “mit Berücksichtigung der Reihenfolge” (= Variation ohne Zurücklegen). Wir können also schreiben:
\[ \text{|Kombination ohne Zurücklegen|} \cdot n! = \text{|Variation ohne Zurücklegen|}\] bzw.
\[\text{|Kombination ohne Zurücklegen|} = \text{|Variation ohne Zurücklegen|}\cdot \frac{1}{n!}\] Setzt man nun die Formel für die Variation ohne Zurücklegen ein, folgt:
\[\frac{N!}{(N-n)!} \cdot \frac{1}{n!} = \frac{N!}{(N-n)! \cdot n!} = {N\choose n}\]
Für diesen Fall beachten wir ebenfalls die Reihenfolge der gezogenen Kugeln nicht, legen die gezogenen Kugeln nach dem Ziehen aber wieder zurück in die Urne.
Dann gibt es \[{N+n-1} \choose{n}\] viele mögliche Stichproben.
Um diese Formel herzuleiten (vgl. Henze, 2013), stellen wir uns zuerst vor, dass jede Kugel \(k_j\) die wir ziehen eine bestimmte Nummer \(1, \ldots, N\) besitzt. Danach machen wir uns klar, dass wir bei jeder Stichprobe, bei der die Reihenfolge irrelevant ist, die Kugeln \(k_j\) vertauschen können, sodass wir eine geordnete Reihe erhalten. Da bei der Kombination die gleiche Kugel mehrfach gezogen werden kann, folgt für die geordnete Reihe:
\[1 \leq k_1 \leq \ldots \leq k_n \leq N\] Man kann nun mit Hilfe eines Tricks die Reihe linearisieren, sodass Wiederholungen ausgeschlossen werden. Genauer transformiern wir jedes \(k_j\) in ein \(k_j'\) mit Hilfe der folgenden Formel,
\[k_j = k_j + j - 1 \quad \quad \forall j \in \{1, \ldots, n\},\] sodass die neue Reihe nun lautet:
\[1 \leq k_1' < \ldots < k_n' \leq N + n -1\] Die “neue” Stichprobe (\(k_1', \ldots, k_n'\)) besitzt keine Wiederholung mehr und kann somit als eine Stichprobe des Falls “Kombination ohne Zurücklegen” betrachtet werden, bei der \(n\)-viele Kugeln aus einer Urne mit \(N+n-1\)-vielen Kugeln gezogen werden. In anderen Worten kann so also gezeigt werden, dass der Fall “Kombination mit Zurücklegen”, bei dem eine Stichprobe vom Umfang \(n\) aus einer Urne mit \(N\) Kugeln gezogen wird, genauso viele Möglichkeiten hervorbringt, wie der Fall “Kombination ohne Zurücklegen”, bei dem eine Stichprobe vom Umfang \(n\) aus einer Urne mit \(N+n-1\) Kugeln gezogen wird (vgl. hierzu nochmal die Formeln für Kombinationen mit und ohne Zurücklegen).
Die Formeln für alle vier Fälle der grundlegenden Kombinatorik lassen sich kompakt durch eine Tabelle zusammenfassen:
Beispiele
1.) Eine Münze wird dreimal hintereinander geworfen. Wie viele Ergebnisse kann es geben, wenn uns die Reihenfolge jedes einzelnen Münzwurfs egal ist? (\(N= 2\), \(n=3\))
\[{{2+3-1} \choose {3}} = 4\]
2.) Aus 4 Männern und 5 Frauen sollen 2 Männer und 3 Frauen ausgewählt werden. Wie viele verschiedene Kombinationen sind möglich?
Anzahl der Möglichkeiten für die Männer: \({4 \choose 2} = 6\)
Anzahl der Möglichkeiten für die Frauen: \({5 \choose 3} = 10\)
Gesamtanzahl der Möglichkeiten durch das Kombinieren aller Substichproben: \(6 \cdot 10 = 60\)
Ganz analog zu den bedingten Häufigkeiten in Teil 3, gibt es auch eine bedingte Wahrscheinlichkeit im Zuge der Wahrscheinlichkeitsrechnung. Zentral ist hierbei, dass wir Informationen über ein bereits eingetretenes Ereignis \(B\) nutzen, um die Wahrscheinlichkeit eines anderen Ereignisses \(A\) zu beurteilen.
Hierfür betrachten wir das Beispiel des einmaligen Werfen eines Würfels. Die Wahrscheinlichkeit für \(A\)=“gerade Zahl”=\(\{2,4,6\}\) ist \[P(A)=\frac{3}{6}=0.5\] Angenommen, wir erhalten die Information, dass die geworfene Zahl kleiner/gleich 3 ist, also das Ereignis \(B=\{1,2,3\}\) eingetreten ist, dann müssen wir nun nicht mehr die gesamte Ergebnismenge \(\Omega\) berücksichtigen, sondern nur noch \(B\). Innerhalb von \(B\) haben wir nur ein Ergebnis (die \(2\)), welche das Ereignis \(A\) erfüllt, sodass wir die Wahrscheinlichkeit für \(A\) in diesem Fall berechnen als: \[P(A|B)=\frac{1}{3}\] In anderen Worten: Da wir wissen, dass \(B\) eingetreten ist, müssen wir die Elemente, die für das Eintreten von \(A\) sprechen, nicht mehr an der Ergebnismenge \(\Omega\) relativieren, sondern nur noch an \(B\).
Etwas formaler gilt: Seien \(A,B\subseteq\Omega\) und \(P(B)>0\), dann ist \[P(A|B) = \frac{P(A\cap B)}{P(B)}\] die bedingte Wahrscheinlichkeit von \(A\) unter \(B\).
Eine direkte Konsequenz dieser Definition (die wir noch benötigen werden) ist: \[P(A\cap B)=P(A|B)\cdot P(B)\]
Ein wichtiger Begriff im Zuge der Stochastik bzw. Statistik ist der der Unabhängigkeit zweier Ereignisse. Generell gilt, dass wir bei bedingten Wahrscheinlichkeiten die Kenntnis über das Eintreten eines Ereignisses \(B\) nutzen, um eine andere Wahrscheinlichkeit für das Eintreten von \(A\) anzugeben. Für den Fall, dass das Wissen über \(B\) aber “nichts nützt”, um die Aussage über \(A\) zu ändern, nennt man die Ereignisse stochastisch unabhängig voneinander. Formal schreibt man dies: \[P(A)=P(A|B)\]
Auf Basis der Definition der bedingten Wahrscheinlichkeit folgt weiter (für \(P(B)>0\)): \[P(A)=P(A|B)=\frac{P(A\cap B)}{P(B)}\Leftrightarrow P(A\cap B)=P(A)\cdot P(B)\] Zwei Ereignisse \(A\) und \(B\) sind also auch stochastisch unabhängig voneinander, sobald die Wahrscheinlichkeit ihrer Schnittmenge gleich dem Produkt ihrer Einzelwahrscheinlichkeiten ist: \[P(A\cap B)=P(A)\cdot P(B)\] Beispiel: Beim zweifachen Münzwurf ist die Ergebnismenge \(\Omega = \{(Z,Z), (K, Z), (Z, K), (K, K) \}\). Die Wahrscheinlichkeit für das Ereignis “2-mal Kopf” (\(A = \{(K, K)\}\)) ist \(P(A) = \frac{1}{4}\). Die Wahrscheinlichkeit für das Ereignis “mindestens einmal Kopf” (\(B = \{(K, Z), (Z, K), (K, K) \}\)) ist \(P(B) = \frac{3}{4}\). Sind die Ereignisse stochastisch unabhängig?
Hierfür berechnen wir zuerst die Wahrscheinlichkeit der Schnittmenge, \(P(A\cap B) = P(\{(K, K)\} = \frac{1}{4}\), und vergleichen diese mit dem Produkt der Wahrscheinlichkeiten der Ereignisse, \(P(A) \cdot P(B) = \frac{1}{4} \cdot \frac{3}{4} = \frac{3}{16}\). Da beides nicht gleich ist, folgt, dass die Ereignisse nicht stochastisch unabhängig sind.
Alternativ können wir \(P(A|B) = \frac{1}{3}\) berechnen und dies mit \(P(A) = \frac{1}{4}\) vergleichen. Auch hier muss die Folgerung lauten, dass beide Ereignisse nicht stochastisch unabhängig sind.
Eine Anmerkung zur stochastischen Unabhängigkeit: Im Zuge der Stichprobenziehung (bspw. anhand des Urnenmodells) sind die Ergebnisse der einzelnen Ziehungen beim Ziehen mit Zurücklegen stets unabhängig. Beim Ziehen ohne Zurücklegen sind die Ergebnisse der einzelnen Ziehungen abhängig voneinander.
Manchmal ist es möglich, die Wahrscheinlichkeit für das Eintreten eines Ereignisses zu ermitteln, wenn man nur Informationen über das bedingte Eintreten des Ereignisses besitzt.
Ausgangspunkt der Überlegung ist die komplette und disjunkte Zerlegung von \(\Omega\) in die Ereignisse \(A_1,\ldots,A_k\), d.h. \(\Omega\) lässt sich schreiben als Vereinigungsmenge aller Ereignisse: \[\Omega=A_1\cup A_2\cup\ldots\cup A_{k-1}\cup A_k\]
Dies wird in dem folgenden Mengendiagramm dargestellt. Das gesamte Rechteck umfasst dabei alle Ergebnisse des Zufallsexperiments (= \(\Omega\)) und jedes “Teilrechteck” stellt ein Ereignis \(A_j\) dar:
Für ein beliebiges Ereignis \(B \subseteq \Omega\) gilt nun, dass \(B\) dargestellt werden kann als eine Vereinigung aller Schnittmengen von \(B\) mit jedem \(A_j\): \[B=(B \cap A_1)\cup (B \cap A_2) \cup \ldots \cup (B \cap A_{k-1}) \cup (B \cap A_k)\]
Im folgenden Mengendiagramm ist das Ereignis \(B\) durch die graue Ellipse dargestellt. Da alle \(A_1,\ldots,A_k\) gemeinsam die gesamte Fläche von \(\Omega\) abbilden, folgt zwangsläufig, dass die gesamte Fläche von \(B\) auch dargestellt werden kann als die Summe aller Teile der Ellipse bzw. als Vereinigung aller Schnittmengen.
Da nun weiter die \(A_1,\ldots,A_k\) eine disjunkte Zerlegung von \(\Omega\) bilden, sind auch alle Schnittmengen \(B \cap A_j\) disjunkt, sodass wir die Wahrscheinlichkeit von \(B\) ausdrücken können als die Summe aller Schnittwahrscheinlichkeiten. \[P(B)=P(B \cap A_1) + P(B \cap A_2) + \ldots + P(B \cap A_{k-1}) + P(B \cap A_k)\] Setzt man nun die Formel zur bedingten Wahrscheinlichkeit für jede Schnittwahrscheinlichkeit ein, so folgt: \[\begin{equation*} \begin{aligned} P(B) &= P(B|A_1)\cdot P(A_1) + P(B|A_2)\cdot P(A_2) + \ldots + P(B|A_k)\cdot P(A_k) \\\\ &=\sum_{i=1}^k P(B|A_i)\cdot P(A_i) \end{aligned} \end{equation*}\] Diese Formel ist bekannt als Satz von der totalen Wahrscheinlichkeit.
Henze, M. (2013). Stochastik für Einsteiger: Eine Einführung in die faszinierende Welt des Zufalls. Springer.
Im vorherigen Abschnitt 8 haben wir die Grundlagen der Stochastik beleuchtet. Besonders relevant waren hier die Begriffe “Zufallsexperiment” und “Ergebnis”. Als Zufallsexperiment haben wir grob einen Prozess beschrieben, der (theoretisch) unendlich häufig durchgeführt werden kann, bei dem jedoch jeder einzelne Ausgang einem gewissen Zufall unterliegt (wie beispielsweise beim Würfelwurf). Alle möglichen Ausgänge wurden dann Ergebnisse genannt und in Form einer Menge \(\Omega\) zusammengefasst.
Wichtig ist, dass Ergebnisse reine Beschreibungen der Ausgänge sind und nicht zwangsläufig Zahlen sein müssen. Zum Beispiel umfasst die Ergebnismenge \(\Omega\) bei einem Münzwurf die Ausgänge “Zahl” und “Kopf” (\(\Omega = \{\text{"Zahl"}, \text{"Kopf"} \}\)). Etwas verallgemeinert können wir auch das Ziehen einer Versuchsperson oder das Ziehen einer gesamten Stichprobe von Versuchspersonen als Zufallsexperiment auffassen, bei dem jede Versuchsperson bzw. jede Stichprobe ein Ergebnis der Ergebnismenge aller möglichen Versuchspersonen bzw. Stichproben ist.
Oft interessiert man sich jedoch nicht direkt für das Ergebnis eines Zufallsexperiments, sondern für daraus abgeleitete Größen. Beispielsweise könnte uns lediglich die Anzahl von “Kopf” bei einem dreifachen Münzwurf (siehe vorheriger Teil 8) interessieren oder nur die (durchschnittliche) Größe von Versuchspersonen. Ähnlich wie bei Variablen im Rahmen der deskriptiven Statistik ist es häufig zweckmäßig, in diesem Fall die Ausgänge von Zufallsexperimenten durch Zahlen zu repräsentieren.
In der deskriptiven Statistik wurden Variablen konkrete Zahlen zugeordnet, die sich auf Basis einer existierenden Stichprobe ergaben. Im Fall von Zufallsexperimenten kennen wir jedoch den Ausgang nicht. Wir können aber dennoch einer “Variablen” eine Zahl zuordnen, wobei deren konkrete Ausprägung vom Zufall abhängt. Anders ausgedrückt sind wir daran interessiert, welche Ausprägungen eine Variable annehmen könnte und mit welcher Wahrscheinlichkeit. Das mathematische Modell einer solchen Variable nennt man eine Zufallsvariable.
Zufallsvariablen sind eines der zentralen Konzepte bei fast allen noch folgenden Betrachtungen. Zufallsvariablen werden wir im Folgenden mit einem fett gedruckten lateinischen Buchstaben schreiben, z.B. \(\mathbf{X}\). Dabei bestehen Zufallsvariablen immer aus zwei Mengen:
Bei der Zufallsvariablen wird nun jedem Ergebnis des Zufallsexperiments in \(\Omega\) eine Zahl zugeordnet.
Formal ist eine reelle Zufallsvariable also eine Abbildung, \[\mathbf{X}:\Omega\rightarrow\Omega'\hspace{1cm}(\Omega'\subseteq\mathbb{R}),\] bei der jedem Element \(\omega\in\Omega\) ein Element \(x \in \Omega'\) (= eine reelle Zahl) zugeordnet wird. Die zugeordnete Zahl \(\mathbf{X}(\omega) =x\) bezeichnet man als Realisierung. Im Folgenden werden den Elementen aus \(\Omega'\) dann auch noch Wahrscheinlichkeiten zugeordnet, die angeben, mit welcher Wahrscheinlichkeit die Zufallsvariable eine bestimmte Ausprägung hat bzw. bestimmte Wertebereiche annimmt (siehe weiter unten).
Wie bereits gesagt, sind Zufallsvariablen eines der zentralen Konzepte bei fast allen noch folgenden Betrachtungen und werden später insbesondere in Form von Teststatistiken auftreten. Dabei unterscheiden wir grundlegend zwei Arten von Zufallsvariablen:
Eine vereinfachte Illustration einer (diskreten) Zufallsvariable ist im Folgenden dargestellt. Das Zufallsexperiment sei das Ziehen eines Loses bei einer Tombola. Die Ergebnismenge \(\Omega\) umfasst alle möglichen Lose bei der Tombola, d.h. alle möglichen Ergebnisse des Zufallsexperiments “Ziehen eines Loses”. Eine Zufallsvariable definiert nun eine Zuordnungsvorschrift, welche angibt, auf welche Art und Weise den Ergebnissen/Losen eine Zahl in \(\Omega'\) zugeordnet wird. Zum Beispiel kann es hier sein, dass alle Lose mit einem Blitz als Symbol als Nieten zu zählen sind und \(0\) € Gewinn erbringen. Andere Lose sind hingegen mit einem monetären Gewinn assoziiert. So könnten beispielsweise bestimmte Lose mit einem Geldgewinn von 60 € dotiert sein. Dabei ist es egal, ob mehrere Ergebnisse der gleichen Zahl zugeordnet sind. Eine Wahrscheinlichkeitsfunktion ordnet abschließend den sog. Realisierungen, d.h. den Zahlen in \(\Omega'\), eine Wahrscheinlichkeit zu, unter Rückbezug auf die Wahrscheinlichkeiten der (Elementar-)Ereignisse.
Beginnen wir mit der näheren Beleuchtung diskreter Zufallsvariablen, welche wir konzeptuell in der vorherigen Abbildung bereits kennengelernt haben. Wie bereits angedeutet, bezeichnen wir eine Zufallsvariable als diskret, wenn \(\Omega'\) endlich (eigentlich: abzählbar unendlich) viele Elemente enthält. Wir greifen hierfür als Beispiel die Punktevergabe im Spiel “Skat” auf.
Beim Skat wird mit einem Spielkartenset von 32 Karten gespielt, wobei jeder Karte eine Punktzahl zugeordnet wird. Eine Zufallsvariable \(\mathbf{X}\) soll nun diese Zuordnungsvorschrift modellieren, wobei \(\mathbf{X}\) die folgenden Realisierungen \(x\) annehmen kann:
Im nächsten Schritt interessieren wir uns dafür, mit welcher Wahrscheinlichkeit ein bestimmter Kartenwert \(\mathbf{X}\) auftritt und bezeichnen diese Wahrscheinlichkeit kurz als \(p_X\):
Diese Werte bilden die Wahrscheinlichkeitsfunktion der Zufallsvariablen. Formal ist eine Wahrscheinlichkeitsfunktion wieder eine Abbildung, die jedem Element aus \(\Omega'\) eine Zahl zwischen \(0\) und 1 (inklusive) zuordnet.
Sei \(\mathbf{X}\) eine diskrete Zufallsvariable, dann ist ihre Wahrscheinlichkeitsfunktion \(f_{\mathbf{X}}\):
\[f_{\mathbf{X}}:\Omega'\rightarrow [0;1]\hspace{0.5cm}\text{mit}\hspace{0.5cm}f_{\mathbf{X}}(x)=P(\mathbf{X}=x)\]
\(P(\mathbf{X}=x)\) wird gelesen als: “Die Wahrscheinlichkeit, dass die Variable \(\mathbf{X}\) den Wert \(x\) annimmt.” Innerhalb des Ausdrucks bestimmt die Operation \(X=x\) eine Menge aller Ergebnisse \(\omega\) (= ein Ereignis), für die die Zufallsvariable den Wert \(x\) annimmt. Die Wahrscheinlichkeitsfunktion bestimmt die Wahrscheinlichkeiten also unter Rückbezug auf die Ergebnismenge \(\Omega\) und der aus ihr abgeleiteten Teilmengen:
\[P(\mathbf{X}=x) = P(\{\omega \in \Omega \; |\; X(\omega) = x \})\] Typischerweise wird die Wahrscheinlichkeitsfunktion in Form eines Graphen oder in Form einer Tabelle angegeben, bei der aufgelistet wird, welche Wahrscheinlichkeit eine jede Realisierung besitzt.
Da sich die Wahrscheinlichkeitsfunktion einer Zufallsvariablen auf die Ergebnismenge des zurückliegenden Zufallsexperiments und auf die aus der Ergebnismenge abgeleiteten Teilmengen bezieht, gehorcht die Wahrscheinlichkeitsfunktion den Axiomen von Kolmogorow. Das heißt:
alle Wahrscheinlichkeiten sind positiv \(P(\mathbf{X} = x) \geq 0\) (Positivität)
alle Wahrscheinlichkeiten aufsummiert (d.h. \(P(\Omega )\)) ergeben 1 (Normiertheit) \[\sum_{x\in\Omega'}f_{\mathbf{X}}(x) = \sum_{x\in\Omega'}P(\mathbf{X} = x) = 1\]
die Wahrscheinlichkeit dafür, dass die Zufallsvariable entweder einen Wert \(x_1\) oder einen Wert \(x_2\) annimmt, ist die Summe der beiden einzelnen Wahrscheinlichkeiten (Additivität) \[P(\mathbf{X}=x_1 \cup \mathbf{X}=x_2) = P(\mathbf{X}=x_1) + P(\mathbf{X}=x_2)\]
In der Deskriptiven Statistik haben wir Kennwerte für eine vorliegende Stichprobe in Form von Mittelwert \(M_X\) und (Stichproben-)Varianz \(S^2_X\) einer Variablen \(X\) berechnet.
Auch Zufallsvariablen haben ähnliche Kennwerte: den Erwartungswert und die Varianz einer Zufallsvariablen.
Der Erwartungswert ist etwas vereinfacht der Mittelwert aller Realisierungen der Zufallsvariablen, wenn wir das zugrundeliegende Zufallsexperiment unendlich oft wiederholen würden. Er ist also eine grobe Charakterisierung des Verhaltens eines Zufallsexperiments und der dazugehörigen Zufallsvariablen. Da wir ein Zufallsexperiment aber in der Praxis natürlich nicht unendlich häufig durchführen können, ist der Erwartungswert eine theoretische Betrachtung, wobei in dessen Berechnung die Wahrscheinlichkeitsverteilungen der Realisierungen eingehen.
Definition Erwartungswert: Sei \(\mathbf{X}\) eine diskrete Zufallsvariable, dann ist die Zahl \[E(\mathbf{X})=\sum_{x\in\Omega'}x\cdot P(\mathbf{X}=x)\] ihr Erwartungswert. Statt \(E(\mathbf{X})\) wird manchmal auch \(\mu_{\mathbf{X}}\) geschrieben. Umgangssprachlich ausgedrückt werden hierbei alle Werte von \(\Omega'\) bzw. alle Realisierungen mit ihrer Auftretenswahrscheinlichkeit multipliziert und die Produkte dann aufsummiert.
Beim obigen Skat-Beispiel lautet der Erwartungswert der Kartenwerte: \[\begin{equation*} \begin{aligned} E(\mathbf{X})&=0\cdot\frac{12}{32}+2\cdot\frac{4}{32}+3\cdot\frac{4}{32}+4\cdot\frac{4}{32}+10\cdot\frac{4}{32}+11\cdot\frac{4}{32}\\ &=3.75 \end{aligned} \end{equation*}\]
Zwei Anmerkungen zum Erwartungswert:
Ganz ähnlich gibt es auch eine Varianz bei einer diskreten Zufallsvariablen, welche angibt, wie stark die Realisierungen einer Zufallsvariablen auf lange Sicht streuen. Mathematisch ist sie die erwartete quadratische Abweichung vom Erwartungswert.
Definition Varianz: Ist \(\mathbf{X}\) also eine diskrete Zufallsvariable, dann ist \[V({\mathbf{X}})=E[(\mathbf{X}-E(\mathbf{X}))^2]\] ihre Varianz. Manchmal wird statt \(V(\mathbf{X})\) auch \(Var(\mathbf{X})\) oder \(\sigma^2_{\mathbf{X}}\) geschrieben. Interessant ist hierbei, dass die Varianz einer Zufallsvariablen eigentlich ein Erwartungswert ist. Formuliert man diesen Erwartungswert in der Formel aus, so errechnet sich die Varianz als \[V({\mathbf{X}}) = \sum_{x\in\Omega'} (x - E(\mathbf{X}))^2 \cdot P(\mathbf{X} = x)\quad.\] Die Wurzel aus der Varianz heißt auch Standardabweichung von \(\mathbf{X}\): \[\sigma_{\mathbf{X}} = \sqrt{V(\mathbf{X})}\]
Beim obigen Skat-Beispiel lautet die Varianz der Kartenwerte:
\[\begin{equation*} \begin{aligned} V(\mathbf{X})&=(0-3.75)^2\cdot\frac{12}{32}+(2-3.75)^2\cdot\frac{4}{32}+(3-3.75)^2\cdot\frac{4}{32}+(4-3.75)^2\cdot\frac{4}{32}+(10-3.75)^2\cdot\frac{4}{32}+(11-3.75)^2\cdot\frac{4}{32}\\ &\approx = 17.19 \end{aligned} \end{equation*}\]
Etwas vereinfacht reden wir von einer stetigen Zufallsvariablen immer dann, wenn \(\Omega'\) (überabzählbar) unendlich viele Elemente besitzt. (Anmerkung: Eigentlich heißt eine Variable stetig, wenn zu zwei Werten \(a\) und \(b\) jeder Zwischenwert im Intervall \([a;b]\) möglich ist.)
Daraus folgt eine wichtige Besonderheit: Wenn jeder Zwischenwert vorkommen können soll, ist eine Grenzbetrachtung nötig. In einer solchen Grenzbetrachtung lassen wir \(a\rightarrow b\) gehen, sodass das Intervall unendlich klein wird. Die Wahrscheinlichkeit eines solchen Bereichs bzw. die Wahrscheinlichkeit für beliebige Werte \(x\) in einem solchen unendlich kleinen Intervall gehen gegen Null und können damit keine sinnvolle Wahrscheinlichkeitsmaße liefern. Hieraus ergibt sich der kuriose Fall, dass die Wahrscheinlichkeit eines konkreten Wertes \(x\) Null ist. Bei einer stetigen Zufallsvariable gilt also (paradoxerweise): \[P(\mathbf{X} = x)=0\]
Die Angabe einer Wahrscheinlichkeitsfunktion, die für jeden Wert \(x\) in der (überabzählbar) unendlichen Menge eine Wahrscheinlichkeit angibt, ist also sinnfrei. Was aber alternativ geht ist die Angabe von Wahrscheinlichkeiten für das Auftreten eines beliebig kleinen Intervalls \([a;b]\), solange \(a\neq b\). Eine Funktion, die jedem denkbaren Intervall eine Wahrscheinlichkeit zuordnet, nennt sich Dichtefunktion.
Die folgende Funktion zeigt eine solche Dichtefunktion. Auf der x-Achse sind alle (überabzählbar-vielen) Realisierungen der Zufallsvariable abgetragen. Die y-Achse zeigt die Werte der Dichtefunktion.
Damit eine Funktion \(f\) eine Dichtefunktion ist, muss sie gewisse Eigenschaften erfüllen, die sich an die Axiome von Kolmogorow anlehnen. Folgende Bedingungen an eine Dichtefunktion \(f\) werden daher gestellt:
Die Funktion \(f\) muss integrierbar sein.
Alle Werte, welche die Dichtefunktion annehmen kann, müssen positiv sein (Positivität). \[f(x)\geq 0 \quad \quad \forall x\in\mathbb{R}\]
Die Fläche unter der Funktion ist genau 1, was der Wahrscheinlichkeit entspricht, dass die Zufallsvariable irgendeinen Wert annimmt (Normiertheit). \[\int_{-\infty}^{+\infty}f(x)dx=1\]
(Additivität: gilt auch hier)
Man beachte dabei, dass die Anforderung an eine Dichtefunktion nur einschließt, dass die Werte auf der Dichtefunktion positiv sind (\(f(x)\geq 0\)). Es kann also durchaus vorkommen, dass die Dichtefunktion im stetigen Fall Werte größer \(1\) annimmt! Am Ende darf lediglich jedes beliebige Integral der Dichtefunktion nicht größer als \(1\) sein.
Die nächste Frage ist nun, wie wir konkret die Wahrscheinlichkeiten ausrechnen, mit der eine Zufallsvariable \(\mathbf{X}\) mit Dichtefunktion \(f_\mathbf{X}\) Werte in einem Bereich zwischen \(a\) und \(b\) annimmt. Mathematisch ergibt sich eine gesuchte Wahrscheinlichkeit als Integral über das jeweilige Intervall. Betrachtet man die obere Dichtefunktion, ist bspw. die Wahrscheinlichkeit, dass die Zufallsvariable irgendeinen Wert annimmt, das Integral zwischen der kleinsten und größten Zahl (hier durch den Bereich zwischen \(a\) bis \(b\) gekennzeichnet):
Im allgemeinen Fall ist die gesuchte Wahrscheinlichkeit die Fläche unter der Dichtefunktion von \(-\infty\) bis \(+\infty\). Im Fall, dass wir die die kleinste und größte Realisierung kennen (hier \(a\) und \(b\)), gilt: \[\int_{a}^{b}f(x)dx=1\] Das Ergebnis entspricht dem sicheren Ereignis mit einer Wahrscheinlichkeit \(1\) (vgl. Bedingung zur Normiertheit).
Die gleiche Rechnung gilt nun für beliebige Wertebereiche. So entspricht die Wahrscheinlichkeit, dass die Zufallsvariable einen Wert im Intervall \([0;\; b]\) annimmt im vorliegenden Beispiel \(0.5\) (vgl. roter Bereich in der nachfolgenden Grafik): \[\int_0^bf(x)dx=0.5\]
Zwischenfazit: Wir können also festhalten, dass Wahrscheinlichkeitsaussagen bei stetigen Zufallsvariablen nur über bestimmte Intervalle an Realisierungen getroffen werden können, wobei sich deren Berechnung als Fläche unter der Dichtefunktion ergibt:
\[P(a \leq \mathbf{X} \leq b) = \int_a^{b}f(x)dx\]
Man muss also die Form bzw. Funktion \(f\) der Dichtefunktionen kennen, um Wahrscheinlichkeiten abzuleiten. Einerseits kann die Funktion grundsätzlich beliebig aussehen, solange sie die Bedingungen für eine Dichtefunktion erfüllt. Andererseits gibt es sehr typische und immer wiederkehrende Dichtefunktionen bzw. Familien von Dichtefunktionen, die gut bekannt sind. Wir werden später noch die sog. Normalverteilung kennenlernen – die wahrscheinlich bekannteste Dichtefunktion.
Ein kurzer Ausflug: Eine häufige Frage, die wir uns
im Zuge der später folgenden Inferenzstatistik stellen werden, lautet:
Wie muss ein Wert \(a\) gewählt werden,
damit die Fläche von \(a\) bis \(+\infty\) genau 5% beträgt? Die Lösung
beinhaltet, dass der Ausdruck \[\int_a^{+\infty}f(x)dx=0.05\] nach \(a\) aufgelöst werden muss. Aber keine
Sorge, hierfür werden wir i.d.R. R
zur Hilfe nehmen :)
Erwartungswert und Varianz: Ähnlich wie diskrete Zufallsvariablen, besitzen auch stetige Zufallsvariablen einen Erwartungswert und eine Varianz, welche (grob gesprochen) den “Mittelwert” und die “Streuung” der Realisierungen auf lange Sicht reflektieren.
Sei \(\mathbf{X}\) eine stetige Zufallsvariable mit der Dichtefunktion \(f\), dann ist ihr Erwartungswert \[E(\mathbf{X})=\int_{-\infty}^{+\infty}x\cdot f(x)dx\] und ihre Varianz \[V(\mathbf{X})=E[(\mathbf{X}-E(\mathbf{X}))^2].\] Die Formel zur Varianz ist also identisch zu der im diskreten Fall. Beim Erwartungswert wurde das Summenzeichen durch ein Integral ersetzt und die Wahrscheinlichkeitsfunktion durch eine Dichtefunktion.
In der Regel werden wir die Varianz und den Erwartungswert einer Zufallsvariablen nicht selbst ausrechnen, sondern eher spezifische Formeln für bestimmte Verteilungen nutzen. Allerdings möchten wir hier noch eine kurze qualitative Erläuterung zur Berechnung des Erwartungswerts liefern.
Der Teil im Integral des Erwartungswerts, also \(x\cdot f(x)\), ist eine “neue” Funktion, nämlich die mit \(x \in\mathbb{R}\) gewichtete Dichtefunktion über \(\mathbb{R}\). Dies ist in der folgenden Abbildung dargestellt. Auf der linken Seite haben wir die ursprüngliche Dichtefunktion \(f(x)\). Auf der rechten Seite ist die skalierte Funktion \(x\cdot f(x)\).
Der Erwartungswert der zur Dichtefunktion gehörenden Zufallsvariablen \(\mathbf{X}\) ist dann das Integral der skalierten Funktion von \(-\infty\) bis \(+\infty\).
Bisher haben wir uns nur über Wahrscheinlichkeits- bzw. Dichtefunktionen Gedanken gemacht. In Analogie zur deskriptiven Statistik empirischer Daten entspricht dies (v.a. im diskreten Fall) einer relativen Häufigkeitsverteilung. Ähnlich wie für empirische Daten auch, gibt es nun aber für Zufallsvariablen ebenfalls Verteilungsfunktionen, welche die aufkumulierten Werte angeben. Konkrete Beispiele und Anwendungen werden wir später kennen lernen, die formale Einführung soll aber hier erfolgen.
Allgemein bezeichnen wir eine Verteilungsfunktion mit einem großen \(F\), wobei diese definiert ist als \[F(x)=P(\mathbf{X}\leq x).\] Die Verteilungsfunktion gibt also die Wahrscheinlichkeit an, mit der die Zufallsvariable \(\mathbf{X}\) einen Wert kleiner oder gleich \(x\) annimmt.
Die genaue Berechnung unterscheidet sich je nachdem, ob wir eine diskrete oder eine stetige Zufallsvariable betrachten.
Bei diskreten Zufallsvariablen gilt: \[F(x)=P(\mathbf{X}\leq x)=\sum_{x_i\leq x; \; x_i \in \Omega'}f(x_i)\]
Hierbei ist \(F(x)\) eine Treppenfunktion (vgl. in Analogie Teil 3.3.1), die an den Stellen \(x_i\) um den Wert \(f(x_i)\) nach oben springt. Für Werte unterhalb der kleinsten Realisierung (\(x<x_1\)) ist \(F(x)=0\). Für Werte über dem größtmöglichen Wert (\(x<x_k\)) ist \(F(x)=1\) (im endlichen Fall). Für \(x\rightarrow \infty\) geht \(F(x)\rightarrow 1\) (im nicht-endlichen Fall). Die folgende Grafik zeigt die Verteilungsfunktion für das obige Skat-Beispiel:
Bei stetigen Zufallsvariablen gilt: \[F(x)=P(\mathbf{X}\leq x)=\int_{-\infty}^xf(t)dt\] Hier ist die Verteilungsfunktion \(F(x)\) also definiert als das Integral der Dichtefunktion von \(-\infty\) bis \(x\), sodass sich eine kontinuierliche, monoton steigende Verteilungsfunktion ergibt. Für \(x\rightarrow -\infty\) geht \(F(x)\rightarrow 0\). Für \(x\rightarrow +\infty\) geht \(F(x)\rightarrow 1\). Aus der Definition ergibt sich zwangsläufig, dass die erste Ableitung von \(F(X)\) die Dichtefunktion \(f(x)\) ist. Es gilt außerdem: \[P(a\leq\mathbf{X}\leq b)=F(b) - F(a)\]
Die folgende Abbildung zeigt exemplarisch eine stetige Verteilungsfunktion.
Ähnlich wie beim Mittelwert und bei der Varianz auf Stichprobenebene (vgl. hier ), gibt es auch für den Erwartungswert und die Varianz einer Zufallsvariablen einige Eigenschaften und Rechenregeln, welche wir auch noch im Laufe der folgenden Kapitel benötigen werden.
Zum Erwartungswert:
Der Erwartungswert einer linear-transformierten Zufallsvariablen \(\mathbf{X}\) entspricht der linearen Transformation des Erwartungswertes von \(\mathbf{X}\): \[E(a\cdot \mathbf{X} +b ) =a \cdot E(\mathbf{X}) +b \]
Der Erwartungswert der Summe zweier Zufallsvariablen \(\mathbf{X}\) und \(\mathbf{Y}\) entspricht der Summe der Erwartungswerte der Zufallsvariablen \(\mathbf{X}\) und \(\mathbf{Y}\): \[E(\mathbf{X}+\mathbf{Y}) = E(\mathbf{X}) + E(\mathbf{Y})\]
Zur Varianz:
Die Varianz einer Zufallsvariablen ist immer größer/gleich Null: \[\sigma_{\mathbf{X}}^2 \geq 0\]
Die Varianz einer linear-transformierten Zufallsvariablen ist: \[\sigma^2_{a\cdot\mathbf{X}+b} = a^2\cdot \sigma_{\mathbf{X}}^2\]
Die Varianz von linear-kombinierten Zufallsvariablen ist: \[\sigma^2_{\mathbf{X} \pm \mathbf{Y}} = \sigma^2_{\mathbf{X}} + \sigma_\mathbf{Y}^2 \pm 2\cdot Kov(\mathbf{X},\mathbf{Y})\]
Bisher sind wir nahezu immer von gegebenen Wahrscheinlichkeits- oder Dichtefunktionen ausgegangen. Die Frage ist aber: Woher kommen diese Verteilungen? Grundsätzlich gibt es eine Vielzahl an Wegen, an die jeweilige Verteilung zu gelangen.
Gerade im diskreten Fall können wir die Wahrscheinlichkeitsfunktion unter Rückbezug auf die Wahrscheinlichkeiten der Elementarereignisse eines Zufallsexperimentes herleiten: z.B. beim Münz- oder Würfelwurf, bei dem wir mit der Laplace-Wahrscheinlichkeit arbeiten können.
Manchmal werden aber auch die Wahrscheinlichkeitsfunktionen mit Hilfe von empirischen Häufigkeiten bzw. daraus abgeleiteten Histogrammen approximiert.
Oft können wir auch bestimmte Annahmen darüber treffen, wie eine bestimmte Zufallsvariable verteilt ist. Zum Beispiel neigen Variablen, welche das Ergebnis einer Vielzahl von Einflüssen sind, dazu, die Form einer Normalverteilung anzunehmen. Auf Basis dieser Vorannahmen können dann weitere Verteilungen exakt mathematisch abgeleitet werden. Dies ist die für uns wichtigste Variante.
Oft werden wir schreiben “eine Zufallsvariable ist so-und-so verteilt”. Zum Beispiel könnten wir behaupten, dass die Körpergröße in einer Population normalverteilt ist. “Verteilt sein” heißt dabei nichts anderes, als dass wir wissen, mit welcher Wahrscheinlichkeit welche Werte oder Wertebereiche auftreten, wenn wir die Zufallsvariable unendlich oft realisieren würden (bspw. wenn wir unendlich oft eine Person aus einer (gedachten) unendlich großen Population ziehen).
Wir betrachten hier zunächst die Bernoulli-Verteilung (diskret), die Binomialverteilung (diskret), die Normalverteilung (stetig), und die \(\bf{\chi^2}\)-Verteilung (stetig). Später werden wir aus der Normal- und \(\chi^2\)-Verteilung abgeleitete Verteilungen betrachten, nämlich die sog. \(\bf t\)-Verteilung (stetig) und die \(\bf F\)-Verteilung (stetig). Eine Visualisierung dieser Verteilungen finden Sie hier.
Diese Verteilungen sind aber bei weitem nicht erschöpfend. Für weitergehende Fragen, insbesondere im Zusammenhang der mathematischen Modellierung, gibt es noch zahlreiche andere Verteilungen. Zum Beispiel die …
Die Bernoulli-Verteilung ist ein Spezialfall für eine Zufallsvariable, die nur zwei Ausprägungen (\(0\) oder \(1\)) annehmen kann. Sie stellt daher eine binäre Verteilung dar. In der Regel gibt sie die Wahrscheinlichkeiten dafür an, ob ein Ereignis \(A\) eintreten wird oder nicht.
Die Zufallsvariable selbst nimmt nun die folgenden Werte an: \[ \mathbf{X} = \left\{ \begin{array}{ll} 1 & \text{falls }A\text{ eintritt ("Erfolg")} \\ 0 & \text{falls }A\text{ nicht eintritt ("Misserfolg")} \\ \end{array} \right. \]
Bezeichnen wir mit \(\pi\) die Wahrscheinlichkeit für das Eintreten von \(A\), dann ergibt sich als Wahrscheinlichkeitsfunktion: \[ P(\mathbf{X}=x) = \left\{ \begin{array}{ll} \pi & \text{wenn } x=1\\ 1-\pi & \text{wenn } x=0\\ 0 & \text{ansonsten} \\ \end{array} \right. \]
Beispiel: Wir stellen uns vor, wir wären daran interessiert, ob bei einem Würfelwurf die geworfene Zahl eine Sechs ist (“Erfolg”; \(\mathbf{X} = 1\)) oder nicht (“Misserfolg”; \(\mathbf{X} = 0\)). Dann könnten wir das Auftreten von “Erfolg” oder “Misserfolg” mit Hilfe einer Bernoulli-Verteilung modellieren, wobei die Wahrscheinlichkeit für einen “Erfolg” \(P(\mathbf{X} = 1) = \pi = \frac{1}{6}\) und die für einen “Misserfolg” \(P(\mathbf{X} = 0) = 1-\pi = 1-\frac{1}{6} = \frac{5}{6}\) ist.
Nun stellen wir uns vor, wir würden \(n\)-mal unabhängig ein Bernoulli Experiment durchführen (eine sog. Bernoulli-Folge; bspw. wenn wir mehrfach eine Münze werfen). Jeder der \(n\) Versuche kann dabei als (unabhängige) Bernoulli-verteilte Zufallsvariable \(\mathbf{X_i}\) mit der gleichen Wahrscheinlichkeitsfunktion \(P(\mathbf{X_i}=1)=\pi\) bzw. \(P(\mathbf{X_i}=0)=1-\pi\) beschrieben werden.
Eine neue Zufallsvariable \(\mathbf{X} = \mathbf{X_1} + \ldots + \mathbf{X_n}\) soll die Anzahl \(x\) der “Erfolge” bei den \(n\) Versuchen beschreiben. Dann ist die Wahrscheinlichkeitsfunktion gegeben durch:
\[ P(\mathbf{X}=x) = \left\{ \begin{array}{ll} {n \choose x}\cdot \pi^x \cdot (1-\pi)^{n-x} & \forall x \in\{0,\ldots,n\} \\ 0 & \text{ansonsten} \\ \end{array} \right. \]
Eine Zufallsvariable \(\mathbf{X}\) mit dieser Wahrscheinlichkeitsfunktion heißt “binomialverteilt mit den Parametern \(n\) und \(\pi\)”, kurz: \[\mathbf{X}\sim B(n,\pi)\] Beispiel 1: Jemand wirft eine Münze 10-mal und interessiert sich für die Häufigkeit von “Kopf”. Dann kann dieser 10-malige Münzwurf als eine binomialverteilte Zufallsvariable modelliert werden, bei der die Wahrscheinlichkeit eines “Erfolges” (= “Kopf”) je Versuch \(\pi=0.5\) ist. Wie groß ist die Wahrscheinlichkeit bei 10 Versuchen genau 6-mal Erfolg zu haben?
\[\begin{equation*} \begin{aligned} P(\mathbf{X}=6)&={n \choose x}\cdot \pi^x \cdot (1-\pi)^{n-x} \\ &={10 \choose 6}\cdot0.5^6\cdot(1-0.5)^{10-6}\\ &=210\cdot 0.5^6\cdot 0.5^4\\ &=210\cdot 0.5^{10}\\ &=0.2050781 \end{aligned} \end{equation*}\]
Beispiel 2: Die Person klebt nun einen Kaugummi auf die Seite “Zahl”, sodass die Wahrscheinlichkeit eines Erfolges je Versuch nur noch \(\pi=0.2\) sei. Wie groß ist die Wahrscheinlichkeit bei 6-maligem Werfen maximal 2-mal Erfolg zu haben?
\[\begin{equation*} \begin{aligned} P(\mathbf{X}\leq 2) &= P(\mathbf{X}=0) + P(\mathbf{X}=1) +P(\mathbf{X}=2)\\ &=0.262144+0.393216+0.245760\\&= 0.90112 \end{aligned} \end{equation*}\]
Beispiel 3: Die Wahrscheinlichkeit eines Erfolges je Versuch sei \(\pi=0.2\). Wie groß ist die Wahrscheinlichkeit bei 6 Versuchen maximal 5-mal Erfolg zu haben?
\[\begin{equation*} \begin{aligned} P(\mathbf{X}\leq 5) &= 1- P(\mathbf{X}=6) \\ &=0.999936 \end{aligned} \end{equation*}\]
Die gesamte Wahrscheinlichkeitsfunktion einer binomialverteilten Zufallsvariablen sieht für beispielhafte Werte von \(\pi\) und \(n\) so aus …
… oder auch so …
Für den Erwartungswert und die Varianz einer binomialverteilten Zufallsvariablen gibt es eigene Formeln. Sei \(\mathbf{X}\) eine binomialverteilte Zufallsvariable, \[\mathbf{X}\sim B(n,\pi),\] dann ist ihr Erwartungswert \[E(\mathbf{X}) = n\pi\] und die Varianz ist \[V(\mathbf{X}) = n\pi(1-\pi).\] Anmerkung: Da die Binomialverteilung eine Erweiterung der Bernoulli-Verteilung ist, lassen sich die Formeln für Erwartungswert und Varianz auch für die Bernoulli-Verteilung anwenden. In diesem Fall muss lediglich \(n=1\) gesetzt werden.
Die Berechnung der Wahrscheinlichkeits- bzw. Verteilungsfunktion
einer binomialverteilten Zufallsvariable kann auch in R
durchgeführt werden. Die relevanten Funktionen sind hierfür
dbinom()
bzw. pbinom()
:
# pi = 0.5: Wie groß ist die Wahrscheinlichkeit bei 10 Versuchen 6-mal Erfolg zu haben?
# d = "density", binom = Binomialverteilung
dbinom(x = 6, # x
size = 10, # n
prob = 0.5) # pi
## [1] 0.2050781
# pi = 0.2: Wie groß sind die Wahrscheinlichkeiten bei 6 Versuchen 0-6-mal Erfolg zu haben?
ps <- dbinom(x = c(0:6),
size = 6,
prob = 0.2)
ps
## [1] 0.262144 0.393216 0.245760 0.081920 0.015360 0.001536 0.000064
sum(ps) # die Summe ergibt 1
## [1] 1
# die Werte der entsprechenden Verteilungsfunktion erhalten wir mit pbinom()
pbinom(q = c(0:6),
size = 6,
prob = 0.2 )
## [1] 0.262144 0.655360 0.901120 0.983040 0.998400 0.999936 1.000000
Die bekannteste Dichtefunktion ist wohl die Normalverteilung (auch Gauß-Verteilung genannt, nach Carl Friedrich Gauß). Der Grund für ihre Bekanntheit und Bedeutung ist, dass in der Praxis häufig (aber nicht immer) Verteilungen zu finden sind, die der Normalverteilung ähneln. Auch gibt es ein mathematisches Gesetz, welches besagt, dass Summen vieler unabhängiger Zufallsvariablen (bzw. Einflüsse) sich stets einer Normalverteilung annähern, sodass diese oft als gute Approximation verschiedenster Variablen genutzt werden kann (vgl. Zentraler Grenzwertsatz weiter unten). Außerdem ist bei vielen statistischen Verfahren die Normalverteilung von Variablen eine grundlegende Annahme.
Formal sagen wir, dass eine Zufallsvariable \(\mathbf{X}\) normalverteilt ist mit den Parametern \(\mu\in\mathbb{R}\) und \(\sigma^2>0\), wenn sie folgende Dichtefunktion besitzt:
\[f(x)=\frac{1}{\sqrt{2\pi\sigma^2}}\cdot e^{-\frac{(x-\mu)^2}{2\sigma^2}} \] Man schreibt dann: \[\mathbf{X}\sim N(\mu,\sigma^2)\]
Die Zufallsvariable hat dann den Erwartungswert \[E(\mathbf{X})=\mu\] und die Varianz \[V(\mathbf{X})=\sigma^2.\]
Achtung: In der Definition steht hier die Varianz
\(\sigma^2\) als Parameter. Manchmal
wird aber auch die Standardabweichung \(\sigma\) verwendet (d.h. \(\sqrt{\sigma^2}\)) und auch die
einschlägigen R-Funktionen haben einen Parameter sd = XX
,
benötigen also die Standardabweichung anstelle der Varianz.
Die folgende Abbildung visualisiert die Normalverteilung für verschiedene Parameterkonstellationen (wobei hier z.B. \(\sigma\) als Parameter angegeben ist):
Dabei besitzt die Normalverteilung charakteristische Merkmale:
Mit anderen Worten:
Die Verteilungsfunktion der Normalverteilung (rechts) stellt sich als sigmoide Funktion dar, mit einem Wendepunkt und Wert von \(F(x) = 0.5\) bei \(\mu\).
Eine Zufallsvariable \(\mathbf{X}\) für die gilt \[\mathbf{X}\sim N(0,1)\] heißt standardnormalverteilt (vgl. die schwarze Verteilung in der oberen Grafik). Dabei kann jede normalverteilte Zufallsvariable \(\mathbf{X}\) durch die \(z\)-Standardisierung \[ Z=\frac{\mathbf{X}-\mu}{\sigma}\] in eine standardnormalverteilte Zufallsvariable überführt werden.
Im Zuge der deskriptiven Statistik haben wir bereits Quantile kennen gelernt. Dabei trennte das \(p\)-Quantil die (geordneten) Daten so, dass etwa \(p\%\) der Daten darunter und \((100−p)\%\) darüber liegen. Etwas sehr Ähnliches gibt es auch bei Zufallsvariablen, was wir hier am Beispiel der Standardnormalverteilung erläutern möchten.
Um die Berechnung und die Bedeutung von Quantilen bei Zufallsvariablen besser zu verstehen, wollen wir uns zunächst das folgende Szenario vorstellen: Angenommen die rote Fläche in der unten visualisierten Standardnormalverteilung beträgt 20% der Gesamtfläche. Was bedeutet dies für Werte, die größer als \(a\) sind?
Da die Fläche unter einer Dichtefunktion für ein bestimmtes Intervall die Wahrscheinlichkeit angibt, mit der die Zufallsvariable Realisierungen innerhalb dieses Intervalls annimmt, bedeutet dies, dass in 20% der Fälle Realisierungen \(\geq a\) auftreten werden.
Wie erhalten wir nun aber konkret den Wert \(a\), “rechts von dem noch \(20\%\) der Fläche liegen”? Die Antwort hierauf liefert uns die Verteilungsfunktion der Zufallsvariable. Denn wenn \(20\%\) der Werte größer oder gleich \(a\) sind, dann sind \(80\%\) der Werte kleiner \(a\).
Wir benötigen also den Wert \(x\), an dem die Verteilungswert den Wert \(F(x)=0.8\) annimmt. Für eine Vielzahl von Verteilungen (bspw. die Standardnormalverteilung) finden sich diese Werte in Form von Tabellen (hier Wikipedia):
Auch R verfügt mit der Funktion qnorm()
über eine
Möglichkeit zur Bestimmung des gesuchten Wertes der
Verteilungsfunktion:
# qnorm = Quantile der Normalverteilung
qnorm(0.8, # bei welche Quantil ist F(x)=0.8?
mean = 0, # mu
sd = 1) # sigma
## [1] 0.8416212
Allgemein gilt für die Standardnormalverteilung: Mit \(z_p\) bezeichnen wir das \(p\)-Quantil der Standardnormalverteilung. Es ist definiert durch \[F(z_p)=p,\text{ mit } 0<p<1,\] wenn \(F\) die Verteilungsfunktion zu \(N(0,1)\) ist.
Und generell gilt für Quantile: Das \(p\)-Quantil \(x_p\) einer Dichtefunktion \(f\) teilt die Fläche unter dieser in eine Fläche mit dem relativen Anteil \(p\) links von \(x_p\) und dem relativen Anteil \(1-p\) rechts von \(x_p\). Bestimmt werden können diese Quantile stets auf Basis der Verteilungsfunktion \(F\). Derartige Quantile von Verteilungen werden uns noch häufig begegnen!
Zum Abschluss sei noch eine besondere Beziehung zwischen bestimmten Flächenanteilen und der Standardabweichung bei der Normalverteilung erwähnt. Denn es gilt, dass im Bereich von…
der Daten liegen.
Die genaue Aufschlüsselung dieser Flächenanteile ist in der folgenden Abbildung dargestellt.
Die \(\chi^2\)-Verteilung ist eine i.d.R. linkssteile, stetige Verteilung, welche nur positive Realisierungen annimmt. Dabei besitzt sie einen Parameter m, welcher als Freiheitsgrad bezeichnet wird. Die folgende Abbildung zeigt drei beispielhafte \(\chi^2\)-Verteilungen.
Merkmale und Eigenschaften von \(\chi^2\)-Verteilungen mit m Freiheitsgraden:
Wir haben die \(\chi^2\)-Verteilung hier als zweites Beispiel einer stetigen Dichtefunktion eingeführt. Zu vermuten ist natürlich ein Zusammenhang zum \(\chi^2\)-Koeffizienten, den wir in Teil 5 bereits kennengelernt haben. In Teil 15 kommen wir darauf zurück und bringen \(\chi^2\)-Koeffizient und \(\chi^2\)-Verteilung zusammen.
Oft haben wir es (mehr oder weniger direkt) mit Summen von (Zufalls-)Variablen zu tun: \[S=X_1 + X_2 + \ldots + X_J\]
Die Frage, die sich dann häufig stellt ist: “Wie sind diese Summen dann verteilt”? Ohne genaues Wissen über die Verteilung aller einzelnen Teile der Summe \(S\), können wir die Verteilung von \(S\) nicht angeben. Allerdings gibt es einen fundementalen und wichtigen Satz in der Stochastik, welcher angibt, dass die Summe von unabhängigen Zufallsvariablen mit steigender Anzahl der Summanden approximativ normalverteilt wird. Diesen Satz hatten wir weiter oben bei der Normalverteilung angerissen, hier wollen wir ihn aber nochmal demonstrativ beleuchten.
Etwas informell gilt:
Wenn \(\mathbf{X_1},\mathbf{X_2},\ldots,\mathbf{X_J}\) unabhängig und identisch verteilte Zufallsvariablen sind, mit \(E(\mathbf{X_j})=\mu\) und \(Var(\mathbf{X_j})=\sigma^2\), dann gilt für deren Summe \(\mathbf{S}=\mathbf{X_1}+\mathbf{X_2}+\ldots+\mathbf{X_J}\):
\[\mathbf{S} \overset{a}{\sim}N(J\mu,J\sigma^2) \quad \text{für} \quad J\rightarrow\infty\]
Und noch besser: In Erweiterungen des Satzes kann z.B. auch auf die Bedingung der identischen Verteilung verzichtet werden (insofern nicht eine der Zufallsvariablen einen extremen Einfluss auf die Summe hat).
Dieser Satz ist also die Begründung dafür, warum Merkmale, die auf viele Einflüsse zurückgehen, oft normalverteilt sind und die oft gemachte Annahme einer Normalverteilung gar nicht schlecht ist. Auch ist dies der Grund, warum leichte Verletzungen der Normalverteilungsannahme bei einer hinreichend großen Stichprobe in der Praxis keine Auswirkung hat (aber mehr dazu dann später…).
Der genaue Beweis benötigt höhere Konzepte der Stochastik, sodass wir diesen Teil hier nicht behandeln können. Wir wollen uns allerdings eine praktische Demonstration ansehen. Ausgangspunkt sei eine Gleichverteilung in dem Bereich \([0; 1]\), also eine Verteilung, bei der jede Realisierung zwischen \(0\) und \(1\) gleich wahrscheinlich ist (in der folgenden Abbildung oben links zu sehen)). Eine neue Zufallsvariable könnte nun aus der Summe von \(J\)-vielen solcher (unabhängigen) Gleichverteilungen bestehen. Die Abbildungen rechts oben, links unten und rechts unten zeigen diesen Fall für \(J=3\), \(J=10\) und \(J=30\). Betrachtet man nun die Verteilung der Summen, lässt sich erkennen, dass diese sehr schnell anfangen, einer Normalverteilung zu ähneln.
Ganz analog lässt sich dies zeigen, wenn die Ausgangsvariablen \(\chi^2\)-verteilt sind:
Abschließende Bemerkung: Das genaue Konvergenzverhalten der Summe \(S\) ist abhängig von der Verteilung der einzelnen Terme in der Summe und nicht immer gleich. Dies sollte berücksichtigt werden, wenn man darüber nachdenkt, ab welcher Größe \(J\) eine Summe eine Normalverteilung hinreichend approximiert hat. Es gibt Ausgangsverteilungen (bspw. eine sehr, sehr unsymmetrische Bernoulli-Verteilung), bei denen ein bedeutend höheres \(J\) nötig ist, bis eine Normalverteilung approximativ erreicht wird, als bei einer anderen Verteilung (bspw. einer Gleichverteilung). Generische Regeln wie “ab \(J = 30\) sind Summen normalverteilt”, sind also nur sehr grobe Daumenregeln.