Willkommen bei Stats by Randolph. Hier geht es zur Hauptseite mit weiteren Informationen und Inhalten.
Autor:innen dieser Seite: An den Inhalten dieser Seite haben mitgearbeitet: Valentin, Koob, Eva Röttger und Markus Janczyk. Der Inhalt dieser Seite wird in der Lehre in den Studiengängen Psychologie von der AG Forschungsmethoden und Kognitive Psychologie an der Universität Bremen verwendet, steht aber allen Interessierten zur Verfügung. Rückmeldungen/Fehler/Vorschläge können gesendet werden an randolph@uni-bremen.
Versionshistory:
Die wenigsten Menschen werden Psychologie zunächst mit Statistik und Methoden in Verbindung bringen. Dennoch ist die moderne universitäre Psychologie eine – oft als naturwissenschaftlich aufgefasste – empirische Wissenschaft. Und dies wiederum bedeutet, dass gestellte Fragen an der Wirklichkeit überprüft werden. Das heißt, es werden Daten erhoben, die geeignet sind eine Antwort auf die Fragen zu bieten. Um derartige Daten angemessen auswerten und die Ergebnisse interpretieren zu können, sind wiederum Kenntnisse der Statistik nötig.
Neben der genuinen Statistik gibt es in einem Psychologiestudium auch noch weitere Methodenfächer: Psychologische Forschungsmethoden beschäftigen sich bspw. mit Wissenschaftstheorie, wie Erkenntnis gewonnen werden kann, mit Methoden der Datenerhebung und Themen wie Replikationsproblematiken, OpenScience etc. Daneben treten noch Testtheorie und Psychologische Diagnostik als Methodenfächer auf, die sich u.a. mit der Erstellung von Messinstrumenten (Tests, Fragebogen, …) zur Erfassung von Persönlichkeitseigenschaften und Leistung sowie deren psychometrischen Eigenschaften (z.B. Reliabilität) befassen.
In diesem Kapitel 1 werden wir daher Grundlagen der Vorgehensweise erarbeiten und kennenlernen, was der wichtige Unterschied zwischen Deskriptiver Statistik und Inferenzstatistik ist.
Generell werden Sie in allen Bereichen der Psychologie mit Statistiken konfrontiert werden. Egal ob…
… in allen Bereichen sind Sie mit Werten und Begriffen konfrontiert, die Ihnen zu Beginn eines Psychologiestudiums i.d.R. nichts sagen. Im Laufe der Statistikveranstaltungen werden diese Werte und Begriffe allerdings eingeführt, sodass aus den böhmischen Dörfern mit der Zeit gute Freund:innen werden. Darüber hinaus lernen Sie auch, statistische Verfahren anzuwenden, um eben bestimmte Fragen beantworten zu können.
Zur Beantwortung von Fragen wie “Hilft ein bestimmtes Training, um die Leistung in einem Leistungstest zu verbessern?” werden in der Psychologie empirische Daten erhoben. Die folgende Abbildung zeigt einen kleinen Datensatz von sechs Personen (erste Spalte). Die zweite Spalte kodiert mit 1 und 0, ob die Person an dem Training teilgenommen hat. Die dritte Spalte erfasst die Leistung. Man sagt auch, dass die Variablen in den Spalten stehen und die Fälle in den Zeilen.
Die in einem solchen Datensatz vorhandenen Daten stammen von einer Stichprobe. Diese bestimmte Stichprobe ist nur eine von vielen möglichen Realisierungen von Stichproben, da Sie ja prinzipiell auch eine andere Gruppe von Menschen untersuchen hätten können. Dieser Umstand wird später noch wichtig werden.
Die Deskriptive Statistik ist nun die “beschreibende” Statistik. Methoden der Deskriptiven Statistik werden auf die Daten angewendet, um deren wesentliche Eigenschaften übersichtlich darzustellen. Hierunter fällt u.a. der wahrscheinlich bekannte Mittelwert (“alle Werte aufsummieren und durch die Anzahl der eingehenden Werte dividieren”) oder auch die Erstellung adäquater Diagramme. Grundsätzlich ist die Beschreibung von Daten immer der erste Schritt der Auswertung.
Inferenzstatistik ist dann der zweite Schritt. Wir hatten gerade schon erwähnt, dass Sie prinzipiell auch eine andere Stichprobe testen hätten können.
In einem Gedankenexperiment stellen wir uns nun vor, Sie hätten ein “Training entwickelt”, von dem Sie glauben, es mache das Lernen einer Zweitsprache im Alter von 10 Jahren besonders leicht.
Um dies zu demonstrieren würden Sie vermutlich eine Gruppe von 10-jährigen Kindern dem Training unterziehen und eine weitere Gruppe 10-jähriger Kinder nicht. Dann erheben Sie mit einem geeigneten Test den Leistungsstand in der Zweitsprache.
Hier kommt jetzt aber Zufall ins Spiel und der Ausgang einer konkreten Studie wird als Ergebnis eines Zufallsprozesses aufgefasst. Am offensichtlichsten wird dies hier, wenn Sie betrachten, welche Kinder in die untersuchten Stichproben “gezogen” wurden. Hätten Sie andere Kinder gezogen, wäre das Ergebnis möglicherweise ein anderes.
Und eigentlich gilt Ihr Interesse auch gar nicht so sehr der einen Stichprobe, sondern der Menge der ganzen Kinder, aus denen die Stichprobe stammt: Alle 10-jährigen Kinder, die potenziell das Training hätten machen können oder eben nicht. Diese Menge wird als Grundgesamtheit oder Population bezeichnet. Eine Eigenschaft der Population ist, dass deskriptive Werte wie der Mittelwert unbekannt sind, da nicht alle 10-jährigen Kinder untersucht werden können. Dies ist in der folgenden Abbildung illustriert:
Nun ziehen wir zwei Stichproben von drei Kindern aus beiden Populationen und berechnen den Mittelwert. Was wäre nun die Schlussfolgerung?
Der Mittelwert der Stichprobe aus der Population der 10-jährigen Kinder mit Training ist größer als der der anderen Stichprobe. Dies spricht dafür, dass die Hypothese, das Training “würde was bringen”, zutrifft.
Allerdings haben wir zufällig entschieden, welche Kinder in die Stichprobe gezogen werden; es könnten auch drei andere Kinder sein:
Mit diesem Ergebnis wäre die Schlussfolgerung genau umgekehrt. Die Inferenzstatistik oder schließende Statistik hilft nun, Aussagen über Populationen auf Basis der Daten von Stichproben zu machen:
Zusammengefasst liefert die Deskriptive Statistik die Methoden zur Beschreibung und Zusammenfassung von Untersuchungsergebnissen (Daten aus Stichproben) und zur Berechnung von Kenngrößen (“Statistiken”), die möglichst viel Information über die vorliegenden Daten liefern und diese übersichtlich darstellen.
Die Inferenzstatistik erlaubt die Ableitung von Aussagen über Eigenschaften sog. “Parameter” einer Grundgesamtheit (“Population”) auf Basis der Daten einer Stichprobe. Die Wahrscheinlichkeitstheorie liefert die Grundlagen, um den Zufall in den (Test-)Verfahren zu berücksichtigen.
Insgesamt besitzt die moderne Psychologie ein sehr weitreichendes Repertoire an Methoden der Statistik. Einige davon sind eher “Standard”, andere wiederum sind sehr speziell für bestimmte Fragestellungen. Es sollte aber klar geworden sein, dass Sie solide Kenntnisse auf dem Gebiet benötigen, um…
Im Modul Statistik I werden wir mit den folgenden Inhalten beginnen:
Cicchetti, D., Rogosch, F. A., & Toth, S. L. (2000). The efficacy of toddler-parent psychotherapy for fostering cognitive development in offspring of depressed mothers. Journal of Abnormal Child Psychology, 28, 135-148. https://doi.org/10.1023/A:1005118713814
Jang, H. (2008). Supporting students’ motivation, engagement, and learning during an uninteresting activity. Journal of Educational Psychology , 100, 798-811. https://psycnet.apa.org/doi/10.1037/a0012841
Oberauer, K., & Bialkova, S., (2009). Accessing information in working memory: Can the focus of attention grasp two elements at the same time? Journal of Experimental Psychology: General, 138, 64–87. https://psycnet.apa.org/doi/10.1037/a0014738
Im Zuge der weiteren Kapitel werden wir immer wieder mathematische Schreibweisen benötigen. Dies hat zwei Vorteile: Zum einen können wir “die Dinge” dadurch präziser formulieren als “in Worten”, zum anderen erlauben uns mathematische Schreibweisen auch ganz allgemeine Situationen abstrakt zu beschreiben. Dazu benötigen wir ein paar Aspekte der Mengenlehre, die (lineare) Transformation von Variablen sowie das Summenzeichen.
Mathematische Mengen sind erst einmal nichts anderes als “ungeordnete Ansammlungen von Elementen”. Diese Elemente sind oft Zahlen, aber können auch allgemein Variablen mit unbekanntem Wert oder sogar wiederum Mengen sein.
Wir bezeichnen hier Mengen mit Großbuchstaben und Elemente von Mengen mit Kleinbuchstaben. Wenn wir (formal) schreiben wollen, dass “\(a\) Element der Menge \(A\)” ist, dann drücken wir dies wie folgt aus: \[a\in A\] Mengen können auf verschiedene Arten eingeführt werden. Soll beispielsweise die Menge \(A\) aus den Zahlen 1, 2, 3, 4 und 5 bestehen, dann wären mögliche Varianten: \[ \begin{aligned} A&=\{1,2,3,4,5\} \\ A&=\{1,2,\ldots, 5\} \\ A&=\{a | a\in\mathbb{N}\text{ und }1\leq a \leq 5\} \end{aligned} \] Die letzte Variante wird gelesen: “\(A\) ist die Menge aller Zahlen \(a\), für die gilt: \(a\) ist Element der natürlichen Zahlen und liegt zwischen 1 und 5 (jeweils einschließlich; oder genauer: 1 ist kleiner-gleich \(a\), was wiederum kleiner-gleich 5 ist).”
Im letzten Beispiel kam mit \(\mathbb{N}\) schon eine spezielle Menge vor, nämlich die Menge der natürlichen Zahlen. Von derartigen Mengen gibt es eine ganze Reihe, unter anderem:
Am häufigsten werden uns \(\mathbb{N}\) und \(\mathbb{R}\) begegnen. Eine weitere wichtige (und irgendwie spezielle) Menge ist die leere Menge, welche keine Elemente enthält: \(\emptyset\)
Variablen sind – vereinfacht gesagt – Platzhalter für Zahlen und werden verwendet, um Beziehungen, Funktionen, etc. für den “allgemeinen Fall” angegeben zu können. Typische Variablen in der Psychologie sind z.B. der IQ, das Alter, das Geschlecht, Persönlichkeitseigenschaften wie Extraversion oder Neurotizismus, Reaktionszeiten in Computerexperimenten, Fehlerraten beim Bearbeiten einer Aufgabe. Werden solche Variablen dann an Personen gemessen, bedeutet dies, dass ein konkreter Wert auf einer Variablen für eine Person bestimmt wird.
In der Statistik abstrahieren wir von den konkreten Variablen und nennen sie einfach z.B. \(X\) oder \(Y\). Ganz ähnlich wie bei Mengen bezeichnen wir Variablen mit Großbuchstaben (z.B. \(X\)) und eine konkrete Messung an einer Person \(i\) mit Kleinbuchstaben (\(x_i\)). Diese Abstrahierung ist sinnvoll, da wir in der Statistik Konzepte erarbeiten werden, die unabhängig davon sein sollen, was jetzt genau als Variable gemessen wird.
Nehmen wir nun an, wir hätten bei fünf Personen Werte auf den Variablen \(X\) und \(Y\) gemessen. Diese Werte könnten wir dann wie folgt aufschreiben: \[ \begin{aligned} x_1&=3 &x_2&=5 &x_3&=1 &x_4&=0 &x_5&=-1\\ y_1&=13 &y_2&=15 &y_3&=21 &y_4&=11 &y_5&=10 \end{aligned} \] Eine andere Form ist die Darstellung als Tabelle. Die folgende Tabelle stellt daher die gleichen Werte in Tabellenform dar, und beinhaltet auch neue Variablen, die aus den Werten von \(X\) und \(Y\) berechnet wurden. In jedem Fall wird die neue Variable berechnet, indem für jede Person die Transformation separat durchgeführt wird:
Person | \(X\) | \(Y\) | \(X+Y\) | \(X-2\) | \(X\cdot Y\) |
---|---|---|---|---|---|
1 | 3 | 13 | 16 | 5 | 39 |
2 | 5 | 15 | 20 | 7 | 75 |
3 | 1 | 21 | 22 | 3 | 21 |
4 | 0 | 11 | 11 | 2 | 0 |
5 | -1 | 10 | 9 | 1 | -10 |
Die neue Variable \(X+Y\) berechnet sich also z.B. indem für jede Person \(i\) der jeweilige Wert \(x_i\) und \(y_i\) addiert wird.
Unter einer linearen Transformation versteht man eine spezielle Form von Variablentransformationen. Sei \(X\) eine Variable und \(a,b \in \mathbb{R}\). Dann nennt man eine Transformation \[Y=a\cdot X+b\] eine lineare Transformation. Ganz ähnlich wie oben ist dann gemeint: Wir nehmen jeden Wert \(x_i\) der Variablen \(X\), multiplizieren ihn mit \(a\) und addieren \(b\) hinzu. Die resultierenden Werte nennen wir jeweils \(y_i\) der Variablen \(Y\).
Da für \(a\) und \(b\) beliebige Zahlen möglich sind, sind auch \(Y=2\cdot X\) (\(a = 2\), \(b = 0\)) oder \(Y=X+2\) (\(a = 1\), \(b = 2\)) lineare Transformationen.
Es ist recht sicher, dass alle von Ihnen eine lineare Transformation bereits durchgeführt haben, auch wenn der Name hierfür unbekannt war. Ein Beispiel für eine lineare Transformation wäre die Umrechnung einer Temperatur von Grad Celsius in Grad Fahrenheit \[ \begin{aligned} \underbrace{\text{Temp}_\text{Fahrenheit}}_Y &= \underbrace{1.8}_a\cdot \underbrace{\text{Temp}_\text{Celsius}}_X + \underbrace{32}_b\\ \end{aligned} \] Für uns eine der wichtigsten linearen Transformationen wird die \(z\)-Standardisierung sein, die in Teil 4 eingeführt wird.
Ein sehr wichtiges und immer wieder benötigtes Zeichen ist das Summenzeichen, welches uns erlaubt, Summen mit unbekannt vielen Summanden kurz und knapp zu fassen. In der einfachsten Form sieht dies wie folgt aus: \[ \sum_{i=1}^5x_i \] Das Summenzeichen selber wird durch ein großes Sigma dargestellt (\(\Sigma\)) und beinhaltet mehrere Komponenten:
Das \(i\) kommt hier zweimal vor: einmal als Laufindex und in der Berechnungsvorschrift. Gemeint ist, dass das \(i\) nacheinander die Werte 1, 2, 3, 4 und 5 annimmt und entsprechend in \(x_i\) “eingesetzt” wird. Zwischen die einzelnen Summanden wird dann ein Pluszeichen gesetzt und die gesamte Summe ist “ausgeschrieben”. Als Beispiel betrachten wir dazu wieder die Werte der fünf Personen auf auf einer Variablen \(X\) aus dem letzten Abschnitt: \[x_1=3\hspace{1cm} x_2=5\hspace{1cm} x_3=1\hspace{1cm} x_4=0\hspace{1cm} x_5=-1\] Aufaddiert ergibt sich also \[ 3+5+1+0+(-1)=8 \] und mit dem Summenzeichen könnten wir dies kurz schreiben als: \[ \begin{aligned} \sum_{i=1}^5x_i&=x_1+x_2+x_3+x_4+x_5\\ &=3+5+1+0-1\\ &=8 \end{aligned} \] Auch wenn es nicht allzu oft vorkommt, sei darauf hingewiesen, dass mit dem Summenzeichen auch dargestellt werden kann, wenn nur ein Teil der vorliegenden Werte aufsummiert werden soll. Interessiert uns aus irgendeinem Grund z.B. die Summe \(x_2+x_3\) würden wir schreiben: \[ \sum_{i=2}^3x_i \]
Oft werden wir es mit einer unbekannten Menge von Werten auf einer Variablen zu tun haben. Dies ist dann der Fall, wenn wir Konzepte unabhängig von vorliegenden Daten einführen und behandeln wollen. Den Mittelwert werden wir bspw. nicht für 10 oder 3000 Werte einführen, sondern ganz allgemein für \(n\)-viele Werte. Mit dem Summenzeichen können wir dann Summen von \(n\)-vielen Werten ganz einfach schreiben als: \[ x_1+x_2+x_3+\ldots+x_{n-1}+x_n=\sum_{i=1}^nx_i \]
Es gibt mit dem Summenzeichen eine Reihe von Regeln, die das Rechnen einfacher machen können, und die wir auch immer mal wieder benötigen werden. Die wichtigsten Regeln sind:
Sei \(a\) eine konstante reelle Zahl (also \(a\in \mathbb{R}\)), dann gilt: \[\sum_{i=1}^n a\cdot x_i = a\cdot \sum_{i=1}^n x_i\]
Sei \(a\in\mathbb{R}\), dann gilt: \[\sum_{i=1}^n a = a+a+\ldots + a = n\cdot a\]
Seien \(X\) und \(Y\) zwei Variablen, dann gilt: \[\sum_{i=1}^n (x_i+y_i) = \sum_{i=1}^n x_i + \sum_{i=1}^n y_i \]
Aufpassen bei Multiplikation und Positionen des Exponenten. In der Regel ist \[\sum_{i=1}^n (x_i\cdot y_i) \neq \sum_{i=1}^n x_i \cdot \sum_{i=1}^n y_i \] und ebenso: \[\sum_{i=1}^n(x_i^2) \neq \left( \sum_{i=1}^n x_i \right) ^2\] Dies können Sie sich sehr leicht durch konkrete Beispiele klarmachen.
\[\sum_{i=1}^3 (x_i + y_i)\]
\[\begin{align*} \sum_{i=1}^3 (x_i + y_i) &= \sum_{i=1}^3 x_i + \sum_{i=1}^3 y_i \\ &= 15 + 10 + 17 + 8 + 5 + 10 = 65 \end{align*}\]
\[\sum_{i=1}^3 a\cdot x_i + \sum_{i=1}^3 b\]
\[\begin{align*} \sum_{i=1}^3 a\cdot x_i + \sum_{i=1}^3 b &= a \cdot \sum_{i=1}^3 x_i + 3\cdot b \\ & = 5 \cdot (5 + 3 + 15) + 3 \cdot (-2) = 109 \end{align*}\]
Summenzeichen können auch miteinander verschachtelt und kombiniert werden und wir werden auch Doppelsummen (oder sogar Dreifachsummen) benötigen. In der Regel wird von “innen nach außen” vorgegangen und zunächst die innerste Summe ausgeschrieben. Im folgenden Beispiel hat die innere Summe den Laufindex \(j\) und die äußere Summe den Laufindex \(i\) und beide Indizes kommen auch in der Berechnungsvorschrift vor: \[ \begin{aligned} \sum_{i=1}^2\sum_{j=1}^3 x_{ij} &= \sum_{i=1}^2 (x_{i1} + x_{i2} + x_{i3})\\ &=x_{11} + x_{12} + x_{13} + x_{21} + x_{22} + x_{23} \end{aligned} \]
Schließlich kann das Summenzeichen auch auf Mengen angewendet werden und es können die Elemente einer Menge aufsummiert werden.
Sei \(A=\{1,2,3,4,5 \}\), dann kann die Summe der Elemente von \(A\) geschrieben werden als: \[ \begin{aligned} \sum_{a\in A}a = 1+2+3+4+5 =15 \end{aligned} \]
Wir haben hier bisher nur von Variablen ganz allgemein gesprochen, welche z.B. Geschlechtsidentität, Größe, Schultyp, Reaktionszeit, IQ, Schulnote, und viele andere Größen sein könnten. Häufig werden die Ausprägungen durch Zahlen ausgedrückt (oft auch wenn es sich z.B. um das erfasste Geschlecht handelt), z.B.
Etwas genauer betrachtet gibt es aber Unterschiede zwischen Variablen, was ihre “Art” angeht: Bei manchen ist die Zuordnung von Zahlen arbiträr (z.B. Geschlechtsidentität), bei anderen hingegen tragen die Zahlen selber eine Information in sich – nämlich eine Ordnung.
Dies drückt sich dadurch aus, dass verschiedene Skalenniveaus unterschieden werden:
Verhältnis- und Intervallskala oft zusammen als Kardinalskala bezeichnet, ein derart gemessenes Merkmal als metrisch. Es sei außerdem darauf hingewiesen, dass das genaue Skalenniveau einer Variable immer davon abhängt, wie genau die Variable quantifiziert wird. Die Variable “Farbe” mit Ausprägungen blau, rot, grün, etc., besitzt ein anderes Skalenniveau als die Variable “Farbe” gemessen in Form von Wellenlängen im Nanometer-Bereich.
Die folgende Tabelle fasst noch einmal die sinnvoll interpretierbaren Berechnungen bei Variablen verschiedenen Skalenniveaus zusammen:
Skala | auszählen | ordnen | Differenzen | Quotienten |
---|---|---|---|---|
Nominal | ja | nein | nein | nein |
Ordinal | ja | ja | nein | nein |
Intervall | ja | ja | ja | nein |
Verhältnis | ja | ja | ja | ja |
Eine weitere Unterscheidung, die vor allem im Zusammenhang mit der Wahrscheinlichkeitstheorie von Bedeutung sein wird, ist die zwischen diskreten und stetigen Variablen: