Willkommen bei Stats by Randolph. Hier geht es zur Hauptseite mit weiteren Informationen und Inhalten.

Autor:innen dieser Seite: An den Inhalten dieser Seite haben Markus Janczyk und Valentin Koob mitgearbeitet. Der Inhalt dieses Textes wird in der Lehre in den Studiengängen Psychologie von der AG Psychologische Forschungsmethoden und Kognitive Psychologie an der Universität Bremen verwendet, steht aber allen Interessierten zur Verfügung. Rückmeldungen/Fehler/Vorschläge können gesendet werden an randolph@uni-bremen.

Versionshistory:

v2.01: kleine Korrekturen (11.1.2026)
v2.0: zweite, überarbeitete Version (29.9.2025)
v1.0: erste Version (14.10.2024)

1 Einführung

Die folgenden Kapitel befassen sich mit einer Einführung in das Thema Mess- und Strukturmodellierung. Wir beginnen mit einer kurzen Zusammenfassung der wichtigsten Grundlagen der Klassischen Testtheorie (Kap. 2). Kapitel 3 führt dann (essentiell) $\tau$-äquivalente und -parallele Messmodelle ein, worauf in Kapitel 4 mit dem Modell $\tau$-kongenerischer Variablen aufgebaut wird. Kapitel 5 widmet sich dann dem Problem der Identifizierbarkeit und der Güte von Messmodellen (wobei diese Ausführungen auch auf die Modelle der dann folgenden Kapitel zutreffen). Diese Grundlagen werden dann in Kapitel 6 zur Konfirmatorischen Faktorenanalysen zusammengeführt. Im Anschluss betrachten wir dann Pfadmodelle am Beispiel einer Mediation anhand beobachteter, also manifester, Variablen (Kap. 7). Schließlich bringen wir dann Messmodelle und Pfadmodelle zusammen zum Linearen Strukturgleichungsmodell (Linear Structural Equation Model (SEM)), welches i.W. das Zusammenwirken von Messmodellen und Pfadanalysen darstellt. Der wichtigste konzeptuelle Unterschied ist dabei, dass die Beziehungen zwischen Variablen nicht mehr über manifeste, sondern über latente Variablen (die über die Messmodelle definiert werden), formuliert werden. Dieser Teil wird dann allgemein als Strukturmodell bezeichnet.

Im Zuge dieses Teils werden einige Pakete zum Einsatz kommen, die bisher in der statistischen Ausbildung weniger zum Tragen kamen. Dies sind insbesondere die Pakete psych, lavaan, semPlot und tidySEM.

1.1 Terminologie und Abbildungskonventionen

Wir werden in den folgenden Kapiteln immer wieder mit Pfaddiagrammen arbeiten und daher hier bereits einige Konventionen einführen. Der wichtigste Unterschied, den wir schon aus dem Bereich explorative Faktorenanalyse kennen, betrifft hierbei manifeste vs. latente Variablen:

Manifeste Variablen sind diejenigen Variablen, die beobachtbar sind und entsprechend gemessen werden. Dies können z.B. Items eines Fragebogens aber auch Reaktionszeiten oder andere Leistungsmaße sein.
Latente Variablen sind nicht direkt beobachtbar und betreffen psychologische Konstrukte (wie z.B. Intelligenz). Auf ihre Existenz wird indirekt über Korrelationen zwischen manifesten Variablen geschlossen. Diese korrelierten manifesten Variablen sind dann Ausdruck einer gemeinsamen unbeobachteten latenten Variablen und werden durch sie hervorgerufen.

In Pfaddiagrammen sind manifeste und latente Variablen dann als Vierecke bzw. Kreise dargestellt. Im Beispiel in Abbildung 1.1 gibt es folglich drei latente Variablen, die mit $\eta_i$ (“Eta”) bezeichnet werden, und zwei manifeste Variablen, die wir mit $Y_{ij}$ bezeichnet haben. Zusätzlich wird für einige der Variablen der Messfehler oder die Residualvarianz angegeben. Für manifeste Variablen wird hierfür ein $\varepsilon_{ij}$ (“Epsilon”) verwendet, während bei latenten Variablen ein $\zeta_i$ (“Zeta”) benutzt wird.

Abbildung 1.1: Beispiel eines Pfaddiagramms.

Verbindungen mit Pfeilen an beiden Enden stellen Korrelationen zwischen den beiden Variablen dar, solche mit nur einem Pfeil, stehen für eine Regression. Hier zeigt der Pfeil auf die Variable, die als Kriterium fungiert. Im Beispiel ist also eine multiple Regression mit zwei korrelierten (und latenten) Prädiktoren ($\eta_2$ und $\eta_3$) und dem (latenten) Kriterium $\eta_1$ dargestellt.

Alle Pfeile mit einem Ende werden in den späteren Kapiteln als lineare Regressionsgleichungen formalisiert. Die Achsenabschnitte (Intercepts) bezeichnen wir dann mit $\alpha_{ij}$ (“Alpha”) bzw. $\kappa_{ij}$ (“Kappa”) wenn das Kriterium eine manifeste bzw. eine latente Variable ist. Die (Steigungs-)Koeffizienten bezeichnen wir mit $\lambda_{ij}$ (“Lambda”) bzw. $\beta_{ij}$ (“Beta”).

Die Pfeile von latenten zu manifesten Variablen zeigen, dass die beobachtbaren Ausprägungen auf den manifesten Variablen auf den Ausprägungen auf der latenten Variablen beruhen. Daher werden die $\lambda_{ij}$ auch als Ladungen bezeichnet.

1.2 Das R Paket `lavaan`

Wir benutzen für die Berechnungen in den folgenden Kapiteln i.W. das R Paket lavaan, welches eine sehr große Funktionalität für verschiedenste Probleme im Bereich Mess- und Strukturmodellierung bietet. Der Name steht dabei für latent variable analyses. Sehr viele Informationen zu lavaan gibt es unter https://lavaan.ugent.be/ und ein Tutorial als PDF steht unter https://lavaan.ugent.be/tutorial.pdf zur Verfügung.

Das Vorgehen ist dabei eigentlich immer so, dass wir (1) ein Modell über eine spezielle lavaan-Syntax spezifizieren, (2) das Modell dann schätzen (oft mit der Funktion sem()) und (3) uns anschließend über die generische summary()-Funktion die Ergebnisse anschauen können. Zur automatischen Visualisierung der Ergebnisse kann z.B. die Funktion semPaths() aus dem Paket semPlot verwendet werden.

Die Syntax von lavaan erinnert dabei an die Modellsprache von R, hat aber auch ihre speziellen Bestandteile.

# eta1 wird gemessen durch Y1 und Y2: Definition einer latenten Variablen
eta1 =~ Y1 + Y2 

# Y1 wird vorhergesagt durch Y2 und Y3: Regression
Y1 ~ Y2 + Y3

# Intercept/Mittelwert als Regression mit nur einem Prädiktor ("Einsvektor")
Y1 ~ 1

# Y1 korreliert mit Y2: Spezifikation von (Residual)(Ko)Varianzen
Y1 ~~ Y2

Nicht selten wird es wichtig sein, bestimmte Parameter eines Modells (Koeffizienten, Mittelwerte, (Ko-)Varianzen, …) zu fixieren, statt sie schätzen zu lassen. Dies wird in lavaan durch eine “Multiplikation” angezeigt, wie in den folgenden Beispielen illustriert:

# Fixieren aller "Ladungen" manifester Variablen bei der Definition einer 
# latenten Variablen auf den Wert 1
eta1 =~ 1*Y1 + 1*Y2 

# Fixieren einer Korrelation auf 0
Y1 ~~ 0*Y2

# Fixieren der Varianz von Y1 auf 0
Y1 ~~ 0*Y1

Wollen wir explizit festlegen, dass ein Wert frei geschätzt werden soll, dann ist das Zeichen dafür die Multiplikation mit NA. Im folgenden Beispiel ist dies wichtig, da lavaan als Default immmer die erste Ladung einer latenten Variablen auf 1 fixiert (warum dies sinnvoll ist, sehen wir in den späteren Kapiteln). Wollen wir, dass stattdessen die zweite Ladung auf 1 fixiert wird und die erste Ladung geschätzt wird, müssen wir angeben:

eta1 =~ NA*Y1 + 1*Y2

Schließlich können wir auch explizit Namen für geschätzte Parameter vergeben und mit diesen weiterarbeiten. Verwenden wir diese Namen mehrfach, wird gleichzeitig dafür gesorgt, dass die entsprechenden Parameter gleich geschätzt werden. Wollen wir bspw., dass die Ladungen von drei manifesten Variablen zwar frei geschätzt werden, aber dennoch gleich sind, kann dies wie folgt aussehen:

eta1 =~ ladung*Y1 + ladung*Y2 + ladung*Y3

Darüber hinaus bietet die lavaan-Syntax noch eine Reihe weiterer Optionen (und auch abkürzende Schreibweisen). Für den Anfang sollen diese Beispiel aber reichen. Wir werden an verschiedenen Stellen mit beispielhaften Daten arbeiten und dann ensprechend auch den relevanten Code illustrieren.

2 Grundlagen der Klassischen Testtheorie

In diesem Kapitel wiederholen wir kurz Grundlagen der Klassischen Testtheorie (KTT), um Beziehungen zwischen intervallskalierten/quantitativen (also nicht kategorialen) Items und den zu messenden Eigenschaften zu beschreiben. Dazu gehören Begriffe wie wahrer Wert und (Mess-)Fehler. Darauf bauen die verschiedenen Messmodelle samt ihrer Annahmen, die zur Bestimmung der Reliabilität dienen, in dne folgenden Kapiteln dann auf. Ein etwas detaillierterer Überblick ist z.B. bei Bühner (2021) bzw. vor allem Eid et al. (2010) zu finden und eine formale und ausführliche Darstellung liefern Steyer und Eid (2001). An diesen beiden letztgenannten Büchern orientieren sich auch die folgenden Abschnitte.

Wir gehen im Folgenden davon aus, dass mit $Y_i$ Testwerte gemeint sind, die z.B. an verschiedenen Personen mit einem psychologischen Test gemessen wurden. Diese Daten stellen die empirische Ausgangsbasis dar.

2.1 Einführung und Reliabilität

Als Messfehlerproblem wird bezeichnet, dass Messwerte sich i.d.R. nicht exakt replizieren lassen: Wird ein Test (z.B. zur Messung der Intelligenz oder von Ängstlichkeit) einer Person wiederholt vorgegeben, ergibt sich oft nicht der gleiche Wert. Ist dann davon auszugehen, dass sich die Ausprägung der Eigenschaft der Person ebenfalls verändert hat? Dies mag zunächst sinnvoll erscheinen, aber es gibt (mindestens) drei mögliche Erklärungen für diesen Fall:

Dass die zu messende Eigenschaft sich verändert hat erscheint dann sinnvoll, wenn die Testwertveränderungen systematisch für alle Items auftreten, wenn also eine Person bei einer wiederholten Messung systematisch in allen Items, die Intelligenz messen sollen, höhere Werte als bei der ersten Messung erzielt hat.

Häufig fallen die Veränderungen aber unsystematisch aus und eine Erklärung auf Basis der Annahme eines Messfehler erscheint dann sinnvoller:

Messfehler sind verantwortlich für die Veränderungen, oder…
…eine tatsächliche Veränderung der Eigenschaft und Messfehler verantworten die Veränderungen der Messwerte.

Messfehler können verschiedenste Ursachen haben, z.B. falsch verstandene Instruktionen, Verwechselung von Antwortoptionen, Artefakte und Störungen bei psychophysiologischen Messungen (wie z.B. EEG) oder auch fehlerhafte Dateneingaben. Insgesamt werden unter dem Begriff Messfehler alle unsystematischen Einflüsse auf die Messung zusammengefasst.

Die Annahme eines Messfehlers führt dann zu der Idee, ein Testwert sei additiv aus dem wahren Wert und dem Messfehler zusammengesetzt. Häufig werden der KTT bestimmte Axiome, also unbewiesene Annahmen, an den Anfang gestellt die bspw. so formuliert werden:

Jeder Messwert $Y_i$ ist die Summe eines wahren Wertes $\tau_i$ und eines Messfehlers $\varepsilon_i$: \[Y_i = \tau_i + \varepsilon_i\,.\]
Der Erwartungswert des Messfehlers ist $0$, d.h. bei unendlich häufigen Messwiederholungen würde er sich “ausmitteln”: \[\mathbb{E}(\varepsilon_i)=0\,.\]
Der wahre Wert und der Messfehler sind unkorreliert: \[\text{Kov}(\tau_i,\varepsilon_i) = 0\,.\]

Es ergibt sich dann daraus auch, dass sich die Varianz der Testwertvariablen $Y_i$ additiv aus den Varianzen der wahren Werte und der Messfehler zusammensetzt, also, dass \[\begin{align*} V(Y_i) =& V(\tau_i+\varepsilon_i)\\ =& V(\tau_i)+V(\varepsilon_i) + \underset{=0}{\underbrace{2\cdot \text{Kov}(\tau_i,\varepsilon_i)}}\\ =& V(\tau_i)+V(\varepsilon_i) \end{align*}\] gilt. Dies ist die Grundlage für die gleich folgende Definition der Reliabilität.

Formaler wird das Ziehen einer Person aus einer Menge $U$ und die Messung eines oder mehrerer Testwerte(s) als (doppeltes) Zufallsexperiment aufgefasst. Ist mit $U$ die Menge aller Personen gemeint und mit $M$ die Menge möglicher Merkmalsausprägungen, so ist die Menge aller möglichen Ergebnisse des Zufallsexperimentes definiert als \[\Omega = U\times M\,.\] Der wahre Wert wird dann als der Erwartungswert einer (personenbedingten) intraindividuellen Verteilung von $Y_i$ aufgefasst, also als \[\tau_i = E(Y_i|p_U = u)\,,\] wobei der Teil $p_U=u$ in etwa bedeutet “für eine bestimmte und feste Person $u$”. Der Messfehler wird dann aufgefasst als \[\varepsilon_i = \tau_i - Y_i\,,\] also als die Abweichung des gemessenen Wertes vom wahren Wert $\tau_i$. Entsprechend lassen sich $m$-viele gemessene Testwerte schreiben als \[Y_i = \tau_i + \varepsilon_i\qquad\forall i\in\{1,\ldots,m\}\,.\] Die Axiome (2) und (3) sind dann eigentlich Folgerungen aus diesen Definitionen und keine Annahmen. Nicht gefolgert werden kann hingegen, dass \[\text{Kov}(\varepsilon_i,\varepsilon_j)=0\qquad \forall i\neq j\text{ und }i,j\in\{1,\ldots,m\}\,,\] gilt, d.h., dass die Messfehler untereinander auch unkorreliert sind.

Damit Messwerte sinnvoll verwendet werden können, dürfen diese nicht (ausschließlich) Fehlervarianz widerspiegeln. Die Vorstellung einer Messung ohne jeden Messfehler ist aber leider eine idealisierte Vorstellung. Um das Ausmaß abschätzen zu können, zu dem nicht nur Messfehler zu Messunterschieden beitragen, wird der Anteil der Varianz wahrer Werte an der Messwertvarianz berechnet und mit Reliabilität \[\text{Rel}(Y_i)=\frac{V(\tau_i)}{V(Y_i)}\] bezeichnet. Die Reliabilität kann auch als quadrierte Korrelation der Testwerte und der wahren Werte aufgefasst werden (der erste Schritt besteht daraus, die Definition der Korrelation zu benutzen und beide Seiten zu quadrieren): \[\begin{align*} r^2_{\tau_i Y_i} &= \frac{\text{Kov}(Y_i,\tau_i)^2}{V(\tau_i)\cdot V(Y_i)}\\ &= \frac{\text{Kov}(\tau_i+\epsilon_i,\tau_i)^2}{V(\tau_i)\cdot V(Y_i)}\\ &= \frac{[\text{Kov}(\tau_i,\tau_i)+\text{Kov}(\varepsilon_i,\tau_i)]^2}{V(\tau_i)\cdot V(Y_i)}\\ &= \frac{V(\tau_i)^2}{V(\tau_i)\cdot V(Y_i)}\\ &= \frac{V(\tau_i)}{V(Y_i)}=\text{Rel}(Y_i)\,. \end{align*}\] Für die Werte der Reliabilität gilt \[0\leq \text{Rel}(Y_i) \leq 1\] und für die Extremwerte $0$ und $1$ folgt:

Ist $\text{Rel}(Y_i)=1$, dann gilt $V(\tau_i)=V(Y_i)$, d.h. die Fehlervariable ist konstant und interindividuelle Unterschiede auf $Y_i$ sind vollständig auf interindividuelle Unterschiede auf $\tau_i$ zurückzuführen.
Umgekehrt gilt im Falle $\text{Rel}(Y_i)=0$, dass die interindividuellen Unterschiede nur auf Messfehler zurückzuführen sind, während die $\tau_i$ konstant sind.

Zu beachten ist bis hierhin, dass jede Testwertvariable $Y_i$ einen eigenen wahren Wert $\tau_i$ besitzt. Inwiefern angenommen wird, mehreren Testwertvariablen würde ein einziger wahrer Wert zugrunde liegen, wird in Modellen formalisiert, die in den folgenden Kapiteln als sog. Messmodelle eingeführt werden.

2.2 Voraussetzungen der Reliabilitätsbestimmung

Wir haben zwar die Reliabilität im letzten Abschnitt nun definiert, dies bedeutet aber nicht, dass wir diese auch praktisch bestimmen können. Der Hauptgrund hierfür liegt daran, dass ohne weitere Annahmen die Varianz der wahren Werte, also $V(\tau_i)$, nicht einfach bestimmt werden kann. Um dies zu ermöglichen, sind zwei weitere Zutaten nötig:

Zunächst ist es erforderlich, das interessante Merkmal (mindestens) zwei Mal zu erfassen. Dabei kann zwischen verschiedenen Methoden unterschieden werden:
- Paralleltestmethode: Messung desselben Merkmals mit verschiedenen Messinstrumenten
- Testhalbierungsmethode: Aufteilung eines Messinstruments in (mindestens) zwei Untertests
- Testwiederholungsmethode: Mehrfache Messung des Merkmals mit demselben Messinstrument
Zusätzliche Anforderungen werden in sog. Messmodellen spezifiziert, die wir in den folgenden Kapiteln dann einführen werden.

Wir befassen uns hier in Kapitel 3 nun mit den sog. (essentiell) $\tau$-äquivalenten und $\tau$-parallelen Messmodellen und den Grundlagen ihrer Bestimmung. In Kapitel 4 erweitern wir dieses Wissen dann und führen das $\tau$-kongenerische Messmodell und bauen darauf in Kapitel 6 die Konfirmatorische Faktorenanalyse auf.

3 (Essentiell) $\tau-$äquivalente und $\tau$-parallele Messmodelle

3.1 Das Modell essentiell $\tau$-äquivalenter Variablen

Wir gehen nun einmal davon aus, ein Konstrukt/eine latente Variable würde durch drei manifeste Variablen gemessen werden. Dies können z.B. Items eines Fragebogens sein und so könnten

Ich gehe offen auf neue Menschen zu.
Ich genieße es, im Mittelpunkt der Aufmerksamkeit zu stehen.
Ich fühle mich in geselligen Runden wohl.

zur Erfassung von Extraversion dienen und Versuchspersonen geben den Grad ihrer Zustimmung auf einer Likert-Skala von 1 (trifft überhaupt nicht zu) bis 7 (trifft voll und ganz zu) an. Das essentiell $\tau$-äquivalente Messmodell ist nun eine Möglichkeit, zu formalisieren was gemeint ist, wenn jemand sagt “die (zwei oder auch mehr manifesten) Variablen messen im Grunde das gleiche Merkmal”.

Die grundsätzliche Idee dieses Modells ist, dass die wahren Werte hinter den Testwertvariablen einer Person zwar unterschiedlich sein können, sie aber zwischen den Personen perfekt korreliert sind. Anders gesagt: Die wahren Werte z.B. zweier Messinstrumente (also z.B. zweier Fragen eines Fragebogens, aber auch zweier Formen eines Intelligenztests) würden sich für alle Personen um die gleiche Konstante unterscheiden. Auch wenn die verschiedenen Messinstrumente das gleiche Merkmal messen, kann ein Grund für verschiedene wahre Werte, die sich um eine Konstante unterscheiden, die Leichtigkeit oder Schwierigkeit von Items eines Fragebogens sein. Damit ist gemeint, dass einem Item eher zugestimmt wird bzw. Personen höhere Werte erzielen oder ein Item eher abgelehnt wird bzw. Personen eher niedrige Werte erzielen. Das heißt, die Items messen dann zwar immer noch das gleiche Merkmal, unterscheiden sich aber in Leichtig- bzw. Schwierigkeit. Dennoch messen sie dann “im Wesentlichen” das gleiche Merkmal.

Im Folgenden gehen wir davon aus, dass es drei Testwertvariablen $Y_1$, $Y_2$ und $Y_3$ gibt (also z.B. die eben erwähnten drei Fragen), die ein gemeinsames Merkmal messen sollen. Vorwegnehmen können wir bereits, dass das Modell essentiell (d.h., “im Wesentlichen”) $\tau$-äquivalenter Variablen zwei Annahmen macht:

Die wahren Werte, $\tau_i$, einer Person auf den möglichen Testwert-Variablen entsprechen alle einer nicht-beobachtbaren latenten Variable $\eta$ plus einer variablen-spezifischen Konstante, die wir $\alpha_i$ nennen werden.
Für die Messfehler nehmen wir an, dass deren Varianzen für jede Variable verschieden sein können, alle aber wechselseitig unkorreliert sind.

Das Ziel ist nun zu zeigen, wie die einzelnen $\tau_i$ als Funktion von $\eta$ und den $\alpha_i$ ausgedrückt werden können. $\eta$ wird dann als Zufallsvariable “der wahren Wert des Merkmals” aufgefasst. Da jede Person quasi eine Realisierung dieser Zufallsvariable darstellt, sorgt sie dann auch für die Unterschiedlichkeit der Personen auf dem Merkmal. Die weiteren Modelle, die dann im Anschluss in diesem Kapitel behandelt werden, sind quasi Spezialfälle des essentiell $\tau$-äquivalenten Modells, bei denen bestimmte Restriktionen eingeführt werden. Erst im nächsten Kapitel werden wir dann das Modell $\tau$-kongenerischer Variablen als eine Generalisierung kennenlernen.

3.1.1 Essentiell $\tau$-äquivalente Variablen

Als ersten Schritt fragen wir uns nun, wie wir die oben dargestellten Annahmen über die Unterschiedlichkeit der $\tau_i$ formal fassen können. Wie gesagt ist es grundlegend, dass das generelle Niveau der $\tau_i$ sich für alle Personen unterscheiden kann, aber die Differenzen zwischen den $\tau_i$ für alle Personen gleich sind (um eine bestimmte Konstante). Daher sind die $\tau_i$ auch nicht “äquivalent”, sondern nur “im Wesentlichen”, also “essentiell”, äquivalent. Diese Konstanten, um die sich die wahren Werte $\tau_i$ und $\tau_j$ unerscheiden, bezeichnen wir nun mit $\alpha_{ij}$. Bei drei angenommenen wahren Werten, gibt es entsprechend drei Unterschiede $\alpha_{ij}$, nämlich \[\begin{align*} \alpha_{12} &= \tau_1-\tau_2 \\ \alpha_{13} &= \tau_1-\tau_3 \\ \text{und } \alpha_{23} &=\tau_2-\tau_3\,. \end{align*}\] Allgemein ist also \[\alpha_{ij}=\tau_i-\tau_j\,,\] und wenn $\alpha_{ij}$ positiv ist, heißt dies, dass Verhalten, welches auf $\tau_i$ zurückgeht “leichter” zu zeigen ist, als solches, das auf $\tau_j$ zurückgeht. Insofern wird $\alpha$ auch als Leichtigkeitsparameter aufgefasst (siehe Eid et al., 2010, S. 824). Durch das entsprechende $\alpha_{ij}$ lässt sich auch jeder wahre Wert in einen anderen wahren Wert übersetzen: \[ \tau_i=\tau_j+\alpha_{ij}\,. \] Dass sich die wahren Werte nur durch einen konstanten Wert $\alpha_{ij}$ unterscheiden, ist nun die Formalisierung des definierenden Merkmals essentiell $\tau$-äquivalenter Variablen. Diese Differenzen zwischen wahren Werten sind unabhängig von den Personen, d.h. dass bspw. alle Personen höhere wahre Werte auf der einen als auf der anderen Variablen haben können, auch wenn diese sich zwischen den Personen in ihrem Niveau unterscheiden können. Die Korrelation der wahren Werte ist daher perfekt. Dies eignet sich daher davon auszugehen, dass die Variablen dasselbe Merkmal messen.

Eine weitere Eigenschaft ist, dass sich die wahren Werte zweier Personen immer um den gleichen Wert unterscheiden, unabhängig davon, welcher Testwert, bzw. welche Subskala oder welcher Untertest (oder allgemeiner: welches Messinstrument) verwendet wird.

3.1.2 Die latente Variable $\eta$ und die Unkorreliertheit der Messfehler

Statt nun bei $m$-vielen Subskalen/Untertests $m\cdot\frac{m-1}{2}$-viele Paarvergleiche bzgl. der jeweiligen Werte von $\tau_i$ und $\tau_j$ über $\alpha_{ij}$ durchzuführen, ist das nächste Ziel, alle wahren Werte in Bezug auf eine einzige (Referenz-)Variable $\eta$ zu beschreiben, wobei jede Person einen eigenen Wert auf $\eta$ hat, womit der Unterschiedlichkeit der Personen Rechnung getragen wird. Dieses $\eta$ repräsentiert dann das latente Merkmal, welches das Verhalten auf den manifesten Testwertvariablen beeinflusst.

3.1.2.1 Überführung der Definition essentieller $\tau$-Äquivalenz in Differenzgleichungen

Abbildung 3.1 illustriert die verschiedenen Werte, die nun eine Rolle spielen. Wir gehen von drei manifesten Variablen mit den wahren Werten $\tau_1$, $\tau_2$ und $\tau_3$ aus, deren (personen-spezifische) Ausprägung vom personen-spezifischen Wert auf $\eta$ beeinflusst wird. In rot und grün sind die Werte zweier Personen $u=1$ und $u=2$ dargestellt. Die senkrechten, gestrichelten Linien, $\eta_{u=1}$ und $\eta_{u=2}$, sind dabei die personen-spezifischen Werte auf $\eta$. Die kürzeren, durchgezogenen und senkrechten Linien stellen die wahren Werte $\tau_i$ der Personen dar und die “X” sind die Testwerte $Y_i$, die die Personen auf den manifesten Variablen erzielt haben. Unterhalb der Abbildung sind die bereits angesprochenen $\alpha_{ij}$ eingezeichnet, die jeweils—für alle Personen auf die gleiche Art—die einzelnen $\tau_i$ voneinander unterscheiden.

Schließlich sind die Abweichungen der Testwerte $Y_i$ von den wahren Werten $\tau_i$ eingezeichnet, also die Messfehler \[\varepsilon_i=\tau_i-Y_i\,.\] Insgesamt wollen wir im Folgenden nun zeigen, dass jeder Messwert $Y_I$ additiv zusammengesetzt ist als \[Y_i=\eta+\alpha_i+\varepsilon_i\,.\]

$Illustration des essentiell $\tau$-äquivalenten Modells (siehe Text für mehr Informationen).$

Abbildung 3.1: Illustration des essentiell $\tau$-äquivalenten Modells (siehe Text für mehr Informationen).

3.1.2.2 Beweis der Äquivalenz und der Existenz von $\eta$

Als ersten Schritt zeigen wir nun, dass—im Beispiel mit drei Variablen—die drei paarweisen Beziehungen \[\begin{align*} \tau_1 &= \tau_2 + \alpha_{12} \Leftrightarrow \tau_1-\tau_2=\alpha_{12}\\ \tau_1 &= \tau_3 + \alpha_{13} \Leftrightarrow \tau_1-\tau_3=\alpha_{13} \\ \text{ und } \tau_2 &= \tau_3 + \alpha_{23} \Leftrightarrow \tau_2-\tau_3=\alpha_{23} \end{align*}\] bzw. allgemein \[\begin{equation} \tau_i-\tau_j=\alpha_{ij} \tag{3.1} \end{equation}\] auch geschrieben werden können als \[\begin{align*} \tau_1 &= \eta + \alpha_1 \\ \tau_2 &= \eta + \alpha_2 \\ \text{ und }\tau_3 &= \eta + \alpha_3 \end{align*}\] bzw. allgemein als \[\tau_i=\eta+\alpha_i\,,\] d.h. dass jeder wahre Werte dargestellt werden kann als Abweichung $\alpha_i$ von einer zugrunde liegenden Variablen $\eta$. Inhaltlich bedeutet dies, dass alle wahren Werte $\tau_i$ aus genau dieser gemeinsamen latenten Variablen $\eta$ abgeleitet werden können. In dieser Form charakterisiert $\eta$ die Beobachtungseinheit/Person (da jede einen eigenen Wert auf $\eta$ besitzt) und die $\alpha_i$ charakterisieren die Variablen.

Dass die beiden Formulierungen tatsächlich äquivalent sind, kann leicht illustriert werden. Zunächst zeigen wir als eine Vorbedingung, dass \[\alpha_{13} = \alpha_{12} + \alpha_{23}\] gilt. Dazu setzen wir einfach aus den obigen paarweisen Beziehungen die entsprechenden Werte ein und erhalten \[\begin{align*} \alpha_{13} &= \alpha_{12} + \alpha_{23} \\ \Rightarrow \tau_1-\tau_3 &= (\tau_1-\tau_2)+(\tau_2-\tau_3) \\ &= \tau_1-\tau_3\,. \end{align*}\] Nun nehmen wir an, die Zielgleichung \[\tau_i=\eta+\alpha_i\] würde für $i=1,2,3$ gelten. Dann folgt auch, dass \[\tau_i-\tau_j=(\eta+\alpha_i) - (\eta+\alpha_j)=\alpha_i-\alpha_j\] ist. Da nun (siehe Gleichung (3.1)) \[\tau_i-\tau_j=\alpha_{ij}\] ist, können wir dies einsetzen und erhalten \[\alpha_{ij}=\alpha_i-\alpha_j\] bzw. im konkreten Fall \[\begin{align*} \alpha_{12}&=\alpha_1-\alpha_2 \\ \alpha_{13}&=\alpha_1-\alpha_3 \\ \text{und }\alpha_{23}&=\alpha_2-\alpha_3 \,. \end{align*}\] Dieses System ist in sich konsistent, was oben durch die Vorbedingung bereits gezeigt wurde.

Damit wird das Gleichungssystem von oben bis auf eine beliebige Konstante lösbar. Wählen wir den Wert von $\alpha_1$ beliebig, ergeben sich aus dem Gleichungssystem von oben weiter \[\begin{align*} \alpha_2 &= \alpha_1-\alpha_{12} \\ \text{und }\alpha_3 &= \alpha_1-\alpha_{13}\,. \end{align*}\] Aus der Zielgleichung $\tau_i=\eta+\alpha_i$ folgt, dass \[ \eta = \tau_i - \alpha_i \] ist, und für $i=1,2,3$ soll sich nun das gleiche $\eta$ ergeben, nämlich \[\eta=\tau_1-\alpha_1\,,\] wenn wir mit $i=1$ beginnen. Für $i=2$ ergibt sich nun \[\begin{align*} \eta &= \tau_2-\alpha_2 \\ &= \tau_2 - (\alpha_1-\alpha_{12}) \\ &= (\tau_2 + \alpha_{12})-\alpha_1 \\ &= \tau_1-\alpha_1\,, \end{align*}\] und für $i=3$ folgt \[\begin{align*} \eta &= \tau_3-\alpha_3 \\ &= \tau_3 - (\alpha_1-\alpha_{13}) \\ &= (\tau_3 + \alpha_{13})-\alpha_1 \\ &= \tau_1-\alpha_1\,. \end{align*}\] Es gibt also Werte für $\eta$, $\alpha_1$, $\alpha_2$ und $\alpha_3$, und die $\alpha_i$ sind bis auf eine Konstante bestimmbar und als Fazit halten wir fest: Die Gleichungen, die sich aus der Definition essentieller $\tau$-Äquivalenz ergeben, können auch geschrieben werden als \[\tau_i = \eta + \alpha_i\,.\] Die wahren Werte $\tau_i$ lassen sich also aus einer gemeinsamen (latenten) Variablen $\eta$ und variablenspezifischen Konstanten $\alpha_i$ ableiten.

3.1.2.3 Additive Form inkl. Messfehler

Bringen wir diese Formulierung mit der eingangs eingeführten Zerlegung $Y_i=\tau_i+\varepsilon_i$ zusammen, kann, sofern das Modell essentiell $\tau$-äquivalenter Variablen gilt, jede Testwertvariable additiv dargestellt werden als (siehe Abb. 3.1) \[Y_i=\eta+\alpha_i+\varepsilon_i\,.\]

3.1.2.4 Spezifizierung des Wertes von $\eta$

Die Existenz einer latenten Variablen $\eta$ wurde damit zwar eingeführt, ihr Wert ist aber damit nicht eindeutig spezifiziert und bestimmt. Wie $\eta$ gewählt wird, ist im Prinzip relativ egal, es gibt aber etablierte und sinnvolle Wege dafür, ihren Erwartungswert und die verschiedenen $\alpha_i$ zu bestimmen:

Der Erwartungswert von $\eta$ kann auf einen festen Wert festgelegt werden. Wenn bspw. $\mathbb{E}(\eta)=0$ gesetzt wird, dann entsprechen die Parameter $\alpha_i$ den jeweiligen $\mathbb{E}(Y_i)$: \[\mathbb{E}(Y_i)=\mathbb{E}(\eta)+\mathbb{E}(\alpha_i)+\mathbb{E}(\varepsilon_i)=\alpha_i\,.\]
Es kann der Wert eines $\alpha_i$ fixiert werden, wobei es dann üblich ist, ein $\alpha_i=0$ zu setzen. Wenn bspw. $\alpha_1=0$ gesetzt wird, dann ergibt sich $\mathbb{E}(\eta)=\mathbb{E}(Y_1)$ und weiter ergibt sich $\alpha_i=\mathbb{E}(Y_i)-\mathbb{E}(\eta)=\mathbb{E}(Y_i)-\mathbb{E}(Y_1)$ (mit $i\neq 1$ ).

3.1.2.5 Visualisierung

Eid et al. (2010) schlagen zwei verschiedene Visualisierungen von Messmodellen vor. Zum einen eine Darstellung in Form einer Regression, zum anderen als Pfaddiagramme. Da beide Varianten später nochmals verwendet werden, führen wir sie an dieser Stelle für das Modell essentiell $\tau$-äquivalenter Variablen bereits ein.

Wir ergänzen nun zur Illustration die obige Darstellung der $\tau_i$ in Abhängigkeit von $\eta$, indem wir explizit einen Faktor von 1 einführen. Da also alle $\tau_i$ dargestellt werden können als \[\tau_i=1\cdot\eta+\alpha_j\,,\] ergeben sich entsprechend Regressionsgeraden mit einer Steigung von 1, die zudem alle parallel liegen und eine Funktion der latenten Variablen $\eta$ sind. Gehen wir weiterhin davon aus, dass wir für $\mathbb{E}(\eta)=0$ gesetzt haben, dann entsprechen die Erwartungswerte der wahren Werte $\tau_i$ den Parametern $\alpha_i$. Empirisch sind dies die Mittelwerte der verwendeten Subskalen bzw. Untertests. Nehmen wir an, dass \[\alpha_1=0.5,\,\alpha_2=2.5\text{ und }\alpha_3=4\] sind, dann ergibt sich Abbildung 3.2, in der zwei Dinge deutlich werden:

Zum einen bestimmen die $\alpha_i$ als Achsenabschnitte der Regression das Level der Werte.
Zum anderen sind die $\tau_i$ in direkter Abhängigkeit von $\eta$: Wird $\eta$ um 1 erhöht, werden auch die $\tau_i$ um 1 größer.

$Essentiell $\tau$-äquivalentes Messmodell dargestellt als Regression.$

Abbildung 3.2: Essentiell $\tau$-äquivalentes Messmodell dargestellt als Regression.

Abbildung 3.3 ist die pfadanalytische Darstellung. Die Testwertvariablen $Y_i$ werden, kenntlich gemacht durch Pfeile, von der latenten Variablen $\eta$ sowie von spezifischen Messfehlern $\varepsilon_i$ beeinflusst. Die Pfeile von $\eta$ zu den $Y_i$ sind mit 1 beschriftet, da dies den Steigungsparametern (siehe obige regressionsanalytische Darstellung) entspricht, d.h. wie sich der Wert von $\tau_i$ bei Veränderungen auf $\eta$ verändert.

$Essentiell $\tau$-äquivalentes Messmodell dargestellt als Pfadmodell.$

Abbildung 3.3: Essentiell $\tau$-äquivalentes Messmodell dargestellt als Pfadmodell.

In dieser Abbildung wird auch noch die zweite Annahme des Modells essentiell $\tau$-äquivalenter Variablen verdeutlicht: Die Varianzen der Messfehler $\varepsilon_i$ können sich unterscheiden, sie sind aber nicht miteinander korreliert, d.h. es gilt \[\text{Kov}(\varepsilon_i,\varepsilon_j)=0\qquad\text{für } i\neq j\,.\] Unsystematische Einflüsse, die auf eine Variable $Y_i$ wirken, dürfen also nicht auf eine Variable $Y_j$ ebenso wirken. Korrelationen der manifesten Variablen $Y_i$ gehen also nur darauf zurück, dass sie das gleiche Merkmal messen. Angenommen, in einem Test zum Sprachverständnis werden drei Variablen gemessen, die allesamt das Verständnis einzelner Wörter messen sollen. Bei zweien dieser Tests sind die Wörter aber eingebettet in einen Satzkontext, was vermutlich auch das Verständnis der grammatischen Struktur voraussetzt. Im Ergebnis werden alle drei Variablen miteinander korrelieren und eine latente Variable “Wortverständnis” würde indiziert sein. Allerdings dürften die Korrelationen zwischen den letztgenannten Tests auch noch auf andere Ursachen zurückgehen, als nur auf diese eine latente Variable. Dieser Anteil würde aber auch in den Messfehler miteingehen und auf beide Variablen in gleicher Art wirken: Die beiden Messfehleranteile wären also miteinander korreliert.

Die Unkorreliertheit der Fehler ist nicht unbedingt vorausgesetzt für essentielle $\tau$-Äquivalenz, wohl aber, wenn in diesem Modell Reliabilitäten geschätzt werden sollen und Tests der Modellgültigkeit durchgeführt werden sollen.

3.1.3 Modellgültigkeit

Bisher haben wir nur die Annahmen des Modells essentiell $\tau$-äquivalenter Variablen beschrieben. Der nächste Schritt besteht nun darin zu prüfen, ob empirische Daten (also wenn z.B. eine Stichprobe an Versuchspersonen die obigen drei Fragen beantwortet hat) mit diesem Modell in Einklang sind. Die Grundüberlegung dabei ist, dass die Korrelationen der Testwertvariablen ausschließlich auf die latente Variable $\eta$ zurückzuführen sind. Wenn dies tatsächlich der Fall ist, sollten die Korrelationen bei Auspartialisierung von $\eta$ also verschwinden, d.h. es sollte \[r_{Y_iY_j\cdot \eta}=0\] sein (für mehr Informationen zur Partialkorrelation, siehe hier). Ist diese Partialkorrelation ungleich Null, spricht dies für eine Verletzung der Annahme unkorrelierter Messfehler.

Wie kann nun geprüft werden, ob die Daten tatsächlich mit dem Modell konform sind? Das grundlegende Prinzip dazu gilt hier, aber konzeptuell auch in anderen Kontexten: In unserem Fall von Messmodellen ist es so, dass die spezifischen Annahmen des Messmodells eine bestimmte Struktur der Kovarianzmatrix der Testwertvariablen (in der Population) implizieren. Es gilt nämlich dann für die Kovarianzen der Variablen untereinander: \[\begin{align*} \text{Kov}(Y_i,Y_j) &= \text{Kov}(\eta+\alpha_i+\varepsilon_i, \eta+\alpha_j+\varepsilon_j) \\ &= \text{Kov}(\eta+\varepsilon_i, \eta+\varepsilon_j) \\ &= \text{Kov}(\eta, \eta) + \underset{=0}{\underbrace{\text{Kov}(\eta,\varepsilon_j) + \text{Kov}(\varepsilon_i,\eta) + \text{Kov}(\varepsilon_i, \varepsilon_j)}} \\ &= V(\eta)\,. \end{align*}\] Zudem gilt wegen \[\begin{align*} V(Y_i) = \text{Kov}(Y_i,Y_i) &= \text{Kov}(\alpha_i+\eta+\varepsilon_i, \alpha_i+\eta+\varepsilon_i) \\ &= \text{Kov}(\eta+\varepsilon_i, \eta+\varepsilon_i) \\ &= \text{Kov}(\eta, \eta) + \underset{=0}{\underbrace{\text{Kov}(\eta,\varepsilon_i) + \text{Kov}(\varepsilon_i,\eta)}} + \text{Kov}(\epsilon_i, \epsilon_i) \end{align*}\] für die Varianzen der Variablen also \[ V(Y_i)=V(\eta)+V(\varepsilon_i)\,. \] Während die Kovarianzen also alle gleich sein müssen, dürfen sich die Varianzen unterscheiden und es resultiert \[ \Sigma = \begin{pmatrix} V(\eta) + V(\varepsilon_1) & V(\eta) & V(\eta) \\ V(\eta) & V(\eta) + V(\varepsilon_2) & V(\eta) \\ V(\eta) & V(\eta) & V(\eta) + V(\varepsilon_3) \end{pmatrix} \] als implizierte Kovarianzmatrix. Diese implizierte Kovarianzmatrix kann nun anhand eines $\chi^2$-Tests mit der empirischen Kovarianzmatrix verglichen werden, wobei die $H_0$ besagt, dass sich auf der Populationsebene die implizierte und die empirische Kovarianzmatrizen nicht unterscheiden. Wird der Test also nicht signifikant gehen wir davon aus, dass das Modell essentieller $\tau$-Äquivalenz die (empirische) Kovarianzstruktur korrekt vorhersagt und wir annehmen können, die Daten seien gemäß diesem Modell entstanden.

3.1.4 Reliabilitätsschätzung

Erfüllen die Daten die Annahmen des Modells essentiell $\tau$-äquivalenter Variablen, dann entspricht die Varianz der wahren Werte $\tau_i$ der Varianz von $\eta$ (beide unterscheiden sich ja nur durch eine Konstante $\alpha_i$). Gleichzeitig (siehe vorheriger Abschnitt) entspricht die Varianz von $\eta$ der Kovarianz zweier Testwertvariablen. Daraus ergibt sich für die Bestimmung der Reliabilität von $Y_i$ (mit $i\neq j$): \[\begin{align*} \text{Rel}(Y_i) &= \frac{V(\tau_i)}{V(Y_i)} \\ &= \frac{V(\eta)}{V(Y_i)} \\ &= \frac{\text{Kov}(Y_i,Y_j)}{V(Y_i)}\,. \end{align*}\] Bei Gültigkeit des Modells essentiell $\tau$-äquivalenter Variablen werden zur Reliabilitätsbestimmung also ausschließlich empirische Kenngrößen benötigt und für jede Variable $Y_i$ kann die Reliabilität separat bestimmt werden.

3.1.5 Test des Messmodells mit `lavaan`

Mit dem R Paket lavaan kann nun u.a. getestet werden, ob das Modell essentiell $\tau$-äquivalenter Variablen zu beobachteten, manifesten Variablen passt. Dies dient uns nun dazu, erste Aspekte der Nutzung von lavaan einzuführen.

Als Beispiel nutzen wir hier Daten aus dem Buch von Eid et al. (2010, Kap. 22). In diesem Fall liegen für drei Variablen nur die Kovarianzmatrix und die Mittelwerte auf Basis von $n=482$ Versuchspersonen vor (vgl. Tabelle 22.2a in Eid et al., 2010). Später werden wir zwar i.d.R. mit Rohdaten arbeiten, aber im Prinzip ist eine Analyse auf Basis aggregierter Daten wie hier möglich. Dazu legen wir zunächst einen Vektor mit den Mittelwerten und die empirische Kovarianzmatrix (die die Populationskovarianzmatrix schätzt) an:

example.means <- c(3.18, 3.06, 3.15) # Die drei empirischen Mittelwerte

# Unteres Dreieck der Kovarianzmatrix
lower <- "
  0.47
  0.37 0.56
  0.34 0.37 0.49
"

example.cov <- getCov(lower, # Als Kovarianzmatrix zusammenführen...
  names = c("Y1", "Y2", "Y3")
)

## Warning: 'getCov' is deprecated.
## Use 'lav_getcov' instead.
## See help("Deprecated")

example.cov # ...und anzeigen

##      Y1   Y2   Y3
## Y1 0.47 0.37 0.34
## Y2 0.37 0.56 0.37
## Y3 0.34 0.37 0.49

Im nächsten Schritt legen wir das Modell in der lavaan-Syntax fest und wenden die Funktion sem() an, um das Modell zu schätzen:

essentially_tau_equivalent <- "
  eta =~ 1*Y1 + 1*Y2 + 1*Y3     # alle Ladungen auf 1
  eta ~ 0*1                     # E(eta) = 0 (zur Normierung)
  eta ~~ veta*eta               # V(eta) frei schätzen
  Y1 ~~ veps1*Y1                # alle V(epsilon) frei schätzen
  Y2 ~~ veps2*Y2
  Y3 ~~ veps3*Y3
  Y1 ~ NA*1                     # Intercepts alpha frei schätzen
  Y2 ~ NA*1
  Y3 ~ NA*1
"

fit <- sem(essentially_tau_equivalent, # Modell
  sample.cov = example.cov, # Mittelwertvektor
  sample.mean = example.means, # Kovarianzmatrix
  sample.nobs = 482 # Anzahl Datenpunkte/Versuchspersonen
)

Als Ergebnis lassen wir nur die modellimplizierten Mittelwerte, die modellimplizierte Kovarianzmatrix sowie einen $\chi^2$-Test ausgeben. Der $\chi^2$-Test testet also die Nullhypothese, dass die modellimplizierte und die wahre Kovarianzmatrix auf Populationsebene identisch sind:

round(fitted(fit)$mean, 2) # Modellimplizierte Mittelwerte

##   Y1   Y2   Y3 
## 3.18 3.06 3.15

round(fitted(fit)$cov, 2) # Modellimplizierte Kovarianzmatrix

##      Y1   Y2   Y3
## Y1 0.48          
## Y2 0.36 0.53     
## Y3 0.36 0.36 0.50

fitMeasures(
  fit, # Maße zur Anpassungsgüte...
  c("chisq", "df", "pvalue") # ...davon hier nur chi^2 Test
)

##  chisq     df pvalue 
##  3.903  2.000  0.142

Diese Werte kommen zumindest sehr nahe an die Werte in Tabelle 22.2b in Eid et al. (2010) heran und die Unterschiede dürften auf verschiedene Software und/oder Optimierungsalgorithmen bzw. Rundungen in den Ausgangswerten zurückgehen. Der $\chi^2$-Test zeigt zudem an, dass die empirische und die modellimplizierte Kovarianzmatrix nicht signifikant voneinander abweichen (wir werden das Beispiel später erneut aufgreifen). Mehr Informationen zu weiteren Maßen der Modellanpassungsgüte sind in Kapitel 5.3 beschrieben.

Zur weiteren Illustration lassen wir uns noch die Schätzung der Varianz von $\eta$ ausgeben und sehen, dass diese in der Tat der modellimplizierten Kovarianz der Variablen entspricht:

var_eta <- parameterEstimates(fit)$est[5] # V(eta)
round(var_eta, 2)

## [1] 0.36

Ähnlich ergeben sich die modellimplizierten Varianzen der Variablen als \[V(Y_i)=V(\eta) + V(\varepsilon_i) \,:\]

var_epsilon <- parameterEstimates(fit)$est[6:8] # V(epsilon_i)
var_Y <- var_eta + var_epsilon
round(var_Y, 2)

## [1] 0.48 0.53 0.50

Schließlich können wir so die Reliabilitäten der drei Variablen $Y_i$ bestimmen:

Rel <- var_eta / var_Y
round(Rel, 2)

## [1] 0.74 0.68 0.71

Mehr Informationen zur Durchführung mit lavaan inklusive einer Möglichkeit, die Reliabilitäten direkt in der Modellsyntax unterzubringen, finden sich in dieser Ergänzung.

3.2 Weitere restriktivere Messmodelle

Aus dem essentiell $\tau$-äquivalenten Modell gehen weitere Modelle hervor, indem bestimmte Restriktionen eingeführt werden. Diese behandeln wir kurz in den folgenden Abschnitten.

3.2.1 Das Modell essentiell $\tau$-paralleler Variablen

Im Modell essentiell $\tau$-äquivalenter Variablen wurde für die Messfehler $\varepsilon_i$ zwar Unkorreliertheit angenommen, ihre Varianzen können aber unterschiedlich sein. Eine Konsequenz davon ist, dass die Testwertvariablen alle verschiedene Reliabilitäten haben.

Im Modell essentiell $\tau$-paralleler Variablen wird nun zusäzlich angenommen, dass \[V(\varepsilon_i) = V(\varepsilon_j)\quad\forall i\neq j\] gilt, wobei die Messfehler aber weiterhin als untereinander unkorreliert angenommen werden. Die Annahme gleicher Messfehlervarianzen kann z.B. dann sinnvoll sein, wenn zwei Parallelversionen eines Tests verwendet werden. Als Folge wären dann auch alle Testwertvarianzen in der Population gleich, d.h. es gilt auch \[V(Y_i)=V(Y_j)\,.\] Für die Reliabilität ergibt sich dadurch dann \[\begin{align*} \text{Rel}(Y_i) &= \frac{\text{Kov}(Y_i,Y_j)}{V(Y_i)} \\ &= \frac{\text{Kov}(Y_i,Y_j)}{\sqrt{V(Y_i)^2}} \\ &= \frac{\text{Kov}(Y_i,Y_j)}{\sqrt{V(Y_i)\cdot V(Y_j)}} \\ &= r_{Y_iY_j}\,. \end{align*}\] Das wichtigste Ergebnis an dieser Stelle ist nun, dass nun bei Annahme des Modells essentiell $\tau$-paralleler Variablen die Korrelation von Testwertvariablen als Maß für die Reliabilität interpretiert werden darf.

Eine weitere einfachere Interpretation ergibt sich aus ihrer Definition und der Gleichheit der $V(Y_i)$. Da diese Varianzen alle gleich sind und wir stattdessen auch einfach $V(Y)$ schreiben können, ergibt sich, dass die Reliabilität für jede Variable gleich sein muss: \[\text{Rel}(Y)=\frac{V(\tau_i)}{V(Y_i)}=\frac{V(\eta)}{V(Y)}\,.\]

3.2.2 Das Modell $\tau$-äquivalenter Variablen

Während in diesem Modell (genau wie im Modell essentiell $\tau$-äquivalenter Variablen) verschiedene Varianzen der $\varepsilon_i$ zugelassen werden, wird angenommen, dass alle wahren Werte $\tau_i$ gleich sind. Da dadurch auch alle $\alpha_i$ gleich sind, vereinfacht sich die Darstellung der Testwertvariablen zu \[Y_i=\eta+\varepsilon_i\,.\] Als Konsequenz entsprechen die Erwartungswerte der Testwertvariablen dem der latenten Variable, also $\mathbb{E}(Y_i)=\mathbb{E}(\eta)$ und entsprechend sind alle Erwartungswerte der Testwertvariablen auch identisch. Die Reliabilitätsschätzung erfolgt wie im Modell essentiell $\tau$-äquivalenter Variablen, da die Parameter $\alpha$ hierfür keine Rolle spielen.

3.2.3 Das Modell $\tau$-paralleler Variablen

Im Vergleich zum Modell $\tau$-äquivalenter Variablen wird nun noch die Gleichheit der $V(\varepsilon_i)$ angenommen. Dies ist das restriktivste der bisher vorgestellten Modelle und die Reliabilitätsschätzung erfolgt wie im Modell essentiell $\tau$-paralleler Variablen durch die Korrelation.

3.2.4 Umsetzung in `lavaan`

Ähnlich wie das Modell essentiell $\tau$-äquivalenter Variablen lassen sich auch die drei hier eingeführten Messmodelle mit lavaan umsetzen. Konkret ist dies in dieser Ergänzung zu finden. Dort sind auch die Reliabilitätsschätzungen für alle hier eingeführten Modelle in die lavaan-Syntax implementiert worden. Wie dort zu sehen ist, würde auch der $\chi^2$-Test für das Modell essentiell $\tau$-paralleler Variablen nicht signifikant werden.

3.3 Zusammenfassung bis hierher

Bis hierhin haben wir vier verschiedene Messmodelle kennengelernt, die verschiedene Annahmen über die Verschiedenheit wahrer Werte $\tau_i$ und mögliche Größenunterschiede der Fehlervarianzen $V(\varepsilon_i)$ machen. Dabei war das Modell essentiell $\tau$-äquivalenter Variablen das allgemeinste Modell bisher und die drei im Anschluss dargestellten Modelle waren restriktivere Spezialfälle davon.

3.3.1 Eigenschaften und Parameteranzahl der Modelle

Abbildung 3.4 fasst noch einmal die Eigenschaften der bisher behandelten Modelle zusammen, inklusive welche (und wieviele) Parameter der Modelle geschätzt werden müssen (wenn wir von drei Testwertvariablen/Subskalen/Untertests) ausgehen.

Abbildung 3.4: Vergleich der bisher dargestellten Messmodelle.

3.3.2 Reliabilität again

Neben der Trennung wahrer Varianz von Fehlervarianz und eben der Bestimmung der Reliabilität hat die mehrfache Messung eines Merkmals noch den Vorteil, dass deren Aggregation (durch Summierung oder Mittelung) die Präzision der Messung auch erhöht. Insbesondere gilt bei Gültigkeit des Modells $m$-vieler (essentiell) $\tau$-paralleler Variablen für die Reliabilität einer aggregierten Variablen $S_Y$ \[\text{Rel}(S_Y)=\frac{m\cdot\text{Rel}(Y_i)}{1+(m-1)\cdot\text{Rel}(Y_i)}\,.\] Dies ist die sog. Spearman-Brown-Formel zur Testverlängerung. In dieser Ergänzung wurde die Reliabilität aller drei Items für das essentiell $\tau$-parallele Modell als \[ \text{Rel}(Y) = 0.711 \] bestimmt. Eingesetzt in die Spearman-Brown-Formel ergibt sich für die Summe oder den Mittelwert der drei $Y_i$-Variablen \[ \text{Rel}(S_Y)=\frac{3\cdot 0.711}{1+(3-1)\cdot 0.711}= \frac{2.133}{2.422}=0.881\,. \] Im Fall von (essentieller) $\tau$-Äquivalenz (sowie auch $\tau$-Parallelität) kann Cronbach’s $\alpha$ \[ \alpha = \frac{m}{m-1}\cdot \left[1-\frac{\sum_{i=1}^mV(Y_i)}{V(S_Y)} \right]\,, \] als Reliabilität der Summenvariable bestimmt werden. Das Maß wird auch als interne Konsistenz bezeichnet und spiegelt die Korrelationen der verschiedenen eingehenden Variablen $Y_i$ wider, da in die Berechnung des Nenners im zweiten Faktor auch die Kovarianzen zwischen den Variablen eingehen. Werden diese groß, wird der Bruch insgesamt kleiner und der Faktor in der Klammer geht gegen $1$.

Als Beispiel berechnen wir den entsprechenden Wert hier anhand der vom Modell essentiell $\tau$-äquivalenter Variablen implizierten Kovarianzmatrix. Dazu müssen wir nun zunächst die Varianz der Summenvariablen $S_Y$ berechnen: \[\begin{align*} V(S_Y) &= V(Y_1+Y_2+Y_3) \\ &= V(Y_1) + V(Y_2) + V(Y_3) + 2\cdot\text{Kov}(Y_1,Y_2) + 2\cdot\text{Kov}(Y_1,Y_3) + 2\cdot\text{Kov}(Y_2,Y_3) \\ &=0.48 + 0.53 + 0.50 + 6\cdot 0.36 \\ &=3.67\,. \end{align*}\] Nun setzen wir die Werte alle entsprechend in die Formel ein und erhalten \[\begin{align*} \alpha &= \frac{3}{3-1}\cdot \left[1-\frac{0.48 + 0.53 + 0.50}{3.67} \right] \\ &= 1.5\cdot \left[1-0.411\right]\\ &= 0.88 \,. \end{align*}\] Mitunter werden Werte von $.65\leq\alpha\leq.80$ als akzeptabel bewertet, wobei es um die korrekte Verwendung und Interpretation von Cronbach’s $\alpha$ recht viel Diskussion gegeben hat und gibt (siehe z.B. Vaske et al., 2017). Insbesondere ist darauf zu achten, dass ein hoher Wert von Cronbach’s $\alpha$ kein Hinweis auf Eindimensionalität des betrachteten Konstrukts ist. Im Fall dessen, dass Annahmen der bisher vorgestellen Modelle verletzt sind, aber dennoch von unkorrelierten Fehlern ausgegangen werden kann, gilt immerhin noch \[\alpha \leq \text{Rel}(S_Y)\,.\] Eine eindeutige Interpretation als Reliabilität verbietet sich dann allerdings. Automatisierte Berechnung von Cronbach’s $\alpha$ sind bspw. mit der Funktion alpha() aus dem Paket psych leicht durchzuführen. Insbesondere werden mit der Funktion z.B. auch die Werte produziert die sich ergeben, wenn eine Variable (also ein Item, ein Subtest, …) “herausgenommen” wird. Dies kann bei der Konstruktion von Tests genutzt werden, um redundante oder ggf. mangelhafte Variablen zu identifizieren.

4 Das Modell $\tau$-kongenerischer Variablen

Sobald z.B. Variablen auf verschiedenen Skalen gemessen werden, gilt (essentielle) $\tau$-Äquivalenz bzw. -Parallelität nicht mehr. Dies ist auch dann der Fall, wenn von Fragebögen Kurz- und Langformen verwendet werden, die sich in der Anzahl der Items unterscheiden, was dann auch bedeutet, dass sich die Varianz (und der Wertebereich) unterscheiden dürfte. Wir generalisieren daher hier nun Modell das essentiell $\tau$-äquivalenter Variablen dahingehend, dass die (regressive) Beziehung zwischen $\eta$ und den $\tau_i$ nicht mehr 1 sein muss, sondern einen beliebigen Wert $\lambda_i$ annehmen kann. Dass Modell ist aber weiterhin eine Formalisierung dessen, dass verschiedene Variablen die gleiche Eigenschaft messen.

4.1 $\tau$-kongenerische Variablen und die latente Variable $\eta$

Im Vergleich zu den bisher behandelten Modellen unterscheidet sich das $\tau$-kongenerische Modell strukturell also vor allem dadurch, dass sich die $\tau_i$ nicht mehr nur um additive Konstanten $\alpha_i$ unterscheiden, sondern, in der regressionsanalytischen Darstellung (siehe Abb. 4.1), auch unterschiedliche Steigungen $\lambda_i$ haben können. Dies bedeutet, dass die $\tau_i$ unterschiedlich von $\eta$ (linear) abhängen, da sich die Steigungen der Regressionsgeraden unterscheiden können. Inhaltlich könnte man sagen: Die Items stehen unterschiedlich stark mit dem latenten Merkmal in Verbindung bzw. sind unterschiedlich repräsentativ für dieses. Die Steigung ist also nun nicht mehr 1 für alle $\tau_i$ (woraus ja auch folgte, dass die Regressionsgeraden parallel verlaufen), sondern wir führen einen Steigungs- oder Ladungsparameter $\lambda_i$ ein. Daraus ergibt sich als neue Gleichung folgende Form: \[\begin{align*} Y_i &= \lambda_i\cdot \eta + \alpha_i + \varepsilon_i\,. \end{align*}\] Werden hier alle $\lambda_i=1$ gesetzt, dann resultieren also die Gleichungen für das Modell essentiell $\tau$-äquivalenter Variablen als Spezialfall.

$Darstellung des $\tau$-kongenerischen Modells als Regression.$

Abbildung 4.1: Darstellung des $\tau$-kongenerischen Modells als Regression.

Entsprechend werden in der pfadanalytischen Darstellung die Einsen durch die $\lambda_i$ ersetzt (siehe Abb. 4.2).

$Darstellung des $\tau$-kongenerischen Modells als Pfadmodell.$

Abbildung 4.2: Darstellung des $\tau$-kongenerischen Modells als Pfadmodell.

Derartig verschiedene Koeffizienten $\lambda_i$ resultieren bspw. wie oben erwähnt dann, wenn die manifesten Variablen unterschiedlich repräsentativ für die latente Variable sind oder auch wenn ihnen verschiedene Maßeinheiten zugrundeliegen. Unterscheiden sich zwei wahre Werte $\tau_1$ und $\tau_2$ nicht nur um die additive Konstante $\alpha_{12}$ (so wie im Modell essentiell $\tau$-äquivalenter Variablen), dann geht die eine Variable entsprechend als Linearkombination \[\tau_1=\lambda_{12} \cdot \tau_2 + \alpha_{12}\] aus der anderen Variablen hervor. Ein Beispiel hierfür wäre, wenn die Temperatur (inkl. Messfehlern natürlich) einmal in Grad Celsius und einmal in Grad Fahrenheit gemessen würde, was aber jeweils ineinander umrechenbar ist: \[\tau_{\text{Fahrenheit}}=1.8\cdot \tau_{\text{Celsius}} + 32\,.\] Nehmen wir nun weiter an, zwei Variablen würden das gleiche Merkmal messen. Dann bewirkt ein Unterschied auf $\eta$ einen größeren Unterschied auf $\tau_i$ als auf $\tau_j$, wenn $\lambda_i>\lambda_j$ ist. Die Variable mit dem größeren $\lambda_i$ disriminiert also mehr zwischen Personen und daher werden die $\lambda_i$ auch Diskriminationsparameter genannt. Eine Konsequenz dessen ist natürlich, dass der Vergleich der wahren Werte zweier Personen nun nicht mehr unabhängig vom verwendeten Messinstrument ist. Andersherum ist auch der Vergleich der Messinstrumente nicht mehr von den Personen unabhängig: Ein Test kann leichter als ein anderer für die eine Person sein, aber schwerer für eine andere Person (jeweils verglichen mit einem anderen Test).

Im Fall $\tau$-kongenerischer Variablen kann ein $\tau_i$ jeweils als Linearkombinationen eines anderen wahren Wertes $\tau_j$ durch \[\tau_i = \lambda_{ij}\cdot \tau_j + \alpha_{ij}\] dargestellt werden. Auch hier gilt: Wird $\lambda_{ij}=1$ gesetzt, result der Fall essentiell $\tau$-äquivalenter Variablen. Im Fall dreier wahrer Werte ergeben sich entsprechend \[\begin{align*} \tau_1 &= \lambda_{12}\cdot \tau_2 + \alpha_{12} \\ \tau_1 &= \lambda_{13}\cdot\tau_3 + \alpha_{13} \\ \text{ und } \tau_2 &= \lambda_{23}\cdot\tau_3 + \alpha_{23}\,. \end{align*}\] Die Koeffizienten $\lambda_{ij}$ und $\alpha_{ij}$ reflektieren dabei den Quotienten zweier Koeffizienten $\lambda_i$ und $\lambda_j$. Um dies zu sehen setzen wir \[\begin{align*} \tau_j &= \lambda_j\cdot\eta+\alpha_j \\ \Leftrightarrow \eta &= \frac{\tau_j-\alpha_j}{\lambda_j} \end{align*}\] in die entsprechende Formulierung für $\tau_i$ ein und es ergibt sich: \[\begin{align*} \tau_i &= \lambda_i\cdot\eta + \alpha_i \\ &= \lambda_i\cdot \frac{\tau_j-\alpha_j}{\lambda_j} + \alpha_i \\ &= \frac{\lambda_i}{\lambda_j}\cdot \tau_j - \frac{\lambda_i}{\lambda_j}\cdot \alpha_j + \alpha_i \\ &= \underset{=\lambda_{ij}}{\underbrace{\left[\frac{\lambda_i}{\lambda_j}\right]}}\cdot \tau_j + \underset{=\alpha_{ij}}{\underbrace{\left[\alpha_i - \frac{\lambda_i}{\lambda_j}\cdot \alpha_j \right]}}\,. \end{align*}\]

4.2 Festlegung und Bestimmung der Modellparameter

Da sich die Variablen wahrer Werte im Modell $\tau$-kongenerischer Variablen auch in den Maßeinheiten unterscheiden können (wodurch $\lambda_i \neq 1$ resultiert), stellt sich die Frage, in welcher Maßeinheit die latente Variable $\eta$ die wahren Werte repräsentiert. Hierfür gibt es prinzipiell mehrere Varianten, bei denen jeweils (zwei) Parameter auf bestimmte Werte fixiert werden. Für die folgende Darstellung beschränken wir uns auf eine Variante, die auch als Standardeinstellung von lavaan verwendet wird. Zunächst wird hierbei der Erwartungswert der latenten Variablen auf $\mathbb{E}(\eta)=0$ fixiert. Um nun zusätzlich die Skalierung von $\eta$ festzulegen, wird ein Diskriminationsparameter auf 1 fixiert, also z.B. $\lambda_1 = 1$.

Wie können wir nun mit diesen Fixierungen die Parameter (im Prinzip) bestimmen?

Wir beginnen mit den Diskriminationsparametern. Wäre nur $\mathbb{E}(\eta)=0$ fixiert worden, dann gilt zunächst \[\frac{\lambda_i}{\lambda_j}=\frac{\text{Kov}(Y_i,Y_k)}{\text{Kov}(Y_j,Y_k)}\text{ mit }i\neq j, i\neq k, j\neq k\,.\] Hier wird nun auch klar, dass entsprechend einer der $\lambda$ auf einen (positiven) Wert fixiert werden muss, um eine eindeutige Lösung zu erhalten. Mit $\lambda_1=1$ ergeben sich daraus dann aber leicht \[ \lambda_2=\frac{\text{Kov}(Y_2,Y_3)}{\text{Kov}(Y_1,Y_3)}\text{ und }\lambda_3=\frac{\text{Kov}(Y_3,Y_2)}{\text{Kov}(Y_1,Y_2)}\,. \] Da die $\lambda_i$ stets positiv gewählt werden bzw. sich dann als positive Werte ergeben, muss zudem sichergestellt werden, dass alle Variablen so kodiert sind, dass hohe Werte die gleiche Bedeutung der Merkmalsausprägung bekommen (ggf. müssen bestimmte Variablen also rekodiert werden).
Nun bestimmen wir die Varianz der latenten Variablen $V(\eta)$. Wegen \[\begin{align*} \text{Kov}(Y_i,Y_j) &= \text{Kov}(\lambda_i\cdot \eta + \alpha_i + \varepsilon_i, \lambda_j\cdot \eta + \alpha_j + \varepsilon_j) \\ &= \text{Kov}(\lambda_i\cdot \eta + \varepsilon_i, \lambda_j\cdot \eta + \varepsilon_j) \\ &= \text{Kov}(\lambda_i\cdot\eta,\lambda_j\cdot\eta ) + \underset{=0}{\underbrace{\text{Kov}(\lambda_i\cdot\eta, \varepsilon_j) + \text{Kov}(\varepsilon_i,\lambda_j\cdot\eta) + \text{Kov}(\varepsilon_i,\varepsilon_j)}} \\ &= \lambda_i\cdot\lambda_j\cdot V(\eta) \end{align*}\] ergibt sich für die Varianz der latenten Variablen dann \[\begin{align*} V(\eta)=\frac{\text{Kov}(Y_i,Y_j)}{\lambda_i\cdot\lambda_j}\,. \end{align*}\]
Die Messfehlervarianzen $\varepsilon_i$ können wegen \[V(Y_i)=\lambda_i^2\cdot V(\eta)+V(\varepsilon_i)\] bestimmt werden als \[V(\varepsilon_i) = V(Y_i)-\lambda_i^2\cdot V(\eta)\,.\]

Als implizierte Kovarianzmatrix auf der Populationsebene würde sich also ingesamt \[ \Sigma = \begin{pmatrix} \lambda_1^2\cdot V(\eta) + V(\varepsilon_1) & \lambda_2\cdot\lambda_1\cdot V(\eta) & \lambda_3\cdot\lambda_1\cdot V(\eta) \\ \lambda_1\cdot\lambda_2\cdot V(\eta) & \lambda_2^2\cdot V(\eta) + V(\varepsilon_2) & \lambda_3\cdot\lambda_2\cdot V(\eta) \\ \lambda_1\cdot\lambda_3\cdot V(\eta) & \lambda_2\cdot\lambda_3\cdot V(\eta) & \lambda_3^2\cdot V(\eta) + V(\varepsilon_3) \end{pmatrix} \] ergeben (wobei $\lambda_1$ = 1 gelten könnte).

Nun betrachten wir noch die Leichtigkeitsparameter $\alpha_i$, die sich aus \[ \mathbb{E}(Y_i) = \mathbb{E}(\lambda_i\cdot\eta+\alpha_i+\varepsilon_i) = \lambda_i\cdot \mathbb{E}(\eta)+ \alpha_i \Leftrightarrow \alpha_i = \mathbb{E}(Y_i) - \lambda_i\cdot \mathbb{E}(\eta) \] ergeben. Durch die Fixierung von $\mathbb{E}(\eta)=0$, ergibt sich dann direkt \[\alpha_i=\mathbb{E}(Y_i)\,.\]

4.3 Modellgültigkeit

Prinzipiell funktioniert die Prüfung der Modellgültigkeit wie in den oben erläuterten Beispielen durch den Vergleich der vom Modell implizierten Kovarianzmatrix mit der empirischen Kovarianzmatrix. Als Besonderheit kommt nun hinzu, dass bei drei Testwertvariablen 9 Werte zur Berechnung der Modellparameter zur Verfügung stehen (3 Mittelwerte, 3 Fehlervarianzen und 3 Kovarianzen), aber auch genau 9 Modellparameter berechnet werden müssen (bei der eben verwendeten Fixierung wären dies $V(\eta)$, zwei Diskriminationsparameter $\lambda_2$ und $\lambda_3$, drei Messfehlervarianzen $V(\varepsilon_i)$, sowie drei Leichtigkeitsparameter $\alpha_i$; siehe auch Abschnitt 5.1.2.2). Das heißt, es bleiben keine Freiheitsgrade mehr übrig (siehe Abschnitt 5.1 für mehr Informationen). Als Konsequenz ergibt sich, dass wir mit 3 Variablen das Modell zwar berechnen können, aber keine Prüfung der Modellgültigkeit mehr durchführen können. Dazu würden wir mindestens 4 Testwertvariablen benötigen.

Die konkrete Umsetzung des Modells $\tau$-kongenerischer Variablen ist in dieser Ergänzung zu finden. Dort wird auch noch einmal deutlich, dass kein $\chi^2$-Test berechnet werden kann, da die Anzahl der zu schätzenden Modellparameter und der verfügbaren Informationen identisch ist und daher keine Freiheitsgrade verbleiben. Wir kommen darauf im nächsten Kapitel 5 noch einmal zurück.

4.4 Reliabilitätsschätzung

Wegen \[V(\tau_i)=\lambda_i^2\cdot V(\eta)\] ergibt sich als Schätzung der Reliabilität folglich \[\text{Rel}(Y_i)=\frac{V(\tau_i)}{V(Y_i)}=\frac{\lambda_i^2\cdot V(\eta)}{V(Y_i)}\,.\]

Für die Summe oder den Mittelwert $m$-vieler $\tau$-kongenerischer Variablen ergibt sich die Reliabilität als McDonalds $\omega$ mit \[ \omega = \frac{\left[ \sum_{i=1}^m\lambda_i \right]^2}{\left[ \sum_{i=1}^m\lambda_i \right]^2 + \left[ \sum_{i=1}^mV(\varepsilon_i) \right]^2} \,. \]

4.5 Zusammenfassung und Nutzen der vorgestellten Messmodelle

Insgesamt ist das zuletzt eingeführte Modell $\tau$-kongenerischer Variablen das generellste und das Modell essentiell $\tau$-äquivalenter Variablen geht aus diesem als Spezialfall hervor, wenn die Diskriminationsparameter auf $\lambda_i=1$ fixiert werden. Wie bereits oben diskutiert, sind die anderen oben dargestellten Modelle dann weitere Spezialfälle. Durch die Prüfung der Modelle für empirische Daten wird dann dasjenige Modell bestimmt, welches die Daten nicht schlechter beschreiben kann als eines der weniger restriktiven Modelle.

Alle Messmodelle zielen darauf ab, die systematischen Unterschiede in den wahren Werten von den unsystematischen Einflüssen der Messfehler zu trennen. Dies erfüllt mindestens zwei Zwecke, die wir kurz ausführen.

4.5.1 Evaluation von Tests während deren Konstruktion

Die hier vorgestellten Modelle nehmen an, dass die Testwertvariablen das gleiche Konstrukt messen. Im Fall dessen, dass auch das am wenigstens restriktive Modell $\tau$-kongenerischer Variablen nicht mit den Daten im Einklang ist, sind die Testwertvariablen nicht homogen genug, um ein eindimensionales Konstrukt zu erfassen. Muss im Zuge einer Testkonstruktion eine Selektion einzelner Items vorgenommen werden, sind die berechneten Item-Reliabilitäten von besonderer Bedeutung, da die Gesamtreliablität höher ausfällt, wenn auch die einzelnen Items eine hohe Reliabilität aufweisen.

Zu Beginn dieses Teils haben wir hergeleitet (Kap. 2), dass auch \[\text{Rel}(Y_i)=r^2_{\tau_i Y_i}\] gilt. Da nun die $\tau_i$ eine lineare Funktion von $\eta$ sind, gilt auch \[\text{Rel}(Y_i)=r^2_{\eta Y_i}\,,\] wobei letztere quadrierte Korrelation auch Trennschärfe genannt wird.

4.5.2 Schätzung der wahren Werte durch Messung der latenten Variablenausprägung

Die Schätzung wahrer Werte einzelner Personen auf latenten Variablen bzw. psychologischen Konstrukten ist eine weitere Anwendung der vorgestellten Messmodelle. Letztlich sind diese bereits einfacher Varianten einer konfirmatorischen Faktorenanalyse mit einem Faktor. Darauf aufbauend können dann auch Beziehungen/Zusammenhänge latenter Variablen untersucht werden. Lineare Strukturgleichungsmodelle integrieren quasi Messmodelle und Regressions- bzw. Pfadanalysen zu diesem Zweck. Diese Verfahren sind daher die Inhalte der Kapitel 7-8.

5 Identifiziertheit und Güte von Messmodellen

Wir haben in den letzten Kapiteln verschiedene Formen von Messmodellen eingeführt und auch bereits behandelt, wie bei empirischen Daten festgestellt werden kann, ob sie mit einem der Modelle vereinbar sind. In diesem Kapitel greifen wir das grundsätzliche Vorgehen noch einmal etwas detailierter auf und führen bereits einige Kennwerte zur Bestimmung der Modellgüte ein, also Werte die herangezogen werden können um festzustellen, ob ein Modell gut passt. Diese Grundidee und auch diese Kennwerte gelten dann auch für die im folgenden Kapitel behandelte konfimatorische Faktorenanalyse.

5.1 Identifiziertheit

Mit der Identifiziertheit eines Modells ist im Prinzip die Frage gemeint, ob genügend empirische Informationen zur Verfügung stehen, um die Modellparameter bestimmen zu können. Wir haben in den vorangegangenen Kapiteln exemplarisch gezeigt, wie Parameter aus empirischen Informationen bestimmt werden können. Ein weiterer wichtiger Aspekt betrifft aber auch das Verhältnis der Anzahl Parameter und empirischer Informationen sowie die daraus resultierenden Freiheitsgrade. Eine positive Anzahl von Freiheitsgraden ist z.B. wichtig, um den $\chi^2$-Test durchführen zu können, den wir bereits kennengelernt haben.

5.1.1 Freiheitsgrade

Berücksichtigen wir zunächst nur die Kovarianzstruktur, dann ergibt sich die Anzahl der empirischen Informationen, also die Anzahl der Varianzen und Kovarianzen, als \[\frac{m\cdot(m+1)}{2}\,,\] wenn $m$ die Anzahl der manifesten Variablen ist. Zu schätzende Parameter können hierbei dann die Diskriminationsparameter $\lambda_i$, die Varianzen der Residualvariablen $V(\varepsilon_i)$ sowie der Erwartungswert und die Varianz der latenten Variablen $\eta$ sein. Interessiert man sich auch für die Erwartungswertstruktur, dann kommen die Erwartungswerte der manifesten Variablen als Information dazu, d.h. es liegen nun \[\frac{m\cdot(m+1)}{2}+m\] Informationen vor. Allerdings müssen dann zusätzlich auch die entsprechenden Leichtigkeitsparameter (bzw. Achsenabschnitte) geschätzt werden. Wir erinnern uns aber auch daran, dass manche der Parameter ohnehin fixiert werden, sei es, dass aus theoretischen Gründen die $\lambda_i=1$ fixiert werden oder um die latente Variable zu skalieren.

Insgesamt wird ein Modell als unteridentifiziert bezeichnet, wenn es Parameter besitzt, die nicht durch Kennwerte der manifesten Variablen (Erwartungswerte, Varianzen, Kovarianzen) bestimmt werden können. Dies ist immer dann der Fall, wenn es weniger empirische Informationen als zu schätzende Parameter gibt. Das Problem ist dann, dass das resultierende Gleichungssystem mehr unbekannte Werte als Gleichungen hat und somit keine eindeutige Lösung besitzt. Ein (gerade) identifiziertes oder auch saturiertes Modell hat dieses Problem nicht und hat genau so viele Parameter wie Informationen aus den Daten zur Verfügung stehen. Bei einem überidentifizierten Modell stehen zusätzlich sogar mehr Informationen als Parameter zur Verfügung. In diesem Fall können aber nicht alle Parameter frei variieren, sondern deren Werte ergeben sich implizit aus dem Modell. Dadurch wird ein Modell dann (empirisch) testbar.

Die Freiheitsgrade des $\chi^2$-Tests ergeben sich daher als \[ df=\text{Anzahl empirischer Informationen} - \text{Anzahl zu schätzender Parameter}\,. \] Damit kann auch kurz gesagt werden:

$df<0$: Modell unteridentifiziert, nicht schätzbar
$df=0$: Modell identifiziert/saturiert, d.h. schätzbar, aber nicht testbar
$df>0$: Modell überidentifiziert, d.h. schätzbar, mit Implikationen und daher testbar

Um vor allem den Unterschied zwischen saturierten und überidentifizierten Modellen noch ein wenig verständlicher zu machen, betrachten wir zwei einfache Beispiele. Wir beginnen mit dem Fall, dass wir zwei bekannte Werte (empirische Informationen) und zwei unbekannte Werte $x$ und $y$ (Parameter) vorliegen haben (also ein “saturiertes Modell”) und sehen durch Umformungen, dass es dann eine eindeutige Lösung zur Bestimmung der Unbekannten gibt: \[\begin{align*} 3x+y &= 10\\ x+y & =5 \end{align*}\] Wir formen die zweite Gleichung nun um zu $y = 5-x$ und setzen $y$ dann in die erste Gleichung ein: \[\begin{align*} 3x+5-x&=10\\ y&=5-x \end{align*}\] Daraus ergibt sich nun schnell, dass $x=2.5$ ist. Diesen Wert können wir wiederum in die letzte Gleichung einsetzen und erhalten dann $y=2.5$.¹

Nun ergänzen wir den Fall um eine weitere Gleichung, d.h. um einen weiteren bekannten Wert, und betrachten damit die überidentifizierte Situation: \[\begin{align*} 3x+y&=10\\ x+y&=5\\ x+2y&=2 \end{align*}\] Während aus den ersten zwei Gleichungen Werte für $x$ und $y$ bestimmt werden können, implizieren diese Werte für die letzte Gleichung dann aber einen bekannten Wert von $2.5+2\cdot 2.5 = 7.5$. Damit ist diese Gleichung also falsch und es gibt keine eindeutige Lösung mehr.

Denken wir an das Kriterium der Kleinsten Quadrate zurück, können wir die Abweichung der vorliegenden (“empirischen”) von der modellimplizierten Lösung quantifizieren als \[Q=(10-10)^2+(5-5)^2+(2-7.5)^2=30.25\,.\] “Impliziert” und “testbar” meint also, dass bei überidentifizierten Modellen die Bestimmung einiger Parameter Auswirkungen (also Implikationen) hat, die nicht unbedingt mit den beobachteten Werten übereinstimmen müssen (wie hier im Fall der dritten Gleichung). Stimmen die implizierten und die beobachteten Werte aber gut überein, spricht dies für das Modell. Ist die Abweichung groß, spricht dies hingegen gegen das Modell. Die Software-Algorithmen versuchen nun i.W. die Parameter (also die Unbekannten) so zu bestimmen, dass die Abweichung zu den empirischen Werten minimal wird. Im Anschluss kann dann inferenzstatistisch gefragt werden, ob die bestehende Abweichung noch durch Zufall erklärt werden kann. Würden wir bspw. $x=2$ und $y=3$ wählen, dann wäre keine einzige der drei Gleichungen komplett korrekt, aber die Gesamtabweichung wäre in dem Fall nur noch \[Q=(10-9)^2+(5-5)^2+(2-8)^2=17\,.\] Prinzipiell können natürlich die Kleinsten Quadrate im Zuge der Parameterbestimmung minimiert werden. Häufiger wird hierfür allerdings ein Maximum Likelihood-Ansatz gewählt. Der $\chi^2$-Wert, der für den globalen Hypothesentest benötigt wird, ergibt sich dann als $\chi^2=\min(\text{Abweichungsfunktion})\cdot (n-1)$ und dieser Wert ist approximativ $\chi^2$-verteilt.

5.1.2 Beispiele

Die folgenden zwei Beispiele sollen noch einmal illustrieren, ob empirische Informationen grundsätzlich ausreichend zur Bestimmung der Modellparameter sind. Wir gehen hierbei von $\tau$-kongenerischen Modellen aus.

5.1.2.1 Beispiel 1: Zwei manifeste Variablen

Zur ersten Illustration (siehe auch das Beispiel bei Eid et al., 2010, Kap. 23) gehen wir von einem Modell mit nur zwei manifesten Variablen $Y_1$ und $Y_2$ aus. Zusätzlich kennen wir (zur Abwechslung) sowohl die Erwartungswerte \[\mathbb{E}(Y_1)=10\quad\text{und}\quad \mathbb{E}(Y_2)=10\] als auch die Kovarianzmatrix \[ \Sigma = \begin{pmatrix} 2.5 & 2.0 \\ 2.0 & 2.5 \end{pmatrix} \] auf der Populationsebene. Das Pfadmodell ist in Abbildung 5.1 dargestellt.

Abbildung 5.1: Pfadmodell zu Beispiel 1.

Zusammengefasst stehen also 5 Informationen zur Verfügung:

2 Erwartungswerte der manifesten Variablen: $\mathbb{E}(Y_1)\text{ und } \mathbb{E}(Y_2)$
2 Varianzen der manifesten Variablen: $V(Y_1)\text{ und } V(Y_2)$
1 Kovarianz der beiden manifesten Variablen: $\text{Kov}(Y_1,Y_2)$

Das Modell umfasst aber insgesamt 8 zu schätzende Parameter:

2 Leichtigkeitsparameter: $\alpha_1$ und $\alpha_2$
2 Ladungsparameter: $\lambda_1$ und $\lambda_2$
Erwartungswert, $\mathbb{E}(\eta)$, und Varianz, $V(\eta)$, der latenten Variable
2 Varianzen der Residualvariablen: $V(\varepsilon_1)$ und $V(\varepsilon_2)$

Diese Situation hatten wir weiter oben bereits als unteridentifiziert bezeichnet. Um das Problem noch einmal zu verdeutlichen, versuchen wir nun im nächsten Schritt die vorliegenden Informationen durch Modellparameter auszudrücken. Ausgangspunkt hierfür sind die beiden Modellgleichungen \[\begin{align*} Y_1 &= \lambda_1\cdot\eta + \alpha_1 + \varepsilon_1 \\ Y_2 &= \lambda_2\cdot\eta + \alpha_2 + \varepsilon_2\,. \end{align*}\] Wir beginnen damit, die Erwartungswerte zu betrachten, was uns zwei Gleichungen einbringt:

\[\begin{align*} \mathbb{E}(Y_1) &= \lambda_1 \cdot \mathbb{E}(\eta) + \alpha_1\\ \mathbb{E}(Y_2) &= \lambda_2 \cdot \mathbb{E}(\eta) + \alpha_2 \,. \end{align*}\] Für die Varianz $V(Y_1$) ergibt sich \[\begin{align*} V(Y_1) &= V(\lambda_1\cdot\eta + \alpha_1 + \varepsilon_1) \\ &= V(\lambda_1\cdot\eta) + V(\varepsilon_1)+2\cdot\underset{=0}{\underbrace{\text{Kov}(\lambda_1\cdot \eta,\varepsilon_1)}}\\ &= \lambda_1^2\cdot V(\eta) + V(\varepsilon_1) \end{align*}\] und analog wird $V(Y_2)$ bestimmt als \[V(Y_2) = \lambda_2^2\cdot V(\eta) + V(\varepsilon_2)\,.\] Ganz ähnlich kann zudem die Kovarianz beider Testwertvariablen ausgedrückt werden als \[\text{Kov}(Y_1,Y_2)=\lambda_1\cdot\lambda_2\cdot V(\eta)\,.\] Insgesamt verfügen wir also über 5 Gleichungen, eine für jede Information aus den Daten, mit 8 unbekannten Parametern. Ein solches Gleichungsystem ist nicht eindeutig lösbar; stattdessen gibt es unendlich viele Lösungen. Es handelt sich also um ein unteridentifiziertes Modell. Dies wird auch klar, wenn wir z.B. die Kovarianzstruktur betrachten und die (uns ja bekannten) Werte für die Varianzen und Kovarianzen einsetzen: \[\begin{align*} V(Y_1) &= 2.5 = \lambda_1^2\cdot V(\eta) + V(\varepsilon_1) \\ V(Y_2) &= 2.5 = \lambda_2^2\cdot V(\eta) + V(\varepsilon_2) \\ \text{Kov}(Y_1,Y_2) &= 2.0 = \lambda_1\cdot\lambda_2\cdot V(\eta) \end{align*}\] Dieses Gleichungsystem ist sowohl für \[\lambda_1=\lambda_2=1,\,V(\eta) = 2\text{ und }V(\varepsilon_1) = V(\varepsilon_2) = 0.5\] als auch z.B. für \[\lambda_1=\lambda_2=0.5,\,V(\eta) = 8\text{ und }V(\varepsilon_1) = V(\varepsilon_2) = 0.5\] wahr, und weitere Lösungen ließen sich problemlos finden. Die Identifizierbarkeit lässt sich gewährleisten, indem bestimmte Parameter festgelegt werden. Obwohl es keine “Vorschriften” dafür gibt, bieten sich manche Festlegungen mehr an, als andere. Wir könnten hier z.B. \[\lambda_1=\lambda_2=1\text{ und }\mathbb{E}(\eta)=0\] festlegen und damit würde sich für die anderen Parameter \[\alpha_1=\alpha_2=10,\,V(\eta)=2\text{ und }V(\varepsilon_1) = V(\varepsilon_2) = 0.5\] ergeben.

5.1.2.2 Beispiel 2: Drei manifeste Variablen

Eine Konsequenz der gerade dargestellten Festlegung mit gleichen Diskriminationsparametern ist aber, dass wir nun von einem essentiell $\tau$-äquivalenten Modell ausgehen würden. Erst wenn (mindestens) drei manifeste Variablen \[\begin{align*} Y_1 &= \lambda_1\cdot\eta + \alpha_1 + \varepsilon_1 \\ Y_2 &= \lambda_2\cdot\eta + \alpha_2 + \varepsilon_2\\ Y_3 &= \lambda_3\cdot\eta + \alpha_3 + \varepsilon_3\,. \end{align*}\] vorliegen, können die Ladungskoeffizienten $\lambda_i$ frei bestimmt werden, also ein Modell $\tau$-kongenerischer Variablen angenommen werden. In diesem Fall stehen als Daten 9 Informationen zur Verfügung:

3 Erwartungswerte der manifesten Variablen: $\mathbb{E}(Y_1)$, $\mathbb{E}(Y_2)$ und $\mathbb{E}(Y_3)$
3 Varianzen der manifesten Variablen: $V(Y_1)$, $V(Y_2)$ und $V(Y_3)$
3 Kovarianzen der manifesten Variablen: $\text{Kov}(Y_1,Y_2)$, $\text{Kov}(Y_1,Y_3)$ und $\text{Kov}(Y_2,Y_3)$

Das Modell umfasst aber insgesamt 11 zu schätzende Parameter:

3 Leichtigkeitsparameter: $\alpha_1$, $\alpha_2$ und $\alpha_3$
3 Ladungsparameter: $\lambda_1$, $\lambda_2$ und $\lambda_3$
Erwartungswert, $\mathbb{E}(\eta)$, und Varianz, $V(\eta)$, der latenten Variable
3 Varianzen der Residualvariablen: $V(\varepsilon_1)$, $V(\varepsilon_2)$ und $V(\varepsilon_3)$

Folglich müssen 2 Parameter festgelegt werden und eine weitere Möglichkeit hierfür (siehe auch Abschnitt 4.2) ist es, die Metrik von $\eta$ auf die von $Y_1$ festzulegen, indem \[\alpha_1=0\text{ und }\lambda_1 = 1\] gesetzt werden. Dann können die einzelnen Parameter wie folgt dargestellt werden (die vollständige Herleitung wird in dieser Ergänzung beschrieben): \[\begin{align*} V(\eta) &= \frac{\text{Kov}(Y_1,Y_2) \cdot\text{Kov}(Y_1,Y_3)}{\text{Kov}(Y_2,Y_3)} \\ \lambda_2 &= \frac{\text{Kov}(Y_2,Y_3)}{\text{Kov}(Y_1,Y_3)} \\ \lambda_3 &= \frac{\text{Kov}(Y_2,Y_3)}{\text{Kov}(Y_1,Y_2)} \\ V(\varepsilon_1) &= V(Y_1) - \frac{\text{Kov}(Y_1,Y_2) \cdot\text{Kov}(Y_1,Y_3)}{\text{Kov}(Y_2,Y_3)} \\ V(\varepsilon_2) &= V(Y_2) - \frac{\text{Kov}(Y_2,Y_3) \cdot\text{Kov}(Y_1,Y_2)}{\text{Kov}(Y_1,Y_3)} \\ V(\varepsilon_3) &= V(Y_3) - \frac{\text{Kov}(Y_1,Y_3) \cdot\text{Kov}(Y_2,Y_3)}{\text{Kov}(Y_1,Y_2)} \\ \mathbb{E}(\eta) &= \mathbb{E}(Y_1) \\ \alpha_2 &= \mathbb{E}(Y_2) - \frac{\text{Kov}(Y_2,Y_3)}{\text{Kov}(Y_1,Y_3)}\cdot \mathbb{E}(Y_1) \\ \alpha_3 &= \mathbb{E}(Y_3) - \frac{\text{Kov}(Y_2,Y_3)}{\text{Kov}(Y_1,Y_2)}\cdot \mathbb{E}(Y_1)\,. \end{align*}\]

5.2 Schätzung der Parameter und Tests des Modells

Liegt ein identifiziertes oder überidentifiziertes Modell vor, können die Parameter aus den Daten also geschätzt werden. In einem überidentifizierten Modell gibt es zudem testbare Restriktionen, die eine bestimmte Struktur der Kovarianz (sowie der Erwartungswerte) implizieren. Diese implizierten Strukturen können dann mit der empirischen Realität konfrontiert werden und die Frage kann gestellt werden, ob beide miteinander in Einklang zu bringen sind. Bleiben wir bei der Kovarianzstruktur, muss also eine Modellannahme (die Hypothese, die getestet werden soll) bestimmte Erwartungen an Varianzen und Kovarianzen manifester Variablen implizieren. Etwas genauer wird die modellimplizierte Populationsmatrix unter Einbezug der Daten und des Modells geschätzt und sie wird üblicherweise mit $\Sigma(\theta)$ bezeichnet.

Das Problem ist dann wieder ein altbekanntes: Selbst wenn die Populationskovarianzmatrix der modell-implizierten Kovarianzmatrix entspricht, werden die empirischen Kovarianzmatrizen aufgrund von Zufallseinflüssen von der modellimplizierten Kovarianzmatrix abweichen. Ganz ähnlich wie bei statistischen Signifikanztests aus Statistik 1 auch, ist die Frage die, ob diese beobachteten Abweichungen zufällig oder systematisch (etwa weil das Modell in der Population nicht gilt) zustande kommen.

Zur Schätzung der modellimplizierten Matrix wird also versucht, Parameter zu finden, die (1) die Modellrestriktionen berücksichtigen und (2) die Matrix möglichst nahe an die empirische Kovarianzmatrix kommen lassen. Der zweite Punkt bedeutet, dass eine Diskrepanz zwischen beiden Matrizen minimiert wird (vgl. auch das Kriterium der kleinsten Quadrate z.B. im Kontext der Regressionsrechnung und Kap. 2 aus Teil 1 des WPF). Dazu gibt es verschiedene Verfahren, das wichtigste davon für diesen einführenden Kontext ist aber die Maximum-Likelihood Schätzung. Die Maximum-Likelihood Methode bestimmt die Parameter so, dass die empirische Kovarianzmatrix maximal wahrscheinlich wird. Vorausgesetzt wird dabei eine multivariate Normalverteilung der Daten sowie, dass die Beobachtungen unabhängig voneinander sind. Die Maximum-Likelihood Schätzung hat den weiteren Vorteil, dass geschätzte Standardfehler und auch Konfidenzintervalle für Parameter berechnet werden können. Sind Verteilungsannahmen nicht erfüllt, kommen asympotische, verteilungsfreie Methoden (z.B. Weighted-Least-Squares Schätzung) zum Einsatz. Während auch die Maximum-Likelihood Methode bereits relativ große Stichproben voraussetzt (vgl. Eid et al., 2010, S 873ff), werden in diesen Fällen aber weitaus größere Stichproben nötig sein.

5.3 Güte der Modellanpassung

Grob gesagt gilt: Je geringer die Diskrepanz zwischen implizierter und beobachteter Kovarianzmatrix ist, desto besser ist die Güte bzw. der Modell-Fit. Zur formalen Beurteilung werden i.d.R. eine Reihe von Kennwerten herangezogen. Tatsächlich gibt es sehr viele solcher Werte, wir behandeln daher hier nur die geläufigsten Werte.

Ein erstes Maß zur Beurteilung ist die Residualmatrix, also die Differenz zwischen beobachteter und modell-implizierter Kovarianzmatrix. Bei hoher Güte der Anpassung sollten ihre Elemente klein werden. Da die absoluten Werte allerdings von Kovarianzen und Varianzen der manifesten Variablen abhängen, sollten die Residuen standardisiert werden, indem sie durch den jeweiligen Standardfehler dividiert werden. Die Resultate sind dann $z$-Werte und eine Empfehlung ist, standardisierte Residuen $<-2.58$ bzw. $>2.58$ kritisch zu betrachten. Ein Vorteil dieser Betrachtung ist, dass sich auch schlecht angepasste Varianzen bzw. Kovarianzen identifizieren lassen, was wiederum Hinweise auf schlecht spezifizierte Modellteile geben kann.

Das Root Mean Square Residual (RMR) ist die Wurzel aus dem Mittelwert der quadrierten Residuen, also der durchschnittlichen Abweichung. Da auch hier die Abhängigkeit von Varianzen und Kovarianzen gilt, ist eine Betrachtung des standardisierten Root Mean Square Residual (SRMR), basierend auf standardisierten Testwertvariablen, hilfreich. Eine Daumenregel besagt, dass Werte $>0.08$ auf Probleme hinweisen.

Wie bereits weiter oben getan, kann zur Gesamtpassung des Modells ein $\chi^2$-Test durchgeführt werden (wenn die Parameter mit entsprechenden Methoden, z.B. per Maximum-Likelihood Methode, geschätzt wurden), dessen Freiheitsgrade sich aus der Differenz der Parameter und der Informationen aus den Daten ergibt. Hier wird auch nochmal klar, dass bei einem nur identifizierten, d.h. saturierten, Modell kein solcher Test durchgeführt werden kann, da die Freiheitsgrade dann entsprechend $df=0$ wären. Die Nullhypothese des Tests ist, dass die Populationskovarianzmatrix der modellimplizierten Kovarianzmatrix entspricht, d.h. $H_0:\Sigma=\Sigma(\theta)$. Ein signifikanter Test wird dann so interpretiert, dass beide Kovarianzmatrizen nicht übereinstimmen, das Modell also eher als nicht zutreffend aufgefasst werden sollte. Hierbei ist natürlich auch die Stichprobengröße zu berücksichtigen, da bei sehr großen Stichproben auch sehr kleine Abweichungen bereits signifikant werden können. Zudem müssen die entsprechenden Verteilungsannahmen der Schätzung natürlich hinreichend zutreffen.

Der Root Mean Square Error of Approximation (RMSEA) ist ein Maß dafür, wie nahe das zu testende Modell dem wahren Modell kommt und ein Modell wird als adäquat bezeichnet, wenn der Wert $<0.05$ liegt. Computerprogramme geben hier auch Konfidenzintervalle und Signifikanztests mit aus. Die Berechnung bezieht dabei den gerade erwähnten $\chi^2$-Wert mit ein und erfolgt als \[ RMSEA=\sqrt{\max\left[\frac{\chi^2-df}{df\cdot (n-1)},0\right]}\,, \] wobei $n$ die Anzahl der Beobachtungen und $df$ die Freiheitsgrade des $\chi^2$-Tests meinen.

Schließlich können auch (konkurrierende) Modelle miteinander verglichen werden. Sind diese Modelle ineinander genested (d.h. ein Modell geht durch weitere Restriktionen aus einem anderen Modell hervor), dann können Likelihood-Ratio-Tests (LRTs) durchgeführt werden. Bei nicht-genesteten Modellen kann auf informationstheoretische Maße wie AIC, BIC oder SABIC zurückgegriffen werden (vgl. auch hier). Schließlich kann das Modell noch gegen ein Basismodell verglichen werden. Ein Beispiel für einen entsprechenden Wert ist der Comparative Fit Index (CFI), der für eine gute Modellpassung spricht, wenn er $>0.97$ ist.

6 Konfirmatorische Faktorenanalyse

In den vorherigen Kapiteln zur Klassischen Testtheorie und zu Messmodellen haben wir uns mit Situationen befasst, bei denen davon ausgegangen wurde, die Ausprägungen aller Personen auf verschiedenen manifesten Variablen seien durch eine latente Variable $\eta$ erklärbar. In anderen Worten sind wir von eindimensionalen Konstrukten ausgegangen. Insbesondere ist dann die Kovarianzstruktur ausschließlich auf $\eta$ zurückführbar, da weiter angenommen wird, dass die Messfehler der manifesten Variablen unkorreliert sind.

Wir hatten aber bereits ein kleines Beispiel erläutert, wie Korrelationen der Messfehler entstehen können und festgehalten, dass dies ein Indikator dafür wäre, dass mehr als eine latente Variable zur Erklärung der Kovarianzstruktur nötig zu sein scheint. Tatsächlich dürfte für psychologische Themenbereiche die Annahme mehrdimensionaler Modelle häufig angemessener sein.

Im Rahmen der explorativen Faktorenanalyse haben wir Methoden kennengelernt, wie die einem Datensatz zugrundeliegende Struktur exploriert werden kann. Im Ergebnis haben wir so z.B. ermittelt, wieviele Faktoren einer Kovarianzstruktur zugrundeliegen und welche manifesten Variablen sich gruppieren lassen und daher einen Faktor konstituieren. Bei der konfirmatorischen Faktorenanalyse wird nun sowohl die Anzahl der Faktoren als auch das Ladungsmuster aufgrund theoretischer Überlegungen vorab festgelegt. Im Prinzip ist das Modell $\tau$-kongenerischer Variablen bereits ein sehr einfacher Spezialfall einer konfirmatorischen Faktorenanalyse, häufiger werden aber mehrere latente Variablen sowie deren Korrelationen untereinander betrachtet. Letztlich folgt aus einem solchen Modell wiederum eine implizierte Kovarianzstruktur (weniger wichtig ist wiederum die Erwartungswertstruktur) und es wird anhand der empirischen Daten geprüft, ob diese mit dem angenommenen Modell übereinstimmen (siehe Abschnitt 5.3).

6.1 Beispiel und Daten

Wir betrachten hier das Beispiel aus Eid et al. (2010, Kap. 23) und verwenden die entsprechenden Daten, die hier heruntergeladen werden können. Der Datensatz umfasst insgesamt sechs Variablen, mit denen das habituelle emotionale Wohlbefinden von $n=203$ Personen erfasst wurde. Hohe Werte stehen hierbei für höheres Wohlbefinden. Wichtig ist, dass die ersten drei Variablen Selbstberichte der Personen sind, d.h. die Personen selber befragt wurden. Die restlichen drei Variablen hingegen sind Fremdberichte, bei denen jemand anderes (eine Freundin bzw. ein Freund) die entsprechende Person auf der gleichen Skala eingeschätzt hat.

Wir laden diese Daten nun, visualisieren die bivariaten Zusammenhänge (inkl. der entsprechenden Korrelationskoeffizienten $r$) und schauen die Kovarianzmatrix an:

################################################################################
# orientiert an Kapitel 23 Eid et al. (2010)
################################################################################
# Daten laden
data <- read.table(
  file = "./Daten_Skripts/Daten_kap23.dat",
  header = FALSE,
  sep = "\t"
)
# passende Namen geben
names(data) <- c("self_1", "self_2", "self_3", "other_1", "other_2", "other_3")

# Visualisierung
pairs.panels(data,
  lm = TRUE,
  cex.cor = 0.5,
  cex.labels = 0.8
)

# Kovarianzmatrix
S <- round(cov(data), 3)
S

##         self_1 self_2 self_3 other_1 other_2 other_3
## self_1   0.433  0.347  0.356   0.127   0.142   0.159
## self_2   0.347  0.576  0.479   0.160   0.177   0.200
## self_3   0.356  0.479  0.623   0.128   0.179   0.185
## other_1  0.127  0.160  0.128   0.528   0.426   0.445
## other_2  0.142  0.177  0.179   0.426   0.581   0.499
## other_3  0.159  0.200  0.185   0.445   0.499   0.632

Wir sehen hier, dass sowohl die drei Selbstberichtsvariablen als auch die drei Fremdberichtsvariablen untereinander korreliert sind. Gleichzeitig sind Korrelationen zwischen diesen Gruppen zwar vorhanden, sie fallen aber im Vergleich deutlich kleiner aus. Dies legt nahe (denken Sie dabei auch an die explorative Faktorenanalyse), dass es zwei latente Variablen gibt, die der Kovarianzmatrix zugrunde liegen könnten. In anderen Worten: Die Unterschiede auf den Testwertvariablen kommen nicht nur durch Messfehler zustande, sondern für jede Person gibt es (mindestens) zwei wahre Werte: einen für Selbst- und einen für Fremdberichte des emotionalen Wohlbefindens.

Wir werden diese Daten später in diesem Teil wieder aufgreifen, wenn wir sehen, wie eine konfirmatorische Faktorenanalyse praktisch durchgeführt wird.

6.2 Ein zweidimensionales Modell

Ein entsprechendes zweidimensionales Modell (mit $Y_1, Y_2$ und $Y_3$ meinen wir die Selbstberichtsvariablen und mit $Y_4, Y_5$ und $Y_6$ die Fremdberichtsvariablen) ist in Abbildung 6.1 dargestellt. Vor der formalen Darstellung sind hierbei bereits zwei Aspekte beachtenswert:

Einzeln betrachtet entspricht sowohl das Modell für die Selbstberichtsvariablen, als auch das Modell für die Fremdberichtsvariablen, dem Modell $\tau$-kongenerischer Variablen.
Die Ladungsparameter $\lambda_{ij}$ haben zwei Indizes: der erste Index $i$ steht für die Testwertvariable, der zweite Index $j$ für die latente Variable $\eta_j$. Formal gibt es auch die Ladungsparameter $\lambda_{12},\lambda_{22},\lambda_{32},\lambda_{41},\lambda_{51}$ und $\lambda_{61}$; diese sind allerdings, entsprechend unserer theoretischen Annahmen, alle gleich Null gesetzt.
Der Kreisbogen mit zwei Pfeilen an den Enden, der $\eta_1$ und $\eta_2$ verbindet, bedeutet, dass eine Korrelation beider latenter Variablen zugelassen wird. Diese Korrelation ist eine adäquatere Schätzung der Beziehung beider Merkmale als die messfehlerbehafteten, und damit reduzierten, Korrelationen der manifesten Variablen untereinander. Die Korrelation der latenten Variablen wird in einem solchen Kontext auch als konvergente Validität bezeichnet. Sie sollte hoch sein, wenn das gleiche Merkmal mit verschiedenen Methoden erfasst wird.

Abbildung 6.1: Zweidimensionales Faktorenmodell mit latenten Variablen für Selbst- und für Fremdberichte.

Diese Darstellung und Formalisierung ist vor allem dann interessant, wenn die wahren Werte und deren Zusammenhang von Interesse sind. Wir werden in Abschnit 6.4.2 auch eine alternative Formulierung betrachten.

Jede Testwertvariable $Y_i$ wird, ähnlich wie in den Messmodellen zuvor, nun additiv zerlegt und geschrieben als \[Y_i = \lambda_{i1}\cdot\eta_1+\lambda_{i2}\cdot\eta_2+ \alpha_i +\varepsilon_i\,,\] wobei eben für einige Ladungsparameter $\lambda_{ij}=0$ gilt.

6.3 Idee und Probleme einer konfirmatorischen Faktorenanalyse

6.3.1 Vorbemerkungen

In den Modellen, die wir bisher behandelt haben, wird davon ausgegangen, dass derjenige Anteil einer Testwertvariablen, der nicht durch die latente Variable $\eta$ erklärt werden kann, ausschließlich auf Messfehler zurückgeht. In Modellen der Faktorenanalyse wird häufig zusätzlich angenommen, dass es auch noch einen Anteil gibt, der auf eine variablen-spezifische Variable wahrer Werte zurückgeführt werden kann. Dieser Anteil und der entsprechende Messfehler wirken aber jeweils nur auf eine Testwertvariable, sodass beide nicht so einfach getrennt werden können. Daher wird dieser Anteil oft als Uniqueness oder auch als Residualvariable bezeichnet. Demgegenüber wird als Kommunalität derjenige Varianzanteil der manifesten Testwertvariaben bezeichnet, der auf gemeinsame Faktoren zurückgeht.

6.3.2 Zerlegung von Testwertvariablen

Allgemein gehen wir von $p$-vielen Testwertvariablen $Y_i$ und $k$-vielen Faktoren/latenten Variablen $\eta_j$ aus. Dann wird jede Testwertvariable zerlegt als \[\begin{align*} Y_i &= \lambda_{i1}\cdot\eta_1 + \ldots + \lambda_{ik}\cdot\eta_k+\alpha_i+\varepsilon_i \\ &= \left[ \sum_{j=1}^k \lambda_{ij}\cdot\eta_j\right] + \alpha_i+\varepsilon_i \quad\text{mit }j\in\{1,\ldots,k\}, i\in\{1,\ldots,p\}\,, \end{align*}\] wobei die $\varepsilon_i$ hier als Residualvariablen zu verstehen sind.

Wird weiter angenommen, dass \[\text{Kov}(\eta_j,\varepsilon_i)=0\] gilt, dann lässt sich die Varianz einer Testwertvariablen, $V(Y_i)$, in zwei Bestandteile aufteilen: \[ V(Y_i) = \underset{=(1)}{\underbrace{V\left( \sum_{j=1}^k \lambda_{ij}\cdot\eta_j \right)}} + \underset{=(2)}{\underbrace{V(\varepsilon_i)}}\,. \] Summand (1) ist dann der Teil der Varianz, der auf die Faktoren zurückgeht, während der restliche Anteil in Summand (2), die Residualvarianz, nicht auf die Faktoren zurückgeht. Nun dividieren wir beide Seiten durch $V(Y_i)$ und berechnen die Kommunalität $h^2_{Y_i}$ als \[\begin{align*} \frac{V(Y_i)}{V(Y_i)} &= \frac{V\left( \sum_{j=1}^k \lambda_{ij}\cdot\eta_j \right)}{V(Y_i)} + \frac{V(\varepsilon_i)}{V(Y_i)}\\ \Leftrightarrow 1 - \frac{V(\varepsilon_i)}{V(Y_i)} &= \frac{V\left( \sum_{j=1}^k \lambda_{ij}\cdot\eta_j \right)}{V(Y_i)}\\ &= h^2_{Y_i}\,. \end{align*}\]

6.3.3 Spezifikation und Darstellung von Modellen

Wie bereits eingangs erwähnt, ist es für eine konfirmatorische Faktorenanalyse sehr wichtig, das zu testende Modell theoriegeleitet zu formulieren. Dies umfasst z.B. die Anzahl der Faktoren und die Ladungstruktur, aber auch, ob Faktoren korrelieren dürfen und ob die Residualvarianzen verschieden oder gleich groß sein sollen.

Eine Visualisierung ist dann die pfadanalytische Darstellung, die wir weiter oben bereits eingeführt haben. Im dort repräsentierten Pfadmodell ist festgelegt, dass (1) manche Ladungsparameter $\lambda_{ij}=0$ sein sollen (da Testwertvariablen nur Bezug zu einem Faktor haben sollen), (2) die Residualvarianzen verschieden sein können und (3) die beiden Faktoren miteinander korrelieren können.

Alternativ kann das Pfadmodell auch in Form der Modellgleichungen spezifiziert werden, wobei noch einmal ersichtlich wird, dass die manifesten Testwertvariablen strukturell das Kriterium einer Regression sind: \[\begin{align*} Y_1 &= \lambda_{11}\cdot\eta_1+\alpha_1+\varepsilon_1 \\ Y_2 &= \lambda_{21}\cdot\eta_1+\alpha_2+\varepsilon_2 \\ Y_3 &= \lambda_{31}\cdot\eta_1+\alpha_3+\varepsilon_3 \\ Y_4 &= \lambda_{42}\cdot\eta_2+\alpha_4+\varepsilon_4 \\ Y_5 &= \lambda_{52}\cdot\eta_2+\alpha_5+\varepsilon_5 \\ Y_6 &= \lambda_{62}\cdot\eta_2+\alpha_6+\varepsilon_6\,. \end{align*}\] Zusätzlich müsste spezifiert werden, dass \[\text{Kov}(\varepsilon_i,\varepsilon_j)=0\quad \text{mit }i\neq j\text{ und }i,j\in\{1,\ldots,m\}\] gelten soll (im Beispiel ist $m=6$).

6.3.4 Identifizierbarkeit der Modellparameter

Wie bereits bei den Messmodellen muss sichergestellt sein, dass genügend empirische Informationen zur Bestimmung der Parameter eines Modells einer konfirmatorischen Faktorenanalyse vorliegen.

6.3.5 Schätzung der Parameter und Tests des Modells

Ist das Modell identifizierbar, werden die Parameter entsprechend berechnet bzw. geschätzt (oft mit der Maximum-Likelihood Methode) und es resultiert wiederum eine modellimplizierte Kovarianzstruktur (sowie theoretisch auch eine modellimplizierte Erwartungswertstruktur).

6.3.6 Güte der Modellanpassung

Die Modellimplikationen werden mit den empirischen Daten verglichen um festzustellen, ob das Modell mit den Daten vereinbar ist. Hier werden wiederum die Kennwerte herangezogen, die in Abschnitt 5.3 eingeführt wurden.

6.4 Konfirmatorische Faktorenanalyse mit `lavaan`

Wir greifen hier jetzt die eingangs bereits vorgestellten und geladenen Daten wieder auf und demonstrieren, wie das Modell praktisch getestet wird, d.h., wie eine konfirmatorische Faktorenanalyse durchgeführt wird.

6.4.1 Schätzung des Modells mit zwei latenten Variablen

Das Modell, wie es weiter oben in Abbildung 6.1 visualisiert wurde, besteht aus zwei Modellen $\tau$-kongenerischer Variablen und die beiden latenten Variablen $\eta_1$ und $\eta_2$ dürfen miteinander korrelieren. Das grundsätzliche Vorgehen ist nun genau, wie es bei den Messmodellen in den vorherigen Kapiteln bereits vorgestellt wurde:

model_M1 <- "
  eta1 =~ self_1 + self_2 + self_3      # Messmodell 1
  eta2 =~ other_1 + other_2 + other_3   # Messmodell 2
  eta1 ~~ eta2                          # Struktur der latenten Variablen
"

# Modell schätzen
fit_M1 <- sem(model_M1,
  data = data
)

# Ergebnisse ausgeben
summary(fit_M1,
  fit.measures = TRUE,
  standardized = TRUE
)

## lavaan 0.6-21 ended normally after 33 iterations
## 
##   Estimator                                         ML
##   Optimization method                           NLMINB
##   Number of model parameters                        13
## 
##   Number of observations                           203
## 
## Model Test User Model:
##                                                       
##   Test statistic                                 6.554
##   Degrees of freedom                                 8
##   P-value (Chi-square)                           0.585
## 
## Model Test Baseline Model:
## 
##   Test statistic                               835.662
##   Degrees of freedom                                15
##   P-value                                        0.000
## 
## User Model versus Baseline Model:
## 
##   Comparative Fit Index (CFI)                    1.000
##   Tucker-Lewis Index (TLI)                       1.003
## 
## Loglikelihood and Information Criteria:
## 
##   Loglikelihood user model (H0)               -955.319
##   Loglikelihood unrestricted model (H1)       -952.042
##                                                       
##   Akaike (AIC)                                1936.637
##   Bayesian (BIC)                              1979.709
##   Sample-size adjusted Bayesian (SABIC)       1938.522
## 
## Root Mean Square Error of Approximation:
## 
##   RMSEA                                          0.000
##   90 Percent confidence interval - lower         0.000
##   90 Percent confidence interval - upper         0.072
##   P-value H_0: RMSEA <= 0.050                    0.841
##   P-value H_0: RMSEA >= 0.080                    0.029
## 
## Standardized Root Mean Square Residual:
## 
##   SRMR                                           0.017
## 
## Parameter Estimates:
## 
##   Standard errors                             Standard
##   Information                                 Expected
##   Information saturated (h1) model          Structured
## 
## Latent Variables:
##                    Estimate  Std.Err  z-value  P(>|z|)   Std.lv  Std.all
##   eta1 =~                                                               
##     self_1            1.000                               0.508    0.774
##     self_2            1.347    0.101   13.396    0.000    0.684    0.903
##     self_3            1.370    0.103   13.263    0.000    0.696    0.884
##   eta2 =~                                                               
##     other_1           1.000                               0.614    0.847
##     other_2           1.123    0.068   16.625    0.000    0.690    0.907
##     other_3           1.174    0.070   16.658    0.000    0.721    0.909
## 
## Covariances:
##                    Estimate  Std.Err  z-value  P(>|z|)   Std.lv  Std.all
##   eta1 ~~                                                               
##     eta2              0.118    0.027    4.420    0.000    0.379    0.379
## 
## Variances:
##                    Estimate  Std.Err  z-value  P(>|z|)   Std.lv  Std.all
##    .self_1            0.173    0.021    8.412    0.000    0.173    0.401
##    .self_2            0.105    0.023    4.685    0.000    0.105    0.184
##    .self_3            0.135    0.025    5.486    0.000    0.135    0.218
##    .other_1           0.149    0.019    7.791    0.000    0.149    0.283
##    .other_2           0.103    0.018    5.639    0.000    0.103    0.177
##    .other_3           0.110    0.020    5.558    0.000    0.110    0.174
##     eta1              0.258    0.041    6.326    0.000    1.000    1.000
##     eta2              0.377    0.051    7.322    0.000    1.000    1.000

Eine graphische Darstellung der Ergebnisse als Pfaddiagramm mit den standardisierten Koeffizienten kann z.B. mit der Funktion semPaths() aus dem Paket semPlot erfolgen (siehe Abb. 6.2).

semPaths(fit_M1,
  what = "est",
  layout = "tree2",
  edge.color = "black",
  fade = FALSE,
  edge.width = 0.5,
  residuals = TRUE,
  nCharNodes = 0,
  sizeMan = 10,
  sizeLat = 10,
  edge.label.cex = 1,
  style = "lisrel"
)

Abbildung 6.2: Darstellung der Ergebnisse einer Faktorenanalyse als Pfaddiagramm.

Eine Alternative bietet die Funktion graph_sem() aus dem Paket tidySEM. Das Standardlayout weicht allerdings eher stark von der oben dargestellten Version ab, sodass ggf. eine Reihe manueller Anpassung nötig sein kann (siehe Abb. 6.3).

graph_sem(fit_M1)

Abbildung 6.3: Alternative Darstellung der Ergebnisse einer Faktorenanalyse als Pfaddiagramm.

Nun sollten wir anhand einiger Maße für die Modellgüte betrachten, ob das Modell die empirischen Daten denn auch tatsächlich gut abbildet. Dazu betrachten wir zunächst die Residualmatrix. Die Funktion lavResiduals() bietet eine ganze Reihe von Informationen, wir beschränken uns hier aber auf die standardisierte Residualmatrix (addressiert mit $cov.z) und sehen, dass es keine nennenswert großen Abweichungen gibt:

lavResiduals(fit_M1)$cov.z

##         self_1 self_2 self_3 othr_1 othr_2 othr_3
## self_1   0.000                                   
## self_2  -0.920  0.000                            
## self_3   0.336  0.714  0.000                     
## other_1  0.371  0.014 -1.614  0.000              
## other_2  0.398 -0.160 -0.175  0.630  0.000       
## other_3  0.921  0.710 -0.316 -0.054 -0.696  0.000

Die Funktion fitMeasures() liefert eine ganze Reihe verschiedenster weiterer Maße (siehe auch Abschnitt 3.3.6). Wir lassen uns hier aber nur die Werte des entsprechenden $\chi^2$-Tests sowie CFI und RMSEA ausgeben. Wir sehen, dass der $\chi^2$-Test nicht signifikant ist und auch die anderen beiden Maße Werte erzielen, die auf eine gute Passung hindeuten.

fitMeasures(fit_M1,
  fit.measures = c("chisq", "df", "pvalue", "cfi", "rmsea")
)

##  chisq     df pvalue    cfi  rmsea 
##  6.554  8.000  0.585  1.000  0.000

Insgesamt scheint das Modell also gut zu den empirischen Daten zu passen und die zugrunde liegende Struktur zu beschreiben.

6.4.2 Re-Formulierung des Modells durch einen Methodenfaktor

Wir haben bisher ein Modell betrachtet, bei dem wir zwei korrelierte latente Variablen zugelassen haben, die einmal wahre Werte bzgl. selbstberichteten emotionalen Wohlbefindens und einmal bzgl. fremdberichteten emotionalen Wohlbefindens erfassen sollen. Beide latenten Variablen wiederum wurden durch drei Testwertvariablen erfasst.

Abbildung 6.4 stellt eine zweite Modellierungsmöglichkeit dar. Zunächst wird eine latente Variable durch alle 6 manifesten Variablen indiziert, da, zu einem gewissen Teil, alle Variablen das gleiche Konstrukt messen sollen. Darüber hinaus erfassen die drei Fremdberichtsvariablen noch eine zweite latente Variable, die mit der ersten latenten Variablen nicht korreliert ist. Diese latente Variable repräsentiert nun die Abweichungen der wahren Fremdberichtswerte von den wahren Selbstberichtswerten.

Abbildung 6.4: Alternative Darstellung des Zwei-Faktoren-Modells mit einem Methodenfaktor.

Hierbei wird demnach betont, dass Fremdberichtswerte zwar zum Teil durch Selbstberichtswerte vorhergesagt werden können, Fremdberichte aber auch einen verbleibenden genuinen Teil in sich tragen, der nichts mit den Selbstberichten zu tun hat. Insofern kennzeichnet die zweite latente Variable den Methodeneffekt von Fremdberichten. Ein positiver Wert auf dieser latenten Variablen bedeutet, dass das emotionale Wohlbefinden von anderen eher überschätzt wird; ein negativer Wert deutet auf Unterschätzung hin.

Da in diesem Modell also $\text{Kov}(\eta_1,\eta_2)=0$ ist, ist die Varianz der manifesten Variablen $Y_4$, $Y_5$ und $Y_6$ in drei Bestandteile zerlegbar: \[V(Y_i)=\lambda_{i1}\cdot V(\eta_1) + \lambda_{i2}\cdot V(\eta_2) + V(\varepsilon_i)\text{ mit }i\in\{4,5,6\}\] Dividiert man alle drei Summanden durch $V(Y_i)$ ergeben sich verschiedene Interpretationen:

Die erste Komponente gibt denjenigen Anteil an der Varianz an, der durch die erste latente Variable (hier also Selbstbericht) aufgeklärt wird. Das Maß \[\text{Con}(Y_i)=\frac{\lambda_{i1}\cdot V(\eta_1)}{V(Y_i)}\] wird auch als Konsistenzkoeffizienz bezeichnet und es kennzeichnet die konvergente Validität.
Die zweite Komponente geht nur auf Unterschiede in der zweiten latenten Variable (hier also Fremdbericht) zurück. Mit \[\text{MS}(Y_i)=\frac{\lambda_{i2}\cdot V(\eta_2)}{V(Y_i)}\] ist also der methodenspezifische Varianzanteil gemeint, der durch die spezifische Erfassungsmethode aufgeklärt werden kann. Dieser Teil wird auch als Methodenspezifitätskoeffizient bezeichnet.
Schließlich erfasst \[\text{URel}(Y_i)=\frac{\varepsilon_i}{Y_i}\] die Unreliabilität der manifesten Variable $Y_i$, also den Anteil, der auf Messfehler zurückgeht. Andersherum gesagt ergibt sich die Reliabilität der manifesten Variable als \[\text{Rel}(Y_i)=\frac{\lambda_{i1}\cdot V(\eta_1) + \lambda_{i2}\cdot V(\eta_2)}{V(Y_i)}\,.\]

Welches Modell im konkreten Fall gewählt wird, hängt von der Fragestellung ab und woran jemand im Einzelfall interessiert ist. Würde es bspw. auch darum gehen zu erfahren, warum manche Personen über- und andere unterschätzt werden, dann ist die hier dargestellte zweite Variante zielführender, da sie wiederum mit anderen latenten Variablen in Beziehung gesetzt werden kann. Hierbei könnte bspw. das Kontaktverhalten erfasst und modelliert werden und mit den beiden latenten Variablen in Beziehung gesetzt werden (vgl. Eid et al., 2001, S. 855ff).

Der folgende Code formuliert und schätzt das entsprechende Modell, wobei noch explizit spezifiziert werden muss, dass die beiden latenten Variablen unkorreliert sein sollen. Im entsprechenden Pfadmodell haben wir mit layout = "tree" und rotation = 2 zur Illustration eine etwas andere Darstellung gewählt (siehe Abb. 6.5). Allerdings sehen wir auch, dass die Standardfunktionalität auch an ihre Grenzen der Darstellung kommt:²

model_M2 <- "
  eta1 =~ self_1 + self_2 + self_3 + other_1 + other_2 + other_3 # Messmodell 1
  eta2 =~ other_1 + other_2 + other_3                            # Messmodell 2

  eta1 ~~ 0*eta2                     # unkorrelierte latente Variablen
"

# Modell schätzen
fit_M2 <- sem(model_M2,
  data = data
)

# Ergebnisse ausgeben
summary(fit_M2,
  fit.measures = TRUE,
  standardized = TRUE
)

## lavaan 0.6-21 ended normally after 32 iterations
## 
##   Estimator                                         ML
##   Optimization method                           NLMINB
##   Number of model parameters                        15
## 
##   Number of observations                           203
## 
## Model Test User Model:
##                                                       
##   Test statistic                                 5.930
##   Degrees of freedom                                 6
##   P-value (Chi-square)                           0.431
## 
## Model Test Baseline Model:
## 
##   Test statistic                               835.662
##   Degrees of freedom                                15
##   P-value                                        0.000
## 
## User Model versus Baseline Model:
## 
##   Comparative Fit Index (CFI)                    1.000
##   Tucker-Lewis Index (TLI)                       1.000
## 
## Loglikelihood and Information Criteria:
## 
##   Loglikelihood user model (H0)               -955.006
##   Loglikelihood unrestricted model (H1)       -952.042
##                                                       
##   Akaike (AIC)                                1940.013
##   Bayesian (BIC)                              1989.711
##   Sample-size adjusted Bayesian (SABIC)       1942.187
## 
## Root Mean Square Error of Approximation:
## 
##   RMSEA                                          0.000
##   90 Percent confidence interval - lower         0.000
##   90 Percent confidence interval - upper         0.091
##   P-value H_0: RMSEA <= 0.050                    0.704
##   P-value H_0: RMSEA >= 0.080                    0.091
## 
## Standardized Root Mean Square Residual:
## 
##   SRMR                                           0.015
## 
## Parameter Estimates:
## 
##   Standard errors                             Standard
##   Information                                 Expected
##   Information saturated (h1) model          Structured
## 
## Latent Variables:
##                    Estimate  Std.Err  z-value  P(>|z|)   Std.lv  Std.all
##   eta1 =~                                                               
##     self_1            1.000                               0.508    0.774
##     self_2            1.345    0.100   13.393    0.000    0.683    0.903
##     self_3            1.372    0.103   13.270    0.000    0.697    0.885
##     other_1           0.426    0.104    4.095    0.000    0.216    0.298
##     other_2           0.512    0.109    4.718    0.000    0.260    0.342
##     other_3           0.559    0.113    4.942    0.000    0.284    0.358
##   eta2 =~                                                               
##     other_1           1.000                               0.576    0.795
##     other_2           1.109    0.073   15.168    0.000    0.639    0.840
##     other_3           1.148    0.076   15.157    0.000    0.661    0.834
## 
## Covariances:
##                    Estimate  Std.Err  z-value  P(>|z|)   Std.lv  Std.all
##   eta1 ~~                                                               
##     eta2              0.000                               0.000    0.000
## 
## Variances:
##                    Estimate  Std.Err  z-value  P(>|z|)   Std.lv  Std.all
##    .self_1            0.173    0.021    8.413    0.000    0.173    0.401
##    .self_2            0.106    0.022    4.725    0.000    0.106    0.185
##    .self_3            0.134    0.025    5.455    0.000    0.134    0.217
##    .other_1           0.147    0.019    7.651    0.000    0.147    0.279
##    .other_2           0.102    0.018    5.553    0.000    0.102    0.177
##    .other_3           0.111    0.020    5.615    0.000    0.111    0.177
##     eta1              0.258    0.041    6.326    0.000    1.000    1.000
##     eta2              0.332    0.047    6.995    0.000    1.000    1.000

semPaths(fit_M2,
  what = "est",
  layout = "tree",
  rotation = 2,
  edge.color = "black",
  fade = FALSE,
  edge.width = 0.5,
  residuals = TRUE,
  nCharNodes = 0,
  sizeMan = 10,
  sizeLat = 10,
  edge.label.cex = 1,
  style = "lisrel"
)

Abbildung 6.5: Darstellung der Ergebnisse der Faktorenanalyse mit einem Methodenfaktor.

7 Pfadanalyse

Die vorherigen Kapitel haben sich mit latenten Variablen befasst und behandelt, wie formalisiert werden kann, dass solche latenten Variablen, oder Faktoren, Werte auf manifesten Variablen beeinflussen und wie aus empirischen Daten Parameter entsprechender Modelle geschätzt werden können.

In diesem Kapitel betrachten wir nun die Pfadanalyse: Diese erweitert zum einen die Regressionsrechnung (einfache, lineare Regression und multiple Regression), zum anderen ist sie quasi der zweite Baustein auf dem Weg zu Linearen Strukturgleichungsmodellen.

7.1 Beispieldaten

Wir demonstrieren hier die Grundlagen der Pfadanalyse an einem Beispiel aus dem Bereich Klinische Psychologie. Etwas vereinfacht nehmen wir folgende Situation an: Es gibt einen positiven Zusammenhang zwischen Konzentrations-/Aufmerksamkeitsproblemen und Depressionssymptomen. Gleichzeitig gibt es aber auch positive Zusammenhänge beider Bereiche mit Rumination, also Grübeln, eine mitunter maladaptive Strategie der Emotionsregulation (vgl. z.B. DeJong et al., 2019). Im Datensatz rumination_data.txt (der hier heruntergeladen werden kann) liegen von $n=100$ Personen Daten auf neun Variablen vor, wobei jeweils drei Variablen zu jedem der drei Konstrukte vorliegen. Der Einfachheit halber nehmen wir hier an, es handele sich dabei um die Ergebnisse einer Selbstberichts-Fragebogenerhebung, bei der die Personen also insgesamt neun Fragen auf einer Skala von 1 (gar nicht zutreffend) bis 20 (sehr zutreffend) beantworten mussten. Höhere Werte stehen jeweils für eine höhere Ausprägung.

data <- read.table("./Daten_Skripts/rumination_data.txt",
  header = TRUE,
  sep = ","
)
head(data, n = 2) # zeigt die ersten zwei Fälle an

Da wir also nun pro Konstrukt drei Variablen haben, müssen wir diese Daten irgendwie aggregieren, um jeweils eine manifeste Variable zu erhalten, die wir dann im Rahmen einer Regression–wie wir sie bisher kennen–verwenden können. Dazu berechnen wir für alle drei Konstrukte nun den jeweiligen Mittelwert und lassen uns die Korrelationsmatrix anzeigen:

data$Depression <- (data$Depression_1 + data$Depression_2 + data$Depression_3) / 3
data$Rumination <- (data$Rumination_1 + data$Rumination_2 + data$Rumination_3) / 3
data$AufmProbleme <- (data$AufmProbleme_1 + data$AufmProbleme_2 + data$AufmProbleme_3) / 3
cor(data[10:12]) # Korrelationsmatrix der Variablen 10, 11 und 12

##              Depression Rumination AufmProbleme
## Depression    1.0000000  0.7396432    0.5055372
## Rumination    0.7396432  1.0000000    0.6174435
## AufmProbleme  0.5055372  0.6174435    1.0000000

Mit diesen Daten zeigen sich also in der Tat die oben beschriebenen Zusammenhänge. Ein naheliegendes Modell wäre eine Vorhersage der Depressionssymptome durch die beiden Variablen Rumination und Aufmerksamkeitsprobleme, d.h., je stärker Rumination oder Aufmerksamkeitsprobleme ausgeprägt sind, desto stärker sollte die Depressionssymptomatik ausgeprägt sein. Statistisch wird dieses Modell als multiple Regression getestet und kann gemäß der zu Beginn dargestellten Regeln wie im linken Teil von Abbildung 7.1 als Pfaddiagramm dargestellt werden.

Abbildung 7.1: Multiple Regression (links) versus (partielle) Mediation (rechts) als Pfadmodelle.

Wir führen zunächst die multiple Regression noch einmal mit der Funktion lm() aus, wobei wir allerdings standardisierte Koeffizienten berechnen wollen und daher die drei Variaben $z$-standardisiert in die Regression geben:

M1 <- lm(scale(Depression) ~ scale(Rumination) + scale(AufmProbleme),
  data = data
)
summary(M1) # einmal die gesamte Ausgabe

## 
## Call:
## lm(formula = scale(Depression) ~ scale(Rumination) + scale(AufmProbleme), 
##     data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1.3401 -0.5081 -0.0232  0.5508  1.3718 
## 
## Coefficients:
##                      Estimate Std. Error t value Pr(>|t|)    
## (Intercept)         1.847e-16  6.770e-02   0.000    1.000    
## scale(Rumination)   6.909e-01  8.650e-02   7.987 2.85e-12 ***
## scale(AufmProbleme) 7.895e-02  8.650e-02   0.913    0.364    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.677 on 97 degrees of freedom
## Multiple R-squared:  0.5509, Adjusted R-squared:  0.5417 
## F-statistic:  59.5 on 2 and 97 DF,  p-value: < 2.2e-16

round(coef(M1), 3) # und hier nur die drei Koeffizienten

##         (Intercept)   scale(Rumination) scale(AufmProbleme) 
##               0.000               0.691               0.079

Im Prinzip stimmt die Idee also, wir sehen aber bereits, dass der standardisierte Koeffizient für die Aufmerksamkeitsprobleme im Vergleich zu dem für Rumination eher klein ausfällt. Eine derartige Regression können wir auch mit dem Paket lavaan berechnen und uns in der entsprechenden Ausgabe die standardisierten Koeffizienten ausgeben lassen. Unter Regressions finden wir diese Koeffizienten in der letzten Spalte Std.all:

M1_lavaan <- "
   Depression ~ Rumination + AufmProbleme          # multiple Regression
"
result_M1_lavaan <- sem(M1_lavaan, # Modell schätzen
  data = data
)
summary(result_M1_lavaan, # Ergebnisse
  std = TRUE
)

## lavaan 0.6-21 ended normally after 1 iteration
## 
##   Estimator                                         ML
##   Optimization method                           NLMINB
##   Number of model parameters                         3
## 
##   Number of observations                           100
## 
## Model Test User Model:
##                                                       
##   Test statistic                                 0.000
##   Degrees of freedom                                 0
## 
## Parameter Estimates:
## 
##   Standard errors                             Standard
##   Information                                 Expected
##   Information saturated (h1) model          Structured
## 
## Regressions:
##                    Estimate  Std.Err  z-value  P(>|z|)   Std.lv  Std.all
##   Depression ~                                                          
##     Rumination        0.722    0.089    8.110    0.000    0.722    0.691
##     AufmProbleme      0.084    0.091    0.927    0.354    0.084    0.079
## 
## Variances:
##                    Estimate  Std.Err  z-value  P(>|z|)   Std.lv  Std.all
##    .Depression        6.230    0.881    7.071    0.000    6.230    0.449

Ähnlich wie im vorherigen Kapitel zur konfirmatorischen Faktorenanalyse, können wir das Ergebnis mit semPaths() auch wieder graphisch illustrieren (siehe Abb. 7.2). An den Pfaden von Rumination und Aufmerksamkeitsproblemen zu Depression(symptomatik) stehen nun die standardisierten Regressionsgewichte als Pfadkoeffizienten. Die $0.62$ an der gestrichelten Linie zwischen AufmProbleme und Rumination ist die Korrelation zwischen diesen beiden Variablen. Schließlich gibt es noch den standardisierten Messfehler von $0.45$, der ebenfalls auf das Kriterium Depression wirkt. In diesem Fall ergibt sich der Wert aus (für $R^2$ siehe die Ausgabe der lm()-Ergebnisse mit summary() weiter oben) \[1-R^2=1-0.55=0.45\,.\]

semPaths(result_M1_lavaan,
  what = "std",
  edge.color = "black",
  edge.width = 0.5,
  fade = FALSE,
  residuals = TRUE,
  layout = "tree",
  edge.label.cex = 1,
  nCharNodes = 0,
  rotation = 2,
  style = "lisrel",
  sizeMan = 20,
  sizeMan2 = 10
)

Abbildung 7.2: Ergebnisse einer multiplen Regression als Pfadmodell.

7.2 (Partielle) Mediation als Pfadanalyse

Im Rahmen der bisher betrachteten Standardregression war jede Variable immer entweder Prädiktor oder Kriterium. Gleichzeitig haben wir bisher nur für das Kriterium einen Messfehler angenommen (d.h., die nicht erklärten Residuen), wohingegen für Prädiktoren eine messfehlerfreie Messung unterstellt wurde. Die psychologische Realität ist allerdings i.d.R. komplexer.

Im rechten Teil von Abbildung 7.1 haben wir daher noch ein anderes Modell visualisiert: Es wird zunächst ein direkter Effekt von Aufmerksamkeitsproblemen auf die Depressionssymptomatik postuliert (ähnlich wie im Beispiel der multiplen Regression). Zusätzlich wird aber noch ein indirekter Effekt angenommen, der über Rumination mediiert wird: Aufmerksamkeitsprobleme führen zu Rumination und dies wiederum führt zu Depressionssymptomatik. Rumination wäre dann eine Mediatorvariable (siehe auch Baron & Kenny, 1986). Gleichzeitig ist Rumination einmal Kriterium und einmal Prädiktor, d.h. die strikte Trennung von vorher greift hier nicht mehr.

7.2.1 Variablen und deren System von Regressionsgleichungen

Abbildung 7.3 formalisiert das obige Modell (partieller) Mediation auf Populationsebene, wobei wir alle Variablen mit $Y_k$ bezeichnen. Die Pfadkoeffizienten bezeichnen wir nun mit $\beta_{jk}$, wobei $j$ für die Variable steht, zu der der Pfad geht und $k$ für die Herkunftsvariable des Pfades. Im Beispiel ist $Y_3$ die einzige Variable, die ausschließlich als “Prädiktor” dient und für die daher weiterhin Messfehlerfreiheit angenommen wird. Solche Variablen werden im Kontext von Pfadanalysen auch als exogene Variablen bezeichnet, da sie nicht vom Modell erklärt werden. Wie wir gleich sehen werden, sind die anderen beiden Variablen jeweils das “Kriterium” zweier Regressionen und daher sind die entsprechenden Messfehlereinflüsse $\varepsilon_1$ und $\varepsilon_2$ (im Sinne von Regressionsresiduen) mit eingezeichnet. Variablen die im Rahmen eines Modells erklärt werden, werden auch als endogene Variablen bezeichnet.

Abbildung 7.3: Illustration einer (partiellen) Mediation.

Wir überführen nun dieses Modell in ein System von Regressionsgleichungen, wobei jeweils für jede Variable auf die mindestens ein Pfeil zeigt, eine solche Gleichung erstellt wird, in der sie dann als Kriterium auftritt. Mit $\beta_{j0}$ ist dann der zur Variable $Y_j$ gehörende Achsenabschnitt gemeint, der in Pfadmodellen nicht visualisiert wird. Für das Beispiel gibt es also zwei Gleichungen, eine für $Y_1$ und eine für $Y_2$: \[\begin{align*} Y_2 &= \beta_{23}\cdot Y_3 + \beta_{20} + \varepsilon_2 \\ \text{und }Y_1 &= \beta_{13}\cdot Y_3 + \beta_{12} \cdot Y_2 + \beta_{10} + \varepsilon_1\,. \end{align*}\]

7.2.2 Direkte, indirekte und totale Effekte

Unter einem direkten Effekt versteht man nun den unmittelbaren Einfluss einer Variablen auf eine andere Variable, d.h. ohne, dass eine mediierende Variable dazwischensteht. In unserem Beispiel gibt es also drei direkte Effekte und dies sind diejenigen, die durch die Pfadkoeffizienten dargestellt werden. So ist bspw. $\beta_{23}$ der direkte Effekt von $Y_3$ auf $Y_2$ usw.

Ein indirekter Effekt ist folglich die Wirkung einer Variablen auf eine andere Variable, wenn dies über andere Mediatorvariablen vermittelt wird. Im Beispiel ist dies der Weg von $Y_3$ über $Y_2$ zu $Y_1$. Um dies weiter zu erläutern nehmen wir nun die Regressionsgleichung für $Y_1$ und setzen in diese für $Y_2$ die entsprechende Regressionsgleichung von oben ein: \[\begin{align*} Y_1 &= \beta_{13}\cdot Y_3 + \beta_{12} \cdot Y_2 + \beta_{10} + \varepsilon_1 \\ \Leftrightarrow Y_1 &= \beta_{13}\cdot Y_3 + \beta_{12} \cdot \underset{Y_2}{\underbrace{(\beta_{23}\cdot Y_3 + \beta_{20} + \varepsilon_2)}} + \beta_{10} + \varepsilon_1 \\ \Leftrightarrow Y_1 &= \beta_{13}\cdot Y_3 + \beta_{12} \cdot \beta_{23}\cdot Y_3 + \beta_{12} \cdot \beta_{20} + \beta_{12} \cdot \varepsilon_2 + \beta_{10} + \varepsilon_1 \\ \Leftrightarrow Y_1 &= (\beta_{12} \cdot \beta_{20} + \beta_{10}) + \underset{\text{direkt}}{\underbrace{\beta_{13}}}\cdot Y_3 + \underset{\text{indirekt}}{\underbrace{\beta_{12} \cdot \beta_{23}}}\cdot Y_3 + (\beta_{12} \cdot \varepsilon_2 + \varepsilon_1)\,. \end{align*}\] Während $\beta_{13}$ also den direkten Effekt von $Y_3$ auf $Y_1$ widerspiegelt, ist das Produkt $\beta_{12}\cdot\beta_{23}$ der indirekte Effekt von $Y_3$ auf $Y_1$. Um einen indirekten Effekt zu berechnen, werden die Pfadkoeffizienten also miteinander multipliziert.

Als totalen Effekt bezeichnet man dann noch die Gesamtheit der Effekte einer auf eine andere Variable, indem alle direkten und indirekten Effekte addiert werden. Der totale Effekt den $Y_3$ auf $Y_1$ im Beispiel hat ist also \[\beta_{13} + \beta_{12}\cdot\beta_{23}\,,\] was aus der Herleitung gerade auch hevorgeht, wenn in der letzten Zeile $Y_3$ ausgeklammert wird.

7.2.3 Berechnung des Modells mit `lavaan`

Um ein solches Modell zu berechnen und die Pfadkoeffizienten zu bestimmen, werden i.W. zunächst die beiden Regressionsgleichungen des Modells in die lavaan-Syntax umgesetzt. Danach wird das Modell mit sem() berechnet und wir schauen mit summary() die Ergebnisse an:

M2_lavaan <- "
   Depression ~ Rumination + AufmProbleme          # Y1 ~ Y2 + Y3
   Rumination ~ AufmProbleme                       # Y2 ~ Y3
"
result_M2_lavaan <- sem(M2_lavaan, # Modell schätzen
  data = data
)
summary(result_M2_lavaan, # Ergebnisse
  std = TRUE
)

## lavaan 0.6-21 ended normally after 1 iteration
## 
##   Estimator                                         ML
##   Optimization method                           NLMINB
##   Number of model parameters                         5
## 
##   Number of observations                           100
## 
## Model Test User Model:
##                                                       
##   Test statistic                                 0.000
##   Degrees of freedom                                 0
## 
## Parameter Estimates:
## 
##   Standard errors                             Standard
##   Information                                 Expected
##   Information saturated (h1) model          Structured
## 
## Regressions:
##                    Estimate  Std.Err  z-value  P(>|z|)   Std.lv  Std.all
##   Depression ~                                                          
##     Rumination        0.722    0.089    8.110    0.000    0.722    0.691
##     AufmProbleme      0.084    0.091    0.927    0.354    0.084    0.079
##   Rumination ~                                                          
##     AufmProbleme      0.629    0.080    7.849    0.000    0.629    0.617
## 
## Variances:
##                    Estimate  Std.Err  z-value  P(>|z|)   Std.lv  Std.all
##    .Depression        6.230    0.881    7.071    0.000    6.230    0.449
##    .Rumination        7.865    1.112    7.071    0.000    7.865    0.619

Zunächst sehen wir, dass die Ergebnisse der Regression von Depression auf Aufmerksamkeitsprobleme und Rumination identisch zum Ergebnis der “herkömmlichen” multiplen Regression von oben sind. Zudem erhalten wir nun auch den Pfadkoeffizienten der Regression von Rumination auf Aufmerksamkeitsprobleme, also $\beta_{23}=0.617$. Auch hier visualisieren wir das resultierende Modell mit den Effekten (siehe Abb. 7.4):

semPaths(result_M2_lavaan,
  what = "std",
  edge.color = "black",
  edge.width = 0.5,
  fade = FALSE,
  residuals = TRUE,
  layout = "tree",
  edge.label.cex = 1,
  nCharNodes = 0,
  rotation = 2,
  style = "lisrel",
  sizeMan = 20,
  sizeMan2 = 10
)

Abbildung 7.4: Ergebnisse einer Mediatoranalyse ald Pfaddiagramm.

Insgesamt ergibt sich nun folgendes Bild:

Der direkte Effekt ist mit $\beta_{13} = 0.08$ eher gering und zudem nicht signifikant von Null verschieden.
Der indirekte Effekt ist mit $\beta_{12}\cdot\beta_{23}=0.69\cdot 0.62 = 0.428$ deutlich größer und beide beteiligten Pfadkoeffizienten sind signifikant von Null verschieden.
Der totale Effekt von Aufmerksamkeitsproblemen auf Depressionsymptomatik beträgt $\beta_{13}+ \beta_{12}\cdot\beta_{23}=0.08+0.69\cdot 0.62 = 0.508$.

Wir wissen aber noch nicht, ob der indirekte Effekt an sich (oder auch der totale Effekt) statistisch signifikant geworden ist. Dazu können wir in der lavaan-Syntax die einzelnen direkten Effekte mit Labels versehen und im Anschluss die gewünschten Effekte dann direkt definieren. So werden diese Effekte mitgeschätzt (ganz ähnlich wie wir es für die Reliabilitäten in dieser Ergänzung getan haben). Das größere Problem ist, wie der entsprechende Standardfehler des indirekten Effektes geschätzt wird. Üblicherweise ist dessen Stichprobenverteilung weder symmetrisch noch normalverteilt. Dennoch basiert ein klassischer, und häufig genutzter, Vorschlag von Sobel (1982; siehe auch MacKinnon et al., 2012) darauf, den Standardfehler basierend auf den geschätzten direkten Effekten und deren Standardfehlern mit der sog. Delta-Methode zu berechnen als \[SE_{xy}=\sqrt{x^2\cdot SE_{y}^2+y^2\cdot SE_{x}^2}\,.\] Zu beachten ist, dass hierbei die nicht-standardisierten Pfadkoeffizienten verwendet werden, weswegen wir $b$ statt $\beta$ verwendet haben. Für unser Beispiel bedeutet dies also \[\begin{align*} SE_{\beta_{12}\beta_{23}} &= \sqrt{b_{12}^2\cdot SE^2_{b_{23}} + b_{23}^2\cdot SE^2_{b_{12}}} \\ &= \sqrt{0.722^2 \cdot 0.080^2 + 0.629^2 \cdot 0.089^2} \\ &= 0.080\,. \end{align*}\] Der folgende Code fügt den indirekten und den totalen Effekt in die Syntax mit ein und schätzt das Modell dann mit den Standardmethoden. Dem Output können wir dann entnehmen, dass beide Effekte auch signifikant von Null verschieden sind:

M2_lavaan <- "
   Depression ~ beta12*Rumination + beta13*AufmProbleme   # Y1 ~ Y3 + Y2
   Rumination ~ beta23*AufmProbleme                       # Y2 ~ Y3
   indirect_effect := beta12 * beta23                     # indirekter Effekt
   total_effect := beta13 + beta12 * beta23               # direkter Effekt
"
result_M2_lavaan <- sem(M2_lavaan, # Modell schätzen
  data = data
)
summary(result_M2_lavaan, # Ergebnisse
  std = TRUE
)

## lavaan 0.6-21 ended normally after 1 iteration
## 
##   Estimator                                         ML
##   Optimization method                           NLMINB
##   Number of model parameters                         5
## 
##   Number of observations                           100
## 
## Model Test User Model:
##                                                       
##   Test statistic                                 0.000
##   Degrees of freedom                                 0
## 
## Parameter Estimates:
## 
##   Standard errors                             Standard
##   Information                                 Expected
##   Information saturated (h1) model          Structured
## 
## Regressions:
##                    Estimate  Std.Err  z-value  P(>|z|)   Std.lv  Std.all
##   Depression ~                                                          
##     Rumintn (bt12)    0.722    0.089    8.110    0.000    0.722    0.691
##     AfmPrbl (bt13)    0.084    0.091    0.927    0.354    0.084    0.079
##   Rumination ~                                                          
##     AfmPrbl (bt23)    0.629    0.080    7.849    0.000    0.629    0.617
## 
## Variances:
##                    Estimate  Std.Err  z-value  P(>|z|)   Std.lv  Std.all
##    .Depression        6.230    0.881    7.071    0.000    6.230    0.449
##    .Rumination        7.865    1.112    7.071    0.000    7.865    0.619
## 
## Defined Parameters:
##                    Estimate  Std.Err  z-value  P(>|z|)   Std.lv  Std.all
##     indirect_effct    0.454    0.080    5.640    0.000    0.454    0.427
##     total_effect      0.538    0.092    5.859    0.000    0.538    0.506

Angesichts der verletzten Voraussetzungen bei der Berechnung des Standardfehlers mit der Delta-Methode, ist es heute auch möglich, die Standardfehler per Bootstrapping zu berechnen. Hierzu werden sehr viele (i.d.R. mindestens 1000) Stichproben gleicher Größe mit Zurücklegen aus der Ausgangsstichprobe gezogen und das Modell jedes Mal geschätzt. Daraus ergibt sich für die Parameter dann auch eine “empirische” Verteilung die für die Berechnung der Standardfehler (oder auch von Konfidenzintervallen) herangezogen werden kann. In der entsprechenden Syntax wird dies zur Berechnung der Standardfehler mit se = "boot" angegeben:

result_M2_lavaan_boot <- sem(M2_lavaan, # Modell schätzen
  data = data,
  se = "boot"
) # SEs per Bootstrapping berechnen

Die Berechnung kann allerdings durchaus einige Momente dauern, weshalb wir hier den Output nicht zeigen.

8 Lineare Strukturgleichungsmodelle

Die vorherigen Kapitel haben mit Messmodellen (Kapitel 3-5), der konfirmatorischen Faktorenanalyse (Kapitel 6) und der Pfadanalyse (Kapitel 7) die Grundlagen gelegt, die wir nun quasi zusammenbringen zu dem, was man lineare Strukturgleichungsmodelle nennt.

8.1 Beispieldaten

Wir benutzen in diesem Kapitel den gleichen Datensatz, den wir auch in Kapitel 7 bereits kennengelernt haben. Während wir dort allerdings aus den jeweils drei (manifesten) Variablen pro Konstrukt mit deren Mittelwert eine Pfadanalyse gerechnet haben, benutzen wir dieses Mal die manifesten Variablen zur Bildung latenter Variablen. Daher berechnen wir auch keine neuen Mittelwertvariablen, sondern laden einfach nur den Datensatz:

data <- read.table("./Daten_Skripts/rumination_data.txt",
  header = TRUE,
  sep = ","
)
head(data, n = 2) # zeigt die ersten zwei Fälle an

8.2 (Lineares) Strukturgleichungsmodell = Messmodell(e) + Strukturmodell

Der wesentliche Schritt zum linearen Strukturgleichungsmodell ist nun, dass gewissermaßen die Messmodelle der Testtheorie bzw. der konfirmatorischen Faktorenanalyse (siehe Kapitel 2-6) und Pfadanalysen (siehe Kapitel 7) miteinander kombiniert werden: Manifeste Variablen werden über Messmodelle mit latenten Variablen verknüpft und zwischen diesen latenten Variablen werden Pfadmodelle formuliert. Dieser Teil wird als Strukturmodell bezeichnet.³ Abbildung 8.1 visualisiert am Beispiel aus Kapitel 7 nun ein vollständiges Strukturgleichungsmodell. Wir bezeichnen hier die manifesten Variablen wie gewohnt mit $Y_{ij}$ und deren Messfehler mit $\varepsilon_{ij}$. Die latenten Variablen werden weiterhin mit $\eta_i$ bezeichnet; die Neuerung ist nun, dass auch für diese (zum Teil) ein Messfehler bestimmt wird, den wir mit $\zeta_i$ (“Zeta”)bezeichnen. Dieser Messfehler ist hier im regressionsanalytischen Sinne zu verstehen und meint die Abweichung der (latenten) Kriteriumswerte von den vorhergesagten (latenten) Werten.

Illustration eines linearen Strukturgleichungsmodells mit drei latenten Variablen, die durch jeweils drei manifeste Variablen formiert werden.

Abbildung 8.1: Illustration eines linearen Strukturgleichungsmodells mit drei latenten Variablen, die durch jeweils drei manifeste Variablen formiert werden.

Das gerade dargestellte Modell kann nun in (vertraute) Gleichungssysteme überführt werden. Wir beginnen mit den Gleichungen für die drei Messmodelle: \[\begin{align*} Y_{11} &= \lambda_{11}\cdot\eta_1 + \alpha_{11} + \varepsilon_{11} \\ Y_{12} &= \lambda_{12}\cdot\eta_1 + \alpha_{12} + \varepsilon_{12} \\ Y_{13} &= \lambda_{13}\cdot\eta_1 + \alpha_{13} + \varepsilon_{13} \\ Y_{21} &= \lambda_{21}\cdot\eta_2 + \alpha_{21} + \varepsilon_{21} \\ Y_{22} &= \lambda_{22}\cdot\eta_2 + \alpha_{22} + \varepsilon_{22} \\ Y_{23} &= \lambda_{23}\cdot\eta_2 + \alpha_{23} + \varepsilon_{23} \\ Y_{31} &= \lambda_{31}\cdot\eta_3 + \alpha_{31} + \varepsilon_{31} \\ Y_{32} &= \lambda_{32}\cdot\eta_3 + \alpha_{32} + \varepsilon_{32} \\ Y_{33} &= \lambda_{33}\cdot\eta_3 + \alpha_{33} + \varepsilon_{33} \\ \end{align*}\] Nun übertragen wir das pfadanalytische Modell aus Kapitel 7 auf die latenten Variablen und formulieren die Gleichungen für das Strukturmodell. Die Achsenabschnitte und Messfehler bezeichnen wir hier mit einem $\kappa_i$ (“Kappa”) bzw. $\zeta_i$ (“Zeta”): \[\begin{align*} \eta_2 &= \beta_{23}\cdot \eta_3 + \kappa_2+\zeta_2 \\ \eta_1 &= \beta_{13}\cdot \eta_3 + \beta_{12}\cdot \eta_2 + \kappa_1+\zeta_1 \\ \end{align*}\]

Der wesentliche Vorteil gegenüber einer herkömmlichen Pfadanalyse ist nun, dass die latenten Variablen, zwischen denen nun die Beziehungen formuliert werden, durch die Messmodelle eine Trennung wahrer Einflüsse und Messfehlereinflüsse erlauben. Dadurch wird die Schätzung der Pfadkoeffizienten sowie ihrer Standardfehler präziser. In der Regel führt dies auch zu größeren Effekten. Darauf aufbauend können auch verschiedene spezielle Modelle formuliert werden, die bspw. zur Veränderungsmessung bei längsschnittlichen Daten herangezogen werden können (siehe z.B. Geiser, 2011, für ein einführendes Buch).

8.3 Berechnung des Modells mit `lavaan`

Auch in der lavaan-Syntax des Modells spiegelt sich zunächst direkt wider, dass es sich um eine Kombination von Messmodellen und einem Strukturmodell, hier in der Form einer Mediationsanalyse handelt. Dazu werden zunächst die drei latenten Variablen auf Basis der jeweils drei manifesten Variablen definiert und die Pfadbeziehungen werden dann über die latenten Variablen definiert. Zusätzlich definieren wir auch direkt wieder den indirekten und den totalen Effekt, damit diese direkt bestimmt werden können. Danach lassen wir das Modell mit sem() schätzen und geben uns die (standardisierten) Ergebnisse aus:

M2_lavaan <- "
   # 3 Messmodelle
   Depression =~ Depression_1 + Depression_2 + Depression_3
   Rumination =~ Rumination_1 + Rumination_2 + Rumination_3
   AufmProbleme =~ AufmProbleme_1 + AufmProbleme_2 + AufmProbleme_3

   # Strukturmodell: Mediation
   Depression ~ beta12*Rumination + beta13*AufmProbleme
   Rumination ~ beta23*AufmProbleme

   # zusätzlich Effekte berechnen
   indirect_effect := beta12 * beta23                     # indirekter Effekt
   total_effect := beta13 + beta12 * beta23               # direkter Effekt
"

result_M2_lavaan <- sem(M2_lavaan, # Modell schätzen
  data = data
)
summary(result_M2_lavaan, # Ergebnisse
  std = TRUE
)

## lavaan 0.6-21 ended normally after 76 iterations
## 
##   Estimator                                         ML
##   Optimization method                           NLMINB
##   Number of model parameters                        21
## 
##   Number of observations                           100
## 
## Model Test User Model:
##                                                       
##   Test statistic                                23.293
##   Degrees of freedom                                24
##   P-value (Chi-square)                           0.503
## 
## Parameter Estimates:
## 
##   Standard errors                             Standard
##   Information                                 Expected
##   Information saturated (h1) model          Structured
## 
## Latent Variables:
##                    Estimate  Std.Err  z-value  P(>|z|)   Std.lv  Std.all
##   Depression =~                                                         
##     Depression_1      1.000                               3.974    0.971
##     Depression_2      0.850    0.028   30.716    0.000    3.379    0.981
##     Depression_3      0.936    0.033   28.201    0.000    3.720    0.971
##   Rumination =~                                                         
##     Rumination_1      1.000                               3.536    0.943
##     Rumination_2      0.985    0.047   20.781    0.000    3.483    0.956
##     Rumination_3      0.993    0.045   22.210    0.000    3.511    0.970
##   AufmProbleme =~                                                       
##     AufmProbleme_1    1.000                               3.274    0.947
##     AufmProbleme_2    1.081    0.065   16.602    0.000    3.537    0.913
##     AufmProbleme_3    1.043    0.060   17.314    0.000    3.413    0.925
## 
## Regressions:
##                    Estimate  Std.Err  z-value  P(>|z|)   Std.lv  Std.all
##   Depression ~                                                          
##     Rumintn (bt12)    0.807    0.107    7.531    0.000    0.718    0.718
##     AfmPrbl (bt13)    0.081    0.112    0.722    0.471    0.067    0.067
##   Rumination ~                                                          
##     AfmPrbl (bt23)    0.693    0.093    7.418    0.000    0.642    0.642
## 
## Variances:
##                    Estimate  Std.Err  z-value  P(>|z|)   Std.lv  Std.all
##    .Depression_1      0.965    0.196    4.915    0.000    0.965    0.058
##    .Depression_2      0.449    0.119    3.768    0.000    0.449    0.038
##    .Depression_3      0.832    0.171    4.877    0.000    0.832    0.057
##    .Rumination_1      1.553    0.290    5.352    0.000    1.553    0.110
##    .Rumination_2      1.152    0.243    4.746    0.000    1.152    0.087
##    .Rumination_3      0.785    0.211    3.717    0.000    0.785    0.060
##    .AufmProbleme_1    1.229    0.328    3.744    0.000    1.229    0.103
##    .AufmProbleme_2    2.512    0.487    5.163    0.000    2.512    0.167
##    .AufmProbleme_3    1.970    0.414    4.755    0.000    1.970    0.145
##    .Depression        6.612    1.047    6.316    0.000    0.419    0.419
##    .Rumination        7.357    1.222    6.021    0.000    0.588    0.588
##     AufmProbleme     10.716    1.703    6.292    0.000    1.000    1.000
## 
## Defined Parameters:
##                    Estimate  Std.Err  z-value  P(>|z|)   Std.lv  Std.all
##     indirect_effct    0.559    0.103    5.448    0.000    0.461    0.461
##     total_effect      0.640    0.111    5.793    0.000    0.527    0.527

Die Ergebnisse bestehen bekanntermaßen aus mehreren Blöcken:

Nach einigen allgemeinen Informationen zeigt das erste Ergebnis, dass der $\chi^2$-Test nicht signifikant ist, d.h. die empirische und die modellimplizierte Kovarianzmatrix sich nicht signikant voneinander unterscheiden.
Der folgende Block Latent Variables enthält dann die Schätzungen der Parameter der drei Messmodelle. Hier (und auch in den folgenden Blöcken) enthält die erste Spalte Estimate die jeweiligen unstandardsierten Schätzungen, während die standardisierten Varianten in der letzten Spalte Std.all zu finden sind.
Der nächste Teil Regressions enthält dann die Ergebnisse die das Strukturmodell betreffen und sind hier so aufgebaut wie schon im Fall der Pfadanalyse mit manifesten Variablen. Hier sehen wir, dass die beiden signifikant von Null verschiedenen Pfadkoeffizienten größer als im Fall manifester Variablen geschätzt werden. Dies liegt vor allem eben an der Trennung wahrer Werte von Messfehlern durch die Verwendung latenter Variablen.
Unter Variances sind dann Varianzschätzungen zu finden; einerseits die Messfehlervarianz einer Variablen (wenn ein . vor der Variablen steht), andererseits die Varianz der jeweiligen (exogenen) Variablen.
Schließlich erhalten wir unter Defined Parameters noch die Schätzungen (und Tests) der selbstdefinierten Parameter, in unserem Fall also des indirekten Effektes und des totalen Effektes (von Aufmerksamkeitsproblemen auf Depressionssymptomatik).

Wie schon im Kapitel 5 erwähnt, gibt es eine Reihe weiterer Maße zur Beurteilung der Modellanpassungsgüte. Eine große Zahl dieser Maße kann mit fitMeasures() angefordert werden. Mit dem Argument fit.measures = ... können wir allerdings auch spezifizieren, welche Maße wir berichtet haben wollen. Im folgenden Beispiel werden nur der Comparative Fit Index und der Root Mean Square Error of Approximation ausgegeben. Beide Werte sind entsprechend üblicher Konventionen Hinweise auf eine gute Passung des Modells zu den Daten:

fitMeasures(result_M2_lavaan,
  fit.measures = c("cfi", "rmsea")
)

##   cfi rmsea 
##     1     0

Schließlich können wir das Modell auch wieder als Pfaddiagramm visualisieren, wozu wir wieder die Funktion semPaths() nutzen (siehe Abb. 8.2):

semPaths(result_M2_lavaan,
  what = "std",
  edge.color = "black",
  edge.width = 0.5,
  fade = FALSE,
  residuals = TRUE,
  layout = "tree2",
  edge.label.cex = 1,
  nCharNodes = 0, # Variablen nicht abkürzen
  rotation = 2,
  style = "lisrel",
  sizeMan = 15, # Größe der manifesten Variablen
  sizeMan2 = 10,
  sizeLat = 12, # Größe der latenten Variablen
  sizeLat2 = 12
)

Abbildung 8.2: Visualisierung der Darstellung der Ergebnisse eines linearen Strukturgleichungsmodells.

9 Literatur

Baron, R.M. & Kenny, D.A. (1986). The moderator-mediator variable distinction in social psychological research: Conceptal, strategic, and statistical considerations. Journal of Personality and Social Psychology, 51, 1173-1182.

Bühner, M. (2021). Einführung in die Test- und Fragebogenkonstruktion. Pearson.

Burkhardt, M., Titz, J. & Sedlmeier, P. (2022). Datenanalyse mit R. Fortgeschrittene Verfahren. Pearson.

DeJong, H., Fox, E. & Stein (2019). Does rumination mediate the relationship between attentional control and sysmptoms of depression? Journal of Behavior Therapy and Experimental Psychiatry, 63, 28-35.

Eid, M., Gollwitzer, M. & Schmitt, M. (2010). Statistik und Forschungsmethoden. Beltz.

Geiser, C. (2011). Datenanalyse mit Mplus. Eine anwendungsorientierte Einführung (2. Auflage). VS Verlag.

MacKinnon, D. P., Cheong, J. & Pirlott, A. G. (2012). Statistical mediation analysis. In Cooper, H., Camic, P. M., Long, D. L., Panter, A. T., Rindskopf, D. & Sher, K. J. (Eds.) (2012). APA handbook of research methods in psychology, Vol 2: Research designs: Quantitative, qualitative, neuropsychological, and biological (pp. 313-331). American Psychological Association.

Sobel, M. E. (1982). Asymptotic confidence intervals for indirect effects in structural equation models. Sociological Methodology, 13, 290-312.

Steinmetz, H. (2015). Lineare Strukturgleichungsmodelle. Eine Einführung mit R. Rainer Hampp Verlag.

Steyer, R. & Eid, M. (2001). Messen und Testen. Springer.

Vaske, J.J., Beaman, J. & Sponarski, C.C. (2017) Rethinking internal consistency in Cronbach’s alpha, Leisure Sciences, 39, 163-173.

Dieses Beispiel ist dem Buch von Bühner (2021, S.482) entnommen. Fälschlicherweise wird dort $y=2$ als Lösung angegeben.↩︎
Es gäbe noch weitergehende Möglichkeiten, dass Layout selber zu bestimmen; in der Praxis generieren viele Personen ihre Pfadmodelle am Ende mit Powerpoint o.ä.↩︎
Werden keine expliziten Pfade mit Richtungen vorgegeben, sondern dürfen alle latenten Variablen miteinander kovariieren, wird manchmal auch von einem Faktorenmodell gesprochen.↩︎

Wahlpflichtfach “Kognitions- und Klinisch-Psychologische Forschungsmethoden” Wintersemester 2025/2026

Teil 2: Einführung in die Mess- und Strukturmodellierung

Markus Janczyk und Valentin Koob

AG Psychologische Forschungsmethoden und Kognitive Psychologie

Institut für Psychologie, Universität Bremen