La struttura delle medie

40. La struttura delle medie#

source("../_common.R")

40.1. L’impiego delle Medie nei Modelli di Equazioni Strutturali (SEM)#

Nei modelli di equazioni strutturali (SEM), simili all’analisi fattoriale, esaminiamo principalmente le relazioni di covarianza tra le variabili. Una caratteristica distintiva dei modelli SEM rispetto all’analisi fattoriale tradizionale è la possibilità di includere le medie sia delle variabili osservate che di quelle latenti. Questo è particolarmente utile in modelli come quelli di analisi fattoriale confermativa (CFA) longitudinale, dove le ipotesi si concentrano sulle medie dei costrutti analizzati.

40.1.1. Interpretazione delle Intercette nei Modelli SEM#

In un modello SEM, l’intercetta di una variabile indicatore (denotata con \( \tau \)) indica la media stimata di quella variabile. Il valore di \( \tau \) rappresenta il valore atteso dell’indicatore quando il fattore latente a cui è associato è zero. La relazione generale per un indicatore \( y \) in un modello SEM è data dalla formula:

\[ y = \tau + \lambda \cdot \text{fattore latente} + \varepsilon, \]

dove:

\( y \) è il punteggio osservato dell’indicatore.
\( \lambda \) rappresenta il carico fattoriale, che indica quanto fortemente l’indicatore è influenzato dal fattore latente.
\( \tau \) è l’intercetta, cioè la media stimata dell’indicatore.
\( \varepsilon \) è l’errore di misura associato all’indicatore.

40.1.2. Struttura delle Medie nel Modello CFA#

Nel contesto di un modello CFA, la struttura delle medie è descritta dalla formula:

\[ \text{media(variabile latente)} = \Lambda \mu_{\text{lat}} + \tau, \]

qui:

\( \Lambda \) è la matrice dei carichi fattoriali.
\( \mu_{\text{lat}} \) è il vettore che rappresenta le medie dei costrutti latenti.
\( \tau \) è il vettore delle intercette degli indicatori.

40.1.3. Utilizzo delle Medie nel Software `lavaan`#

Nel software lavaan, utilizzato per l’analisi SEM, è possibile stimare le intercette inserendo l’opzione meanstructure = TRUE nella sintassi del modello. Questo comando permette di includere automaticamente una costante “1” in tutte le equazioni del modello, facilitando così il calcolo delle intercette per le variabili endogene. È necessario fornire i dati originali o una matrice di covarianza, insieme alle medie di tutte le variabili interessate.

40.2. Un Esempio Pratico#

Utilizziamo il dataset HolzingerSwineford1939 per costruire un modello di misurazione con tre costrutti latenti (visual, textual, speed), ciascuno definito da tre indicatori (x1, x2, x3, ecc.).

data(HolzingerSwineford1939)
glimpse(HolzingerSwineford1939)

Rows: 301
Columns: 15
$ id     <int> 1, 2, 3, 4, 5, 6, 7, 8, 9, 11, 12, 13, 14, 15, 16, 17, 18, 19, …
$ sex    <int> 1, 2, 2, 1, 2, 2, 1, 2, 2, 2, 1, 1, 2, 2, 1, 2, 2, 1, 2, 2, 1, …
$ ageyr  <int> 13, 13, 13, 13, 12, 14, 12, 12, 13, 12, 12, 12, 12, 12, 12, 12,…
$ agemo  <int> 1, 7, 1, 2, 2, 1, 1, 2, 0, 5, 2, 11, 7, 8, 6, 1, 11, 5, 8, 3, 1…
$ school <fct> Pasteur, Pasteur, Pasteur, Pasteur, Pasteur, Pasteur, Pasteur, …
$ grade  <int> 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, …
$ x1     <dbl> 3.333333, 5.333333, 4.500000, 5.333333, 4.833333, 5.333333, 2.8…
$ x2     <dbl> 7.75, 5.25, 5.25, 7.75, 4.75, 5.00, 6.00, 6.25, 5.75, 5.25, 5.7…
$ x3     <dbl> 0.375, 2.125, 1.875, 3.000, 0.875, 2.250, 1.000, 1.875, 1.500, …
$ x4     <dbl> 2.333333, 1.666667, 1.000000, 2.666667, 2.666667, 1.000000, 3.3…
$ x5     <dbl> 5.75, 3.00, 1.75, 4.50, 4.00, 3.00, 6.00, 4.25, 5.75, 5.00, 3.5…
$ x6     <dbl> 1.2857143, 1.2857143, 0.4285714, 2.4285714, 2.5714286, 0.857142…
$ x7     <dbl> 3.391304, 3.782609, 3.260870, 3.000000, 3.695652, 4.347826, 4.6…
$ x8     <dbl> 5.75, 6.25, 3.90, 5.30, 6.30, 6.65, 6.20, 5.15, 4.65, 4.55, 5.7…
$ x9     <dbl> 6.361111, 7.916667, 4.416667, 4.861111, 5.916667, 7.500000, 4.8…

hs_model <- "
    visual =~ NA*x1 + x2 + x3
    textual =~ NA*x4 + x5 + x6
    speed =~ NA*x7 + x8 + x9

    visual ~~ 1*visual
    textual ~~ 1 * textual
    speed ~~ 1 * speed
"

Utilizziamo l’argomento meanstructure = TRUE per richiedere la stima delle intercette degli indicatori \( \tau \).

Ogni costrutto latente è definito in relazione ai suoi indicatori, dove le intercette degli indicatori (\(\tau\)) non sono fissate a priori, ma stimate dal modello.
Le varianze dei costrutti latenti sono fissate a 1, mentre le loro medie sono fissate a 0 (come evidenziato dall’output, righe 34-36).
Nel caso presente, poiché le medie dei costrutti latenti sono fissate a zero, la media predetta per gli indicatori corrisponde alle intercette stimate.

fit <- cfa(hs_model,
    data = HolzingerSwineford1939,
    meanstructure = TRUE
)

params <- parameterEstimates(fit)
print(params)

       lhs op     rhs   est    se      z pvalue ci.lower ci.upper
 visual =~      x1 0.900 0.081 11.128      0    0.741    1.058
 visual =~      x2 0.498 0.077  6.429      0    0.346    0.650
 visual =~      x3 0.656 0.074  8.817      0    0.510    0.802
textual =~      x4 0.990 0.057 17.474      0    0.879    1.101
textual =~      x5 1.102 0.063 17.576      0    0.979    1.224
textual =~      x6 0.917 0.054 17.082      0    0.811    1.022
  speed =~      x7 0.619 0.070  8.903      0    0.483    0.756
  speed =~      x8 0.731 0.066 11.090      0    0.602    0.860
  speed =~      x9 0.670 0.065 10.305      0    0.543    0.797
visual ~~  visual 1.000 0.000     NA     NA    1.000    1.000
textual ~~ textual 1.000 0.000     NA     NA    1.000    1.000
 speed ~~   speed 1.000 0.000     NA     NA    1.000    1.000
    x1 ~~      x1 0.549 0.114  4.833      0    0.326    0.772
    x2 ~~      x2 1.134 0.102 11.146      0    0.934    1.333
    x3 ~~      x3 0.844 0.091  9.317      0    0.667    1.022
    x4 ~~      x4 0.371 0.048  7.779      0    0.278    0.465
    x5 ~~      x5 0.446 0.058  7.642      0    0.332    0.561
    x6 ~~      x6 0.356 0.043  8.277      0    0.272    0.441
    x7 ~~      x7 0.799 0.081  9.823      0    0.640    0.959
    x8 ~~      x8 0.488 0.074  6.573      0    0.342    0.633
    x9 ~~      x9 0.566 0.071  8.003      0    0.427    0.705
visual ~~ textual 0.459 0.064  7.189      0    0.334    0.584
visual ~~   speed 0.471 0.073  6.461      0    0.328    0.613
textual ~~   speed 0.283 0.069  4.117      0    0.148    0.418
    x1 ~1         4.936 0.067 73.473      0    4.804    5.067
    x2 ~1         6.088 0.068 89.855      0    5.955    6.221
    x3 ~1         2.250 0.065 34.579      0    2.123    2.378
    x4 ~1         3.061 0.067 45.694      0    2.930    3.192
    x5 ~1         4.341 0.074 58.452      0    4.195    4.486
    x6 ~1         2.186 0.063 34.667      0    2.062    2.309
    x7 ~1         4.186 0.063 66.766      0    4.063    4.309
    x8 ~1         5.527 0.058 94.854      0    5.413    5.641
    x9 ~1         5.374 0.058 92.546      0    5.260    5.488
visual ~1         0.000 0.000     NA     NA    0.000    0.000
textual ~1         0.000 0.000     NA     NA    0.000    0.000
 speed ~1         0.000 0.000     NA     NA    0.000    0.000

40.2.1. Interpretazione delle Medie Stimate#

La media dei punteggi osservati per gli indicatori (x1, x2, x3, ecc.) viene calcolata attraverso le intercette stimate dal modello. È fondamentale distinguere tra la media empirica, calcolata direttamente dai dati, e la media predetta dal modello. La media predetta degli indicatori in un modello dove la media dei costrutti latenti è fissata a zero è influenzata esclusivamente dalle loro intercette.

40.2.2. Calcolo delle Medie Osservate e Predette in R#

Consideriamo gli indicatori x1, x2, x3. Per calcolare la media osservata di questi indicatori, usiamo le loro intercette stimate.

intercepts <- params$est[params$op == "~1"][1:9] # Intercette degli indicatori (τ)

Questo ci fornisce le intercette degli indicatori:

intercepts |> print()

[1] 4.935770 6.088040 2.250415 3.060908 4.340532 2.185572 4.185902 5.527076
[9] 5.374123

Per ottenere la media osservata dei punteggi di x1, x2, x3, calcoliamo la media aritmetica delle loro intercette:

 mean_observed_scores <- mean(intercepts[1:3])
 print(mean_observed_scores)

[1] 4.424742

Questo valore rappresenta la media osservata calcolata come la media aritmetica delle intercette di x1, x2, x3. Nel contesto del nostro modello CFA, dove la media dei costrutti latenti è fissata a zero, la media predetta degli indicatori corrisponde alla media osservata:

mean((HolzingerSwineford1939$x1 + HolzingerSwineford1939$x2 + HolzingerSwineford1939$x3) / 3) 

4.42474160196013

mean_predicted_scores <- mean_observed_scores
print(mean_predicted_scores)

[1] 4.424742

40.2.3. Medie di Costrutti Latenti Non Zero#

In situazioni in cui le medie dei costrutti latenti non sono fissate a zero, la media predetta degli indicatori è influenzata sia dalle intercette sia dai carichi fattoriali. Per esempio, se la media del costrutto latente fosse diversa da zero, l’equazione per calcolare la media di un indicatore (come x1) includerebbe il contributo del costrutto latente:

\[ \text{media predetta}(x1) = \mu_{\text{latente}} \cdot \lambda_{x1} + \tau_{x1}, \]