22. Indici di bontà dell’adattamento#
I passi principali nella CFA e nei modelli SEM comprendono la specificazione del modello, la stima dei parametri, la valutazione del modello e dei parametri e la modificazione del modello. Questa sequenza può essere ripetuta molte volte fino a quando non si trovi un modello considerato accettabile. La valutazione del modello viene eseguita calcolando vari indici di bontà dell’adattamento. In questo Capitolo considereremo i principali indici di bontà dell’adattamento utilizzati nella letteratura.
22.1. Stima del modello#
L’obiettivo della CFA è ottenere stime per i parametro del modello (vale a dire, saturazioni fattoriali, varianze e covarianze fattoriali, varianze residue ed eventualmente covarianze degli errori) che sono in grado di produrre una matrice di covarianza prevista (denotata da \(\boldsymbol{\Sigma}\)) la quale è il più possibile simile alla matrice di covarianze campionarie (denotata da \(\boldsymbol{S}\)). Questo processo di stima è basato sulla minimizzazione di una funzione che descrive la differenza tra \(\boldsymbol{\Sigma}\) e \(\boldsymbol{S}\). Il metodo di stima più utilizzato nella CFA (e, in generale, nei modelli SEM) è la massima verosimiglianza (ML).
22.2. Massima verosimiglianza#
L’equazione fondamentale dell’analisi fattoriale è
dove \(\boldsymbol{y}\) è un vettore di \(p\) componenti (i punteggi osservati nel del test), \(\boldsymbol{x}\) è un vettore di \(k < p\) componenti (i punteggi fattoriali), \(\boldsymbol{\Lambda}\) è una \(p \cdot k\) matrice (di saturazioni fattoriali), e \(\boldsymbol{z}\) è un vettore di \(p\) componenti (la componenti dei punteggi del test non dovute all’effetto causale delle variabili comuni latenti). Per l’item \(i\)-esimo, in precedenza abbiamo scritto l’equazione precedente come
Dalle assunzioni del modello fattoriale deriva che
dove \(\boldsymbol{\Phi}\) è la matrice delle inter-correlazioni fattoriali.
Si assume che il vettore casuale \(\boldsymbol{y}\) abbia una distribuzione normale multivariata con matrice di covarianza \(\boldsymbol{\Sigma}\) e che da tale distribuzione sia stato estratto un campione casuale di \(n\) osservazioni \(y_l, y_2, \dots, y_n\). Il logaritmo della funzione di verosimiglianza per il campione è dato da
L’equazione precedente viene vista come funzione di \(\Lambda\) e \(\Psi\). Anziché massimizzare \(\log L\), è equivalente e più conveniente minimizzare
dove \(|\boldsymbol{S}|\) è il determinante della matrice di covarianza tra le variabili osservate, \(|\boldsymbol{\Sigma}|\) è il determinante della matrice di covarianza prevista e \(p\) è il numero di indicatori.
L’obiettivo della stima di massima verosimiglianza della CFA è trovare le stime dei parametri che rendono più verosimili i dati osservati (o, al contrario, massimizzano la verosimiglianza dei parametri dati i dati). Le stime dei parametri in un modello CFA si ottengono con una procedura iterativa. Cioè, l’algoritmo inizia con una serie iniziale di stime dei parametri (denominate valori iniziali o stime iniziali, che possono essere generate automaticamente dal software o specificate dall’utente) e raffina ripetutamente queste stime nel tentativo di minimizzare la differenza tra \(\boldsymbol{\Sigma}\) e \(\boldsymbol{S}\). Il programma effettua controlli interni per valutare i suoi progressi nell’ottenere stime dei parametri che al meglio riproducono \(\boldsymbol{S}\). Si raggiunge la convergenza quando l’algoritmo produce una serie di stime dei parametri che non possono essere ulteriormente migliorate per ridurre la differenza tra \(\boldsymbol{\Sigma}\) e \(\boldsymbol{S}\).
22.3. Identificabilità del modello#
Un modello CFA deve essere formulato in modo tale da garantire la risolvibilità matematica dello stesso, ovvero deve essere tale da consentire una stima univoca dei parametri del modello. Detto in altre parole, la specificazione del modello ne deve garantire l’dentificabilità.
Il problema dell’identificazione richiede, innanzitutto, di chiarire il concetto di gradi di libertà (degrees of freedom). Nel presente contesto, per gradi di libertà (\(dof\)) intendiamo
I dati che vengono analizzati da un modello CFA sono contenuti in una matrice di covarianza. Per una matrice di covarianza di ordine \(p\), il numero di unità di informazione è
Affinché il modello sia identificabile, devono essere soddisfatte le seguenti condizioni.
Indipendentemente dalla complessità del modello (ad es. modelli ad un fattore rispetto a più fattori), l’unità di misura delle variabili latenti deve essere specificata (di solito fissandola a un valore di 1);
Indipendentemente dalla complessità del modello, il numero di unità di informazione (es. la matrice di covarianza degli indicatori) deve essere uguale o superiore al numero di parametri da stimare (es. saturazioni fattoriali, specificità, covarianze degli errori dell’indicatore, covarianze tra i fattori);
Nel caso di modelli ad un fattore è richiesto un minimo di tre indicatori. Quando vengono utilizzati tre indicatori, la soluzione a un fattore si dice “appena identificata” (just-identified); in tali condizioni non è possibile valutare la bontà dell’adattamento.
Nel caso di modelli a due o più fattori e due indicatori per costrutto latente, la soluzione è sovraidentificata, a condizione che ogni variabile latente sia correlata con almeno un’altra variabile latente e gli errori tra gli indicatori siano tra loro incorrelati. Tuttavia, poiché tali soluzioni sono suscettibili di scarsa identificazione empirica, viene raccomandato un minimo di tre indicatori per variabile latente.
In conclusione, una semplice e necessaria condizione per l’identificazione di un modello CFA è che vi siano più unità di informazione che parametri da stimare. Dunque, abbiamo che:
se \(dof < 0\), il modello non è identificato e, in questo caso, non è possibile stimare i parametri;
se \(dof = 0\), il modello è appena identificato o “saturo”; in questo caso, la matrice di covarianza riprodotta coincide con la matrice di covarianza delle variabili osservate e, di conseguenza, non esiste un residuo attraverso cui valutare la bontà dell’adattamento del modello;
se \(dof > 0\), il modello è sovra-identificato ed esistono le condizioni per valutare la bontà dell’adattamento.
Le considerazioni precedenti ci fanno capire perché non si può fare un’analisi fattoriale con solo due indicatori e un fattore; in tali circostanze, infatti, ci sono \((2 \cdot 3)/2 = 3\) gradi di libertà, ma 4 parametri da stimare (due saturazioni fattoriali e due specificità). Il caso di tre item e un fattore definisce un modello “appena identificato”, ovvero, il caso in cui ci sono zero gradi di libertà. In tali circostanze è possibile stimare i parametri (ricordiamo il metodo dell’annullamento della tetrade), ma non è possibile un test di bontà dell’adattamento. Questo vuol dire, in pratica, che per un modello ad un solo fattore comune latente è necessario disporre di almeno quattro indicatori.
22.4. Bontà dell’adattamento#
22.4.1. Chi quadrato#
L’indice classico di bontà dell’adattamento dei modelli CFA è il \(\chi^2\). Sotto determinate condizioni, la funzione di discrepanza \(F_{k}(\boldsymbol{\Sigma}, \boldsymbol{S})\) moltiplicata per \(n\) o \(n-1\) (a seconda dei software)
con \(n\) uguale alla numerosità campionaria, si distribuisce come una \(\chi^2\) con gradi di libertà pari a
dove \(p\) è il numero di item (variabili osservate) e \(t\) è il numero di parametri da stimare.
Sebbene l’indice \(\chi^2\) sia stato il primo indice di adattamento ad essere sviluppato, esso è raramente usato nella ricerca applicata quale unico indice di adattamento del modello. Infatti,
in molti casi (es. \(n\) piccolo, oppure dati non normali) la distribuzione sottostante non è \(\chi^2\) (il che compromette i test di significatività statistica del modello basati su \(\chi^2\));
\(\chi^2\) dipende fortemente dalla dimensione del campione; soluzioni fattoriali per grandi campioni vengono regolarmente rifiutate sulla base di \(\chi^2\) anche quando le differenze tra \(\boldsymbol{\Sigma}\) e \(\boldsymbol{S}\) sono trascurabili;
\(\chi^2\) si basa sull’ipotesi molto stringente \(\boldsymbol{\Sigma} = \boldsymbol{S}\). Come discusso di seguito, molti indici di adattamento alternativi si basano su standard meno stringenti come l’adattamento “ragionevole” e l’adattamento relativo a un modello di indipendenza.
Nonostante questi limiti, la statistica \(\chi^2\) viene comunque utilizzata per altri scopi, come il confronto di modelli nidificati, il calcolo di altri indici di adattamento (ad es. l’indice di Tucker–Lewis) e il calcolo del rapporto tra \(\chi^2\) e gradi di libertà.
Sebbene la statistica \(\chi^2\) sia riportata di routine nell’output dei software che svolgono la CFA, nella valutazione dell’adattamento del modello si fa solitamente affidamento su altri indici di adattamento. Tali indici possono essere suddivisi in tre categorie:
misure di adeguamento per il confronto – permettono di confrontare fra loro due o più modelli al fine di potere scegliere il modello (statisticamente) migliore;
misure di adeguamento parsimonioso – indici “aggiustati” in base ai gradi di libertà.
misure di adeguamento assoluto – indicano l’abilità del modello di riprodurre i dati osservati;
22.5. Misure di adeguamento per il confronto#
22.5.1. CFI#
Gli indici di adattamento comparativo [detti anche indici di adattamento incrementale; ad es. Hu and Bentler [HB98]] valutano l’adattamento di una soluzione specificata dall’utente in relazione a un modello di base nidificato più ristretto. Tipicamente, il modello base è un modello “nullo” o “di indipendenza” in cui le covarianze tra tutti gli indicatori di input sono fissate a zero, ma nessun vincolo viene posto sulle varianze degli indicatori.
Uno di questi indici, l’indice di adattamento comparativo (comparative fit index, CFI; Bentler, 1990), è calcolato come segue. Sia \(\delta = \chi^2 - dof\), dove \(dof\) sono i gradi di libertà di un particolare modello. Tanto più \(\delta\) è prossimo allo zero tanto maggiore è la bontà dell’adattamento. La formula di CFI è
dove il pedice \(T\) denota il modello target (cioè il modello in valutazione) e il pedice \(B\) denota il modello baseline (cioè il modello “nullo”).
22.6. Misure di adeguamento parsimonioso#
22.6.1. TLI#
Un indice che rientra nella degli indici di adeguamento parsimonioso è l’indice Tucker-Lewis (Tucker–Lewis index, TLI, anche chiamato indice di adattamento non normato). Il TLI si pone il problema di penalizzare la complessità del modello, ovvero include una funzione di penalizzazione per l’addizione di parametri che non migliorano in maniera sostanziale l’adattamento del modello. Il TLI è calcolato con la seguente formula:
dove \(\chi^2_T\) è il valore \(\chi^2\) del modello target, \(dof_T\) sono i gradi di libertà del modello target, \(\chi^2_B\) è il valore \(\chi^2\) del modello baseline e \(dof_B\) sono i gradi di libertà del modello base.
22.7. Misure di adeguamento assoluto#
22.7.1. RMSEA#
L’errore quadratico medio di approssimazione è una misura assoluta dell’adattamento perché non confronta la discrepanza del modello target rispetto a un modello di base, come CFI o TLI. Invece, RMSEA utilizza \(\delta\) come parametro che misura il grado di errata specificazione del modello. Ricordiamo dalla discussione sull’indice CFI che \(\delta = \chi^2 - df\), dove \(df\) sono i gradi di libertà del modello. Tanto maggiore è \(\delta\) tanto più grande è la mancanza di adattamento del modello ai dati. L’indice RMSEA si ottiene nel modo seguente:
dove \(n\) corrisponde alla numerosità campionaria.
L’indice RMSEA fornisce una stima dell’errore di approssimazione che si commette quando la matrice delle correlazioni (o covarianze) osservate viene riprodotta tramite la matrice ricavata dalle saturazioni fattoriali. Questo indice rappresenta una stima della bontà di adattamento del modello nella popolazione, ponderata per i gradi di liberà e quindi è una misura che tiene in considerazione la parsimonia del modello.
22.7.2. RMRS#
L’indice RMRS viene definito come la radice quadrata della media dei residui al quadrato. L’indice RMRS rappresenta la correlazione residua media, cioè non spiegata dal modello, ed è ricavabile con la seguente formula:
dove \(p\) è il numero di item, e \(r_{ij}\) e \(\hat{r}_{ij}\) sono rispettivamente la correlazione osservata e la correlazione riprodotta tra le variabili \(i\) e \(j\).
22.7.3. Interpretazione#
Un valore RMSEA < .05 indica un “close fit” e quello < .08 suggerisce un ragionevole adattamento modello-dati. Bentler e Bonett (1980) raccomandano TLI > .90 per un adattamento accettabile.
L’interpretazione degli indici di bontà di adattamento trovati nella CFA o nella modellazione di equazioni strutturali può essere ottenuta usando le funzioni del pacchetto effectsize
. Ad esempio (dal manuale):
structure <- " ind60 =~ x1 + x2 + x3
dem60 =~ y1 + y2 + y3
dem60 ~~ ind60 "
fit <- lavaan::sem(structure, data = lavaan::PoliticalDemocracy)
effectsize::interpret(fit)
Name | Value | Threshold | Interpretation |
---|---|---|---|
<chr> | <dbl> | <dbl> | <effctsz_> |
GFI | 0.96664121 | 0.95 | satisfactory |
AGFI | 0.91243318 | 0.90 | satisfactory |
NFI | 0.97486324 | 0.90 | satisfactory |
NNFI | 1.00010307 | 0.90 | satisfactory |
CFI | 1.00000000 | 0.90 | satisfactory |
RMSEA | 0.00000000 | 0.05 | satisfactory |
SRMR | 0.02726216 | 0.08 | satisfactory |
RFI | 0.95286858 | 0.90 | satisfactory |
PNFI | 0.51992706 | 0.50 | satisfactory |
IFI | 1.00005373 | 0.90 | satisfactory |
22.8. Un esempio concreto#
Consideriamo nuovamente i dati discussi da Brown [Bro15] relativi al modello di misurazione per la depressione maggiore così come è definita nel DSM-IV. Ignoriamo qui le differenze di genere – si veda il Capitolo Invarianza di misura.
Leggiamo i dati in \(\mathsf{R}\):
d <- readRDS(
here::here("data", "mdd_sex.RDS")
)
Consideriamo il seguente modello:
model_mdd <- "
MDD =~ mdd1 + mdd2 + mdd3 + mdd4 + mdd5 + mdd6 + mdd7 + mdd8 + mdd9
"
Adattiamo il modello ai dati.
fit <- cfa(
model_mdd,
data = d
)
Esaminiamo gli indici di bontà di adattamento.
effectsize::interpret(fit)
Name | Value | Threshold | Interpretation |
---|---|---|---|
<chr> | <dbl> | <dbl> | <effctsz_> |
GFI | 0.96402909 | 0.95 | satisfactory |
AGFI | 0.94004848 | 0.90 | satisfactory |
NFI | 0.91501936 | 0.90 | satisfactory |
NNFI | 0.91199406 | 0.90 | satisfactory |
CFI | 0.93399554 | 0.90 | satisfactory |
RMSEA | 0.06412658 | 0.05 | poor |
SRMR | 0.04448302 | 0.08 | satisfactory |
RFI | 0.88669248 | 0.90 | poor |
PNFI | 0.68626452 | 0.50 | satisfactory |
IFI | 0.93446306 | 0.90 | satisfactory |
Il rapporto \(\chi^2 / df\) è adeguato.
110.272 / 27
Gli indici Comparative Fit Index (CFI) = 0.934 e Tucker-Lewis Index (TLI) = 0.912 sono superiori a 0.9, dunque sono almeno sufficienti per gli standard correnti. L’indice RMSEA = 0.064 è appena superiore alla soglia di 0.06. L’indice SRMR = 0.044 è inferiore alla soglia 0.05. Dunque, complessivamente, il modello sembra adeguato.
Adattiamo ora il modello con la modifica proposta da Brown [Bro15], ovvero
model2_mdd <- "
MDD =~ mdd1 + mdd2 + mdd3 + mdd4 + mdd5 + mdd6 + mdd7 + mdd8 + mdd9
mdd1 ~~ mdd2
"
fit2 <- cfa(
model2_mdd,
data = d
)
Esaminiamo gli indici di bontà di adattamento.
effectsize::interpret(fit2)
Name | Value | Threshold | Interpretation |
---|---|---|---|
<chr> | <dbl> | <dbl> | <effctsz_> |
GFI | 0.97807123 | 0.95 | satisfactory |
AGFI | 0.96204635 | 0.90 | satisfactory |
NFI | 0.94793648 | 0.90 | satisfactory |
NNFI | 0.95438982 | 0.90 | satisfactory |
CFI | 0.96705932 | 0.90 | satisfactory |
RMSEA | 0.04616501 | 0.05 | satisfactory |
SRMR | 0.03675390 | 0.08 | satisfactory |
RFI | 0.92791205 | 0.90 | satisfactory |
PNFI | 0.68462079 | 0.50 | satisfactory |
IFI | 0.96731836 | 0.90 | satisfactory |
In questa seconda versione, l’adattamento del modello è molto migliorato. Il rapporto \(\chi^2 / df\) è pari a
67.559 / 26
Gli indici Comparative Fit Index (CFI) = 0.967 e Tucker-Lewis Index (TLI) = 0.954 sono superiori a 0.95. L’indice RMSEA = 0.046. L’indice SRMR = 0.037.
Il “costo” che si paga per questo miglioramento dell’adattamento è che indici di adattamento così buoni, probabilmente, non si replicheranno in un altro campione di dati, a meno che venga introdotto un qualche altro aggiustamento che, sicuramente, sarà diverso da quello usato nel campione corrente. Personalmente, non avrei introdotto il “miglioramento” proposto da Brown [Bro15] in quanto, anche senza un tale aggiustamento post-hoc, il modello produce un adattamento accettabile.
22.9. Commenti e considerazioni finali#
Nella letteratura SEM sono state sollevate forti argomentazioni contro l’applicazione di RMSEA, CFI e TLI e i loro valori di cutoff convenzionali [si veda, ad esempio, Barrett [Bar07]]. Tuttavia, prima che i ricercatori propongano e accettino alternative migliori, questi indici di bontà dell’adattamento continueranno ad essere applicati nella maggior parte degli studi SEM. Xia and Yang [XY19] fanno notare come, in base alla consuetudine corrente, valori RMSEA più grandi e valori CFI e TLI più piccoli indicano un adattamento peggiore. Ciò spinge i ricercatori a modificare i loro modelli per cercare di ottenere indici migliori. Tuttavia, la pratica attuale si è evoluta a tal punto da raggiungere la fase per cui gli indici di adattamento servono come gli unici criteri (in molte situazioni) per determinare se accettare o rifiutare un modello ipotizzato: se i valori degli indici di adattamento raggiungono la soglia “di pubblicabilità” (ad es. RMSEA < .06), allora non si ritiene più necessario migliorare il modello. In realtà, un’affermazione come la seguente non è sufficiente: “poiché i valori RMSEA, CFI e TLI suggeriscono un buon adattamento, questo modello è stato scelto come modello finale”. Il raggiungimento di una serie di soglie desiderate di RMSEA, CFI e TLI è solo uno dei possibili indicatori che devono essere considerati nel processo di selezione di modelli. I ricercatori dovrebbero anche spiegare se esistono altre opzioni per migliorare il modello, perché tali opzioni sono o non sono adottate, e quali sono le conseguenze scientifiche e cliniche che derivano dalla scelta del modello in questione come quello finale.