28.2 Massima verosimiglianza
L’equazione fondamentale dell’analisi fattoriale è
\[ \boldsymbol y = \boldsymbol \Lambda \boldsymbol x + \boldsymbol z, \]
dove \(\boldsymbol{y}\) è un vettore di \(p\) componenti (i punteggi osservati nel del test), \(\boldsymbol{x}\) è un vettore di \(k < p\) componenti (i punteggi fattoriali), \(\boldsymbol{\Lambda}\) è una \(p \cdot k\) matrice (di saturazioni fattoriali), e \(\boldsymbol{z}\) è un vettore di \(p\) componenti (la componenti dei punteggi del test non dovute all’effetto causale delle variabili comuni latenti). Per l’item \(i\)-esimo, in precedenza abbiamo scritto l’equazione precedente come
\[ y_i = \lambda_{i1} \xi_1 + \dots + \lambda_{ik} \xi_k + \delta_i. \]
Dalle assunzioni del modello fattoriale deriva che
\[ \boldsymbol{\Sigma} = \boldsymbol{\Lambda}\boldsymbol{\Phi}\boldsymbol{\Lambda}^\prime + \Psi, \]
dove \(\boldsymbol{\Phi}\) è la matrice delle inter-correlazioni fattoriali.
Si assume che il vettore casuale \(\boldsymbol{y}\) abbia una distribuzione normale multivariata con matrice di covarianza \(\boldsymbol{\Sigma}\) e che da tale distribuzione sia stato estratto un campione casuale di \(n\) osservazioni \(y_l, y_2, \dots, y_n\). Il logaritmo della funzione di verosimiglianza per il campione è dato da
\[ \log L = \frac{1}{2}n [\log | \boldsymbol{\Sigma}| + \mbox{tr}(\boldsymbol{\boldsymbol{S} \Sigma}^{-1})]. \]
L’equazione precedente viene vista come funzione di \(\Lambda\) e \(\Psi\). Anziché massimizzare \(\log L\), è equivalente e più conveniente minimizzare
\[ F_{k}(\Lambda, \Psi) = \log |\boldsymbol{\Sigma}| + \mbox{tr}[\boldsymbol{S}\boldsymbol{\Sigma}^{-1}] - \log|\boldsymbol{S}| – p, \]
dove \(|\boldsymbol{S}|\) è il determinante della matrice di covarianza tra le variabili osservate, \(|\boldsymbol{\Sigma}|\) è il determinante della matrice di covarianza prevista e \(p\) è il numero di indicatori.
L’obiettivo della stima di massima verosimiglianza della CFA è trovare le stime dei parametri che rendono più verosimili i dati osservati (o, al contrario, massimizzano la verosimiglianza dei parametri dati i dati). Le stime dei parametri in un modello CFA si ottengono con una procedura iterativa. Cioè, l’algoritmo inizia con una serie iniziale di stime dei parametri (denominate valori iniziali o stime iniziali, che possono essere generate automaticamente dal software o specificate dall’utente) e raffina ripetutamente queste stime nel tentativo di minimizzare la differenza tra \(\boldsymbol{\Sigma}\) e \(\boldsymbol{S}\). Il programma effettua controlli interni per valutare i suoi progressi nell’ottenere stime dei parametri che al meglio riproducono \(\boldsymbol{S}\). Si raggiunge la convergenza quando l’algoritmo produce una serie di stime dei parametri che non possono essere ulteriormente migliorate per ridurre la differenza tra \(\boldsymbol{\Sigma}\) e \(\boldsymbol{S}\).