14.3 Principio base dell’analisi fattoriale
Nell’attuale pratica dell’inferenza statistica nell’analisi fattoriale, spesso si utilizzano stime della massima verosimiglianza, calcolate attraverso procedure iterative come l’algoritmo EM (Rubin & Thayer, 1982). Tuttavia, all’inizio dell’analisi fattoriale, la procedura di estrazione dei fattori si basava sulle relazioni invarianti che il modello fattoriale imponeva agli elementi della matrice di covarianza delle variabili osservate. Uno dei più noti tra questi invarianti è la tetrade, presente nei modelli ad un fattore.
La tetrade consiste in una combinazione di quattro correlazioni. Se l’associazione tra le variabili osservate dipende dal fatto che queste sono state generate causalmente da un fattore comune inosservabile, allora è possibile generare una combinazione delle correlazioni che annulla la tetrade. In altre parole, l’analisi fattoriale si propone di individuare un insieme di sole \(m<p\) variabili latenti che, al netto dei fattori comuni, annullano significativamente tutte le correlazioni parziali tra le \(p\) variabili osservate. Se il metodo della correlazione parziale consente di identificare \(m\) variabili latenti, allora lo psicologo può concludere che tali fattori corrispondono agli \(m\) costrutti che intende misurare.
Per illustrare il metodo dell’annullamento della tetrade, consideriamo la matrice di correlazioni riportata nella Tabella seguente.
\(\xi\) | \(y_1\) | \(y_2\) | \(y_3\) | \(y_4\) | \(y_5\) | |
---|---|---|---|---|---|---|
\(\xi\) | 1.00 | |||||
\(y_1\) | 0.90 | 1.00 | ||||
\(y_2\) | 0.80 | 0.72 | 1.00 | |||
\(y_3\) | 0.70 | 0.63 | 0.56 | 1.00 | ||
\(y_4\) | 0.60 | 0.54 | 0.48 | 0.42 | 1.00 | |
\(y_5\) | 0.50 | 0.45 | 0.40 | 0.35 | 0.30 | 1.00 |
Nella tabella, la correlazione parziale tra ciascuna coppia di variabili \(y_i\), \(y_j\) (con \(i \neq j\)) dato \(\xi\) è sempre pari a zero. Ad esempio, la correlazione parziale tra \(y_3\) e \(y_5\) condizionata a \(\xi\) è:
\[\begin{equation} \begin{aligned} r_{35 \mid \xi} &= \frac{r_{35} - r_{3\xi}r_{5\xi}} {\sqrt{(1-r_{3\xi}^2)(1-r_{5\xi}^2)}} \notag \\[12pt] &= \frac{0.35 - 0.7 \times 0.5} {\sqrt{(1-0.7^2)(1-0.5^2)}} = 0. \notag \end{aligned} \end{equation}\]
Lo stesso risultato si trova per qualunque altra coppia di variabili \(y_i\) e \(y_j\), ovvero \(r_{ij \mid \xi} = 0\). Possiamo dunque dire che, per la matrice di correlazioni della Tabella, esiste un’unica variabile \(\xi\) la quale, quando viene controllata, spiega tutte le
\[ p(p-1)/2 = 5(5-1)/2=10 \]
correlazioni tra le variabili \(y\). Questo risultato non è sorprendente, in quanto la matrice di correlazioni è stata costruita in modo tale da possedere tale proprietà.
Immaginiamo invece di trovarci in una situazione diversa, ovvero di avere a disposizione solo le variabili \(y_i\) senza conoscere \(\xi\). In questo caso, ci poniamo la domanda: “Esiste una variabile latente \(\xi\) tale che, se fosse osservabile, renderebbe nulle tutte le correlazioni parziali tra le variabili \(y\)?”. Se esiste una tale variabile latente che spiega tutte le correlazioni tra le variabili osservate \(y\), allora viene chiamata fattore latente.
Definizione 14.1 Un fattore è una variabile inosservabile in grado di rendere significativamente nulle tutte le correlazioni parziali tra le variabili manifeste.
14.3.1 Vincoli sulle correlazioni
Come si può stabilire se esiste una variabile inosservabile in grado di rendere nulle tutte le correlazioni parziali tra le variabili osservate? Riscriviamo la (14.3) per specificare la correlazione parziale tra le variabili \(y_i\) e \(y_j\) dato \(\xi\):
\[ r_{ij \mid \xi} = \frac{r_{ij} - r_{i\xi}r_{j\xi}} {\sqrt{(1-r_{i\xi}^2)(1-r_{j\xi}^2)}} \]
Affinché \(r_{ij \mid \xi}\) sia uguale a zero è necessario che
\[ r_{ij} - r_{i\xi}r_{j\xi}=0 \]
ovvero
\[ r_{ij} = r_{i\xi}r_{j\xi}. \]
In altri termini, se esiste un fattore non osservato \(\xi\) in grado di rendere uguali a zero tutte le correlazioni parziali \(r_{ih \mid \xi}\), allora la correlazione tra ciascuna coppia di variabili \(y\) deve essere uguale al prodotto delle correlazioni tra ciascuna \(y\) e il fattore latente \(\xi\). Questo è il principio base dell’analisi fattoriale.
14.3.2 Teoria dei Due Fattori
Per fornire un esempio concreto del metodo dell’annullamento della tetrade, possiamo esaminare la matrice di correlazioni utilizzata da Spearman (1904) nella sua ricerca sulle capacità intellettuali di alcuni studenti di una scuola superiore. In particolare, sono state considerate le prestazioni degli studenti in tre materie scolastiche (studio dei classici, letteratura inglese, abilità matematiche) e in un compito di discriminazione dell’altezza di suoni. Secondo la Teoria dei Due Fattori di Spearman, le prestazioni in ogni compito intellettuale sono costituite da due componenti: un fattore generale comune a tutte le attività intellettuali (fattore “g”) e un fattore specifico relativo al compito in questione (fattore “s”). In questo modello, il fattore “g” rappresenta la componente invariante dell’abilità intellettiva, mentre il fattore “s” è una componente che varia da condizione a condizione.
Per verificare l’esistenza di una variabile latente in grado di spiegare le correlazioni tra le variabili osservate da Spearman, è stato proposto uno strumento chiamato “annullamento della tetrade”. Tale strumento si basa sui vincoli sulle correlazioni derivanti dalla definizione di correlazione parziale. Come abbiamo visto in precedenza, la correlazione parziale tra le variabili \(y\) indicizzate da \(i\) e \(j\), al netto dell’effetto di \(\xi\), è nulla se la seguente relazione è soddisfatta:
\[ r_{ij} = r_{i\xi}r_{j\xi}. \]
In altre parole, se la correlazione tra due variabili osservate può essere spiegata dall’effetto di una terza variabile latente, allora la correlazione parziale tra tali variabili sarà nulla una volta che si tiene conto dell’effetto della variabile latente. Utilizzando questo strumento, Spearman ha dimostrato che le correlazioni tra le prestazioni degli studenti nei vari compiti intellettuali possono essere spiegate da due fattori: un fattore generale comune a tutti i compiti (fattore “g”) e un fattore specifico a ciascun compito (fattore “s”).
Nel caso dei dati di Spearman, le correlazioni parziali sono nulle quando la correlazione tra “studi classici” e “letteratura inglese” è pari al prodotto della correlazione tra “studi classici” e la variabile latente \(\xi\) e della correlazione tra “letteratura inglese” e la variabile latente \(\xi\). Inoltre, la correlazione tra “studi classici” e “abilità matematica” deve essere uguale al prodotto della correlazione tra “studi classici” e la variabile latente \(\xi\) e della correlazione tra “abilità matematica” e la variabile latente \(\xi\), e così via per tutte le altre coppie di variabili.
Le correlazioni tra le variabili manifeste e il fattore latente sono dette saturazioni fattoriali e vengono denotate con la lettera \(\lambda\). Se il modello di Spearman è corretto, avremo che
\[ r_{ec}=\lambda_e \times \lambda_{c}, \]
dove \(r_{ec}\) è la correlazione tra “letteratura inglese” (e) e “studi classici” (c), \(\lambda_e\) è la correlazione tra “letteratura inglese” e \(\xi\), e \(\lambda_{c}\) è la correlazione tra “studi classici” e \(\xi\).
Allo stesso modo, la correlazione tra “studi classici” e “matematica” (m) dovrà essere uguale a
\[ \lambda_c \times \lambda_m, \]
eccetera.
14.3.3 Annullamento della tetrade
Utilizzando il metodo dell’annullamento della tetrade è possibile stimare i valori delle saturazioni fattoriali \(\lambda\), partendo dalle correlazioni tra le tre coppie di variabili manifeste \(c\), \(m\) ed \(e\). In particolare, si possono scrivere tre equazioni in tre incognite, che consentono di calcolare le saturazioni \(\lambda\). Ad esempio, per le tre variabili sopracitate, tali equazioni possono essere espresse nel seguente modo:
\[\begin{equation} \begin{aligned} r_{cm} &= \lambda_c \times \lambda_m, \notag \\ r_{em} &= \lambda_e \times \lambda_m, \\ r_{ce} &= \lambda_c \times \lambda_e. \notag \end{aligned} \end{equation}\]
Calcolando il determinante del sistema di equazioni lineari composto dalle correlazioni tra le variabili manifeste \(c\), \(m\) ed \(e\), possiamo ottenere il valore della saturazione fattoriale \(\lambda\) e, in particolare, il coefficiente di saturazione \(\lambda_m\) della variabile \(y_m\) nel fattore comune \(\xi\). In altre parole, risolvendo il sistema di equazioni lineari, possiamo stimare il valore delle saturazioni fattoriali, compreso il coefficiente di saturazione \(\lambda_m\), a partire dalle correlazioni tra le variabili manifeste:
\[\begin{equation} \lambda_m = \sqrt{ \frac{r_{cm} r_{em}}{r_{ce}}}. \tag{14.4} \end{equation}\]
Lo stesso vale per le altre due saturazioni \(\lambda_c\) e \(\lambda_e\).
Nel suo articolo del 1904, Spearman osservò le seguenti correlazioni tra le variabili \(Y_c\), \(Y_e\), \(Y_m\) e \(Y_p\):
\[ \begin{array}{ccccc} \hline & Y_C & Y_E & Y_M & Y_P \\ \hline Y_C & 1.00 & 0.78 & 0.70 & 0.66 \\ Y_E & & 1.00 & 0.64 & 0.54 \\ Y_M & & & 1.00 & 0.45 \\ Y_P & & & & 1.00 \\ \hline \end{array} \]
Utilizzando la (14.4), mediante le correlazioni \(r_{cm}\), \(r_{em}\), e \(r_{ce}\) fornite dalla tabella precedente, la saturazione \(\lambda_m\) diventa uguale a:
\[ \hat{\lambda}_m = \sqrt{ \frac{r_{cm} r_{em}}{r_{ce}} } = \sqrt{ \frac{0.70 \times 0.64}{0.78} } = 0.76. \]
È importante notare che il metodo dell’annullamento della tetrade produce risultati falsificabili. Infatti, ci sono modi diversi per calcolare la stessa saturazione fattoriale. Se il modello fattoriale è corretto si deve ottenere lo stesso risultato in tutti i casi. Nel caso presente, la saturazione fattoriale \(\lambda_m\) può essere calcolata in altri due modi:
\[\begin{equation} \begin{aligned} \hat{\lambda}_m &= \sqrt{ \frac{r_{cm} r_{mp}}{r_{cp}} } = \sqrt{ \frac{0.78 \times 0.45}{0.66} } = 0.69, \notag \\ \hat{\lambda}_m &= \sqrt{ \frac{r_{em} r_{mp}}{r_{ep}} } = \sqrt{ \frac{0.64 \times 0.45}{0.54} } = 0.73. \notag\end{aligned} \end{equation}\]
I tre valori che sono stati ottenuti sono molto simili. Qual è allora la stima migliore di \(\lambda_m\)?
14.3.4 Metodo del centroide
La soluzione più semplice è quella di fare la media di questi tre valori (\(\bar{\lambda}_m = 0.73\)). Un metodo migliore (meno vulnerabile ai valori anomali) è dato dal rapporto tra la somma dei numeratori e dei denominatori:
\[ \hat{\lambda}_m = \sqrt{ \frac{0.70 \times 0.64 + 0.78 \times 0.45 + 0.64 \times 0.45}{0.78+0.66+0.54} } = 0.73 \]
In questo caso, i due metodi danno lo stesso risultato. Le altre tre saturazioni fattoriali trovate mediante il metodo del centroide sono:
\[ \hat{\lambda}_c = 0.97, \quad \hat{\lambda}_e = 0.84, \quad \hat{\lambda}_p = 0.65. \]
In conclusione,
\[ \boldsymbol{\hat{\Lambda}}^\prime= (\hat{\lambda}_c, \hat{\lambda}_e, \hat{\lambda}_m, \hat{\lambda}_p) = (0.97, 0.84, 0.73, 0.65). \]