24.4 Parallel analysis
La Parallel Analysis è un metodo alternativo allo scree test[^1]. Nella Parallel Analysis, il criterio usato per decidere il numero di fattori da estrarre viene determinato dal confronto con la media degli autovalori generati da un campione casuale di variabili standardizzate. Tale confronto ha lo scopo di controllare le variazioni dovute agli errori di campionamento. Anche se, nel caso di variabili incorrelate, tutti gli autovalori di una matrice di correlazione dovrebbero avere un valore pari a uno, come conseguenza della variabilità campionaria in qualunque campione finito vi sono comunque uno o più autovalori empirici maggiori di uno.
Tale fatto può essere illustrato mediante la seguente simulazione di Monte Carlo. Si consideri una matrice di correlazione calcolata su \(p=10\) variabili casuali mutuamente indipendenti, ciascuna costituita da \(n=20\) osservazioni.
n <- 20
nsim <- 1000
e1 <- rep(0, nsim)
for (i in 1:nsim) {
Y <- cbind(
rnorm(n), rnorm(n), rnorm(n), rnorm(n), rnorm(n),
rnorm(n), rnorm(n), rnorm(n), rnorm(n), rnorm(n)
)
e <- eigen(cor(Y))
e1[i] <- e$values[1]
}
max(e1)
#> [1] 3.332866
Per i dati di questa simulazione, l’autovalore maggiore ha un valore pari a \(3.53\), anche se i dati sono del tutto casuali. La Parallel Analysis tiene conto di questo fatto e determina \(m\) confrontando gli autovalori empirici con le loro “controparti casuali.” Vanno a determinare \(m\) solo gli autovalori empirici che hanno un valore superiore ai corrispondenti autovalori generati da una matrice di dati dello stesso ordine composta da colonne mutualmente incorrelate. Nel caso dell’esempio presente, per esempio, l’autovalore maggiore dovrà avere un valore maggiore di \(3.53\) (anziché di \(1.00\) o del punto di flesso della spezzata dello scree test).