11 L’errore standard della misurazione

Preparazione del Notebook

here::here("code", "_common.R") |> source()
if (!requireNamespace("pacman")) install.packages("pacman")
pacman::p_load(psychometric)

11.1 Introduzione

Nell’ambito della CTT, l’errore standard della misurazione (SEM, Standard Error of Measurement) quantifica la variabilità degli errori associati ai punteggi osservati in un test o in uno strumento di misura.

Il SEM indica di quanto potrebbe variare il punteggio osservato di un individuo se il test venisse ripetutamente somministrato nelle stesse condizioni.

Un SEM basso suggerisce che il punteggio osservato è una stima precisa del punteggio “vero” della persona, mentre un SEM elevato indica una maggiore incertezza nella stima. Il SEM si calcola utilizzando la deviazione standard dei punteggi osservati e il coefficiente di affidabilità del test.

I coefficienti di affidabilità, discussi nel capitolo precedente, rappresentano la quota di varianza osservata attribuibile alla varianza reale dei punteggi. Essi sono strumenti essenziali per valutare e confrontare l’affidabilità di diversi test psicometrici: generalmente, si preferisce uno strumento con un coefficiente di affidabilità più elevato. Tuttavia, una volta scelto il test, l’attenzione si sposta dalla sua affidabilità complessiva alla precisione dell’interpretazione dei punteggi individuali, che viene valutata attraverso il SEM.

11.2 Definizione

Il SEM è definito come la deviazione standard della distribuzione teorica dei punteggi che un individuo otterrebbe se sottoposto a un numero infinito di forme parallele del test. Queste forme parallele devono essere composte da item selezionati casualmente dallo stesso dominio di contenuto, garantendo equivalenza nella misurazione del costrutto.

11.2.1 Il Concetto di SEM e il Punteggio Vero

Immaginando di somministrare ripetutamente forme parallele a una persona senza effetti di apprendimento o affaticamento, si osserverebbe una variabilità nei punteggi a causa di errori casuali (esempio: familiarità con specifici item, fattori contestuali). La media di questa distribuzione ipotetica corrisponderebbe al punteggio vero (T) dell’individuo, mentre il SEM ne rappresenterebbe la deviazione standard, quantificando così la dispersione dei punteggi attorno al valore reale.

Nella pratica, è impossibile somministrare infinite volte lo stesso test. Pertanto, la CTT offre un metodo per stimare il SEM a partire dai dati disponibili.

11.2.2 Stima del SEM nella CTT

Secondo la CTT, l’errore di misurazione è espresso come:

\[ E = X - T, \]

dove \(X\) è il punteggio osservato e \(T\) il punteggio vero. L’obiettivo della CTT è stimare \(T\) e valutare l’entità dell’errore \(E\). La deviazione standard di \(E\), nota come SEM, fornisce una misura della precisione del test: minore è il SEM, maggiore è l’affidabilità della misurazione.

11.2.3 La Formula del SEM e il Ruolo dell’Affidabilità

La stima del SEM si basa sulla seguente equazione:

\[ \sigma_E = \sigma_X \sqrt{1 - \rho_{XX^\prime}}, \tag{11.1}\]

dove:

\(\sigma_X\) = deviazione standard dei punteggi osservati nel campione;
\(\rho_{XX^\prime}\) = coefficiente di attendibilità del test (es. alpha di Cronbach).

11.2.3.1 Interpretazione della Formula

Affidabilità e SEM:
- Un’elevata affidabilità (\(\rho_{XX^\prime} \rightarrow 1\)) riduce il SEM, avvicinando i punteggi osservati al punteggio vero.
- Se \(\rho_{XX^\prime} = 1\), il SEM è nullo (\(\sigma_E = 0\)): non esiste errore di misurazione.
- Se \(\rho_{XX^\prime} = 0\), il SEM coincide con \(\sigma_X\): l’errore è massimo e i punteggi riflettono solo casualità.
Distribuzione Normale degli Errori:
La CTT assume che, in condizioni ideali di somministrazione ripetuta, i punteggi si distribuiscano normalmente attorno al punteggio vero. Il SEM definisce l’ampiezza di questa distribuzione: il 68% dei punteggi osservati cade nell’intervallo \(T \pm \sigma_E\), mentre il 95% in \(T \pm 1.96\sigma_E\).

11.2.4 Implicazioni Pratiche

Il SEM consente di:

Costruire intervalli di confidenza attorno al punteggio osservato (es.: \(X \pm 1.96\sigma_E\)), fornendo una stima probabilistica del punteggio vero.
Valutare la sensibilità del test: Test con SEM basso sono più adatti a rilevare differenze sottili tra individui.
Ottimizzare l’affidabilità: Interventi per aumentare \(\rho_{XX^\prime}\) (es. aggiunta di item) riducono il SEM, migliorando la precisione.

In sintesi, il SEM è un indicatore essenziale per interpretare i risultati dei test, poiché quantifica l’incertezza insita nella misurazione psicometrica. La sua stima, legata all’affidabilità del test, permette di distinguere tra variazioni sistematiche (dovute al costrutto misurato) e fluttuazioni casuali, garantendo una valutazione più rigorosa dei punteggi.

11.3 Metriche a Confronto

Le tre metriche chiave per valutare la precisione di un test offrono insight complementari:

Errore Standard della Misurazione (SEM)
- Focus: Precisione del punteggio individuale.
- Unità: Espresso nella stessa metrica del test (es. punti), facilita l’interpretazione diretta (es.: “Il punteggio vero ha il 68% di probabilità di trovarsi in \(X \pm 5\)”).
- Utilizzo: Costruzione di intervalli di confidenza attorno al punteggio osservato.
Varianza dell’Errore (\(\sigma_E^2\))
- Focus: Variabilità totale degli errori nella popolazione.
- Unità: Quadrato delle unità del test (es. punti²), meno intuitiva per l’interpretazione pratica.
- Utilizzo: Analisi della composizione della varianza totale (\(\sigma_X^2 = \sigma_T^2 + \sigma_E^2\)).
Coefficiente di Attendibilità (\(\rho_{XX'}\))
- Focus: Consistenza relativa del test nella popolazione.
- Unità: Adimensionale (range 0-1), esprime la proporzione di varianza osservata attribuibile ai punteggi veri.
- Utilizzo: Confronto tra test o versioni diverse, ottimizzazione del numero di item.

11.3.1 Implicazioni per la Pratica

SEM vs. Attendibilità:
Un’alta attendibilità (\(\rho_{XX'} > 0.8\)) non implica necessariamente un SEM basso. Ad esempio, test con scala ampia (es. \(\sigma_X = 15\)) possono avere SEM elevati (\(> 3\)) nonostante un’affidabilità accettabile.
Priorità d’Uso:
- Per valutazioni individuali (es. diagnosi clinica), il SEM è prioritario.
- Per confronti di gruppo o ricerca, l’attendibilità assume maggiore rilevanza.

In sintesi, la scelta tra SEM, varianza d’errore e coefficiente di attendibilità dipende dall’obiettivo: interpretare la precisione individuale, analizzare la struttura del test o valutarne la coerenza complessiva.

Esempio 11.1 Consideriamo un esempio in cui un test di intelligenza fornisce un punteggio medio di 100 con una deviazione standard di 15. Supponiamo inoltre che l’attendibilità di questo test sia pari a 0.73. Vogliamo calcolare l’errore standard della misurazione.

Utilizzando la formula dell’errore standard della misurazione, otteniamo:

\[ \begin{equation} \begin{aligned} \sigma_E &= \sigma_X \sqrt{1 -\rho_{XX^\prime}} \notag\\ &= 15 \sqrt{1 - 0.73} \notag\\ &= 7.79.\notag \end{aligned} \end{equation} \]

Il valore 7.79 rappresenta l’errore standard atteso nei punteggi ottenuti da un singolo individuo se il test fosse somministrato più volte sotto identiche condizioni. In altre parole, ci aspettiamo che i punteggi variino in media di circa 8 punti tra diverse somministrazioni del test.

Inoltre, possiamo utilizzare l’errore standard della misurazione per calcolare un intervallo di confidenza intorno al vero punteggio del rispondente. Utilizzando la proprietà della distribuzione gaussiana, possiamo stimare che il 95% dei punteggi ottenuti da ripetute somministrazioni del test si troveranno nell’intervallo:

\[ \text{punteggio vero del rispondente} \pm 1.96 \cdot \text{errore standard della misurazione}. \]

Nel nostro caso, questo intervallo sarebbe pari a \(2 \cdot 1.96 \cdot 7.79 = 30.54\) punti. Quindi, ci aspettiamo che i punteggi del QI di un singolo rispondente varino all’interno di un intervallo di 30 punti se il test fosse somministrato molte volte sotto le stesse condizioni.

Questo esempio dimostra che se un test ha un’attendibilità di 0.73 e una deviazione standard dei punteggi di 15, la misurazione del test su un singolo individuo risulterebbe poco affidabile a causa dell’ampio errore di misurazione. A titolo di confronto, la Full Scale IQ (FSIQ) della WAIS-IV Wechsler (2008) ha un’attendibilità split-half di 0.98 e un errore standard di misurazione di 2.16.

L’errore standard della misurazione può anche essere calcolato utilizzando la funzione SE.Means() del pacchetto psychometric.

SE.Meas(15, .73)
#> [1] 7.794

Esempio 11.2 Continuando con l’esempio precedente, per gli ipotetici dati riportati sopra, poniamoci ora la seguente domanda: qual è la probabilità che un rispondente ottenga un punteggio minore o uguale a 116 nel test, se il suo punteggio vero fosse uguale a 120?

Il problema si risolve rendendosi conto che i punteggi del rispondente si distribuiscono normalmente attorno al punteggio vero di 120, con una deviazione standard uguale a 7.79. Dobbiamo dunque trovare l’area sottesa alla normale \(\mathcal{N}(120, 7.79)\) nell’intervallo \([-\infty, 116]\). Utilizzando R, la soluzione si trova nel modo seguente:

pnorm(116, 120, 7.79)
#> [1] 0.3038

Se la variabile aleatoria che corrisponde al punteggio osservato segue una distribuzione \(\mathcal{N}(120, 7.79)\), la probabilità che il rispondente ottenga un punteggio minore o uguale a 116 è dunque uguale a 0.30.

Esempio 11.3 Sempre per l’esempio discusso, poniamoci ora la seguente domanda: quale intervallo di valori centrato sul punteggio vero contiene, con una probabilità di 0.95, i punteggi che il rispondente otterrebbe in ipotetiche somministrazioni ripetute del test sotto le stesse identiche condizioni?

Dobbiamo trovare i quantili della distribuzione \(\mathcal{N}(120, 7.79)\) a cui sono associate le probabilità di 0.025 e 0.975. La soluzione è data da:

qnorm(c(.025, .975), 120, 7.79)
#> [1] 104.7 135.3

L’intervallo cercato è dunque \([104.7, 135.3]\).

Esempio 11.4 Calcoliamo ora l’errore standard di misurazione utilizzando un campione di dati grezzi. Esamineremo un set di dati discusso da Brown (2015). Il set di dati grezzi contiene 9 indicatori utilizzati per misurare la depressione maggiore così come è definita nel DSM-IV:

MDD1: depressed mood;
MDD2: loss of interest in usual activities;
MDD3: weight/appetite change;
MDD4: sleep disturbance;
MDD5: psychomotor agitation/retardation;
MDD6: fatigue/loss of energy;
MDD7: feelings of worthlessness/guilt;
MDD8: concentration difficulties;
MDD9: thoughts of death/suicidality.

Importiamo i dati:

df <- readRDS(
  here::here("data", "mdd_sex.RDS")
) |>
  dplyr::select(-sex)

Ci sono 750 osservazioni:

dim(df) |> print()
#> [1] 750   9

head(df)
#>   mdd1 mdd2 mdd3 mdd4 mdd5 mdd6 mdd7 mdd8 mdd9
#> 1    5    4    1    6    5    6    5    4    2
#> 2    5    5    5    5    4    5    4    5    4
#> 3    4    5    4    2    6    6    0    0    0
#> 4    5    5    3    3    5    5    6    4    0
#> 5    5    5    0    5    0    4    6    0    0
#> 6    6    6    4    6    4    6    5    6    2

Calcoliamo il coefficiente di attendibilità \(\alpha\) di Cronbach con la funzione alpha() del pacchetto psych.

res <- psych::alpha(df)
alpha <- res$total$raw_alpha
alpha
#> [1] 0.7532

Calcoliamo un vettore che contiene il punteggio totale del test per ciascun individuo:

total_score <- rowSums(df)

Troviamo l’errore standard di misurazione:

sd(total_score) * sqrt(1 - alpha)
#> [1] 5.296

Confrontiamo il risultato con quello ottenuto con la funzione SE.Meas():

SE.Meas(sd(total_score), alpha)
#> [1] 5.296

11.4 Dimostrazione

Vediamo ora la derivazione della formula dell’errore standard di misurazione, definito dalla relazione:

\[ \sigma_E = \sigma_X \sqrt{1 - \rho_{XX^\prime}} . \]

In base alla CTT, ogni punteggio osservato \(X\) può essere scomposto come somma di due componenti: punteggio vero (\(T\)) ed errore di misurazione (\(E\)):

\[ X = T + E . \]

Da qui, otteniamo l’espressione della varianza del punteggio osservato:

\[ \sigma^2_X = \sigma^2_T + \sigma^2_E . \]

Sostituendo la definizione precedente di \(\sigma^2_T\), ovvero \(\sigma^2_T = \rho_{XX^\prime}\sigma^2_X\), abbiamo:

\[ \sigma^2_X = \rho_{XX^\prime}\sigma^2_X + \sigma^2_E . \]

Da questa equazione possiamo isolare la varianza dell’errore \(\sigma^2_E\):

\[ \sigma^2_E = \sigma^2_X - \rho_{XX^\prime}\sigma^2_X = \sigma^2_X(1 - \rho_{XX^\prime}) . \]

Abbiamo così espresso la varianza dell’errore di misurazione \(\sigma^2_E\) in funzione di due grandezze osservabili: la varianza del punteggio osservato (\(\sigma^2_X\)) e il coefficiente di attendibilità (\(\rho_{XX^\prime}\)). Infine, prendendo la radice quadrata di entrambi i lati, otteniamo l’errore standard di misurazione nella forma finale:

\[ \sigma_E = \sigma_X \sqrt{1 - \rho_{XX^\prime}} . \]

11.5 Relazione tra Affidabilità e SEM

Un aspetto importante della CTT è la relazione inversa tra il coefficiente di affidabilità di un test e il SEM. In pratica, all’aumentare dell’affidabilità, il SEM diminuisce. Questa relazione riflette il fatto che il coefficiente di affidabilità (\(\rho_{XX'}\)) quantifica la quota della varianza dei punteggi osservati attribuibile alla varianza dei punteggi veri, mentre il SEM rappresenta la variabilità imputabile a fattori di errore.

Affidabilità alta \(\Rightarrow\) SEM basso \(\Rightarrow\) punteggi osservati più precisi.
Affidabilità bassa \(\Rightarrow\) SEM alto \(\Rightarrow\) punteggi osservati meno precisi.

Per estremizzare questo concetto:

Con un coefficiente di affidabilità pari a \(1.0\), il SEM risulta uguale a 0, ossia non c’è errore di misurazione (il punteggio osservato coincide con il punteggio vero).
Con un coefficiente di affidabilità pari a \(0\), il SEM è uguale alla deviazione standard dei punteggi, indicando che tutta la varianza nei punteggi è dovuta all’errore.

11.6 Intervallo di Confidenza e SEM

All’interno della CTT, il SEM esprime la dispersione stimata dei punteggi osservati attorno al punteggio vero di un individuo. In altre parole, se potessimo somministrare infinite volte un test a una persona (senza effetti di apprendimento o stanchezza), la distribuzione dei suoi punteggi osservati avrebbe come media il punteggio vero e una deviazione standard pari al SEM.

11.6.1 Intervalli di Confidenza

L’intervallo di confidenza basato sul SEM deve essere costruito attorno al punteggio vero, non attorno al punteggio osservato. Questo è fondamentale perché concettualmente è il punteggio osservato che varia attorno al punteggio vero, e non viceversa.

L’intervallo di confidenza è quindi

\[ T \pm z \times \text{SEM} , \tag{11.2}\]

dove \(T\) è il punteggio vero e \(z\) è il valore critico corrispondente al livello di confidenza desiderato.

Non è invece appropriato calcolare l’intervallo di confidenza attorno al punteggio osservato \(X\) utilizzando il SEM, poiché questo non riflette correttamente la fonte dell’incertezza nella misurazione (ad es., Charter, 1996; Dudek, 1979).

11.6.2 Applicazioni pratiche

In contesti simulati dove conosciamo il punteggio vero, possiamo costruire direttamente l’intervallo attorno ad esso. Nella pratica, poiché il punteggio vero è sconosciuto, si deve ricorrere a metodi di stima appropriati:

il metodo di Kelly può essere utilizzato per stimare il punteggio vero a partire dal punteggio osservato;
una volta stimato il punteggio vero, si può costruire l’intervallo di confidenza attorno a questa stima, usando l’errore standard della stima.

11.6.3 Esempio di Calcolo in R

Supponiamo di conoscere (in un contesto di simulazione) che il punteggio vero di un individuo sia 70, e che il SEM valga 3. Possiamo calcolare, ad esempio, la probabilità che i punteggi osservati ricadano tra 67 e 73 (cioè \(\pm 3\) dal punteggio vero). In R:

punteggio_vero <- 70
SEM <- 3

pnorm(73, mean = punteggio_vero, sd = SEM) - pnorm(67, mean = punteggio_vero, sd = SEM)
#> [1] 0.6827

Nelle ipotesi della TCT (e in assenza di fattori sistematici), circa i 2/3 dei punteggi osservati dell’individuo cadrebbero in questo intervallo di 6 punti (±1 SEM), se la distribuzione è approssimativamente normale.

Per un intervallo di confidenza al 95% attorno al punteggio vero (70), moltiplichiamo il SEM per \(z \approx 1{,}96\):

\[ 70 \pm (3 \times 1{,}96) \;\; \longrightarrow \;\; [64{,}12;\; 75{,}88]. \]

In R:

livello_confidenza <- 0.95
z_critico <- qnorm((1 + livello_confidenza) / 2)

errore_standard_intervallo <- SEM * z_critico
intervallo_confidenza_inf <- punteggio_vero - errore_standard_intervallo
intervallo_confidenza_sup <- punteggio_vero + errore_standard_intervallo

cat(
  "Intervallo di confidenza al 95%:",
  "[", intervallo_confidenza_inf, ",", intervallo_confidenza_sup, "]\n"
)
#> Intervallo di confidenza al 95%: [ 64.12 , 75.88 ]

11.6.4 Affidabilità, SEM e Larghezza dell’Intervallo di Confidenza

Se un test è altamente affidabile, gran parte della varianza nei punteggi osservati riflette differenze “vere” tra le persone, e il SEM risulta relativamente piccolo. Di conseguenza, l’intervallo di confidenza attorno al punteggio vero è più stretto, suggerendo una stima più precisa.

11.6.5 Vantaggio del SEM e dell’Uso degli Intervalli di Confidenza

Specificare un intervallo di confidenza attorno al punteggio vero (o a una sua stima appropriata) permette di riconoscere l’incertezza intrinseca nella misurazione. Ad esempio, se Alice riporta un QI di 113, questo non dovrebbe essere considerato un dato “esatto”, ma piuttosto un punto di partenza per stimare il suo punteggio vero, con un’opportuna quantificazione dell’incertezza.

11.7 Riflessioni Conclusive

Nel quadro della CTT, i coefficienti di affidabilità forniscono una misura globale della coerenza di uno strumento. Tuttavia, nel caso di decisioni mirate sul singolo individuo (ad esempio, stabilire se un candidato superi o meno un esame), diventa cruciale considerare l’Errore Standard di Misurazione (SEM) e costruire correttamente gli intervalli di confidenza attorno al punteggio vero.

In definitiva, comprendere che l’intervallo di confidenza basato sul SEM si riferisce alla distribuzione dei punteggi osservati attorno al punteggio vero permette di interpretare i risultati del test in modo più consapevole e metodologicamente corretto.

11.8 Session Info

sessionInfo()
#> R version 4.4.2 (2024-10-31)
#> Platform: aarch64-apple-darwin20
#> Running under: macOS Sequoia 15.3.2
#> 
#> Matrix products: default
#> BLAS:   /Library/Frameworks/R.framework/Versions/4.4-arm64/Resources/lib/libRblas.0.dylib 
#> LAPACK: /Library/Frameworks/R.framework/Versions/4.4-arm64/Resources/lib/libRlapack.dylib;  LAPACK version 3.12.0
#> 
#> locale:
#> [1] C/UTF-8/C/C/C/C
#> 
#> time zone: Europe/Rome
#> tzcode source: internal
#> 
#> attached base packages:
#> [1] stats     graphics  grDevices utils     datasets  methods   base     
#> 
#> other attached packages:
#>  [1] psychometric_2.4  multilevel_2.7    nlme_3.1-167      ggokabeito_0.1.0 
#>  [5] see_0.11.0        MASS_7.3-65       viridis_0.6.5     viridisLite_0.4.2
#>  [9] ggpubr_0.6.0      ggExtra_0.10.1    gridExtra_2.3     patchwork_1.3.0  
#> [13] bayesplot_1.11.1  semTools_0.5-6    semPlot_1.1.6     lavaan_0.6-19    
#> [17] psych_2.4.12      scales_1.3.0      markdown_1.13     knitr_1.50       
#> [21] lubridate_1.9.4   forcats_1.0.0     stringr_1.5.1     dplyr_1.1.4      
#> [25] purrr_1.0.4       readr_2.1.5       tidyr_1.3.1       tibble_3.2.1     
#> [29] ggplot2_3.5.1     tidyverse_2.0.0   here_1.0.1       
#> 
#> loaded via a namespace (and not attached):
#>   [1] rstudioapi_0.17.1   jsonlite_1.9.1      magrittr_2.0.3     
#>   [4] TH.data_1.1-3       estimability_1.5.1  farver_2.1.2       
#>   [7] nloptr_2.2.1        rmarkdown_2.29      vctrs_0.6.5        
#>  [10] minqa_1.2.8         base64enc_0.1-3     rstatix_0.7.2      
#>  [13] htmltools_0.5.8.1   broom_1.0.7         Formula_1.2-5      
#>  [16] htmlwidgets_1.6.4   plyr_1.8.9          sandwich_3.1-1     
#>  [19] emmeans_1.10.7      zoo_1.8-13          igraph_2.1.4       
#>  [22] mime_0.13           lifecycle_1.0.4     pkgconfig_2.0.3    
#>  [25] Matrix_1.7-3        R6_2.6.1            fastmap_1.2.0      
#>  [28] rbibutils_2.3       shiny_1.10.0        digest_0.6.37      
#>  [31] OpenMx_2.21.13      fdrtool_1.2.18      colorspace_2.1-1   
#>  [34] rprojroot_2.0.4     Hmisc_5.2-3         timechange_0.3.0   
#>  [37] abind_1.4-8         compiler_4.4.2      withr_3.0.2        
#>  [40] glasso_1.11         htmlTable_2.4.3     backports_1.5.0    
#>  [43] carData_3.0-5       ggsignif_0.6.4      corpcor_1.6.10     
#>  [46] gtools_3.9.5        tools_4.4.2         pbivnorm_0.6.0     
#>  [49] foreign_0.8-88      zip_2.3.2           httpuv_1.6.15      
#>  [52] nnet_7.3-20         glue_1.8.0          quadprog_1.5-8     
#>  [55] promises_1.3.2      lisrelToR_0.3       grid_4.4.2         
#>  [58] checkmate_2.3.2     cluster_2.1.8.1     reshape2_1.4.4     
#>  [61] generics_0.1.3      gtable_0.3.6        tzdb_0.5.0         
#>  [64] data.table_1.17.0   hms_1.1.3           car_3.1-3          
#>  [67] sem_3.1-16          pillar_1.10.1       rockchalk_1.8.157  
#>  [70] later_1.4.1         splines_4.4.2       lattice_0.22-6     
#>  [73] survival_3.8-3      kutils_1.73         tidyselect_1.2.1   
#>  [76] miniUI_0.1.1.1      pbapply_1.7-2       reformulas_0.4.0   
#>  [79] stats4_4.4.2        xfun_0.51           qgraph_1.9.8       
#>  [82] arm_1.14-4          stringi_1.8.4       pacman_0.5.1       
#>  [85] boot_1.3-31         evaluate_1.0.3      codetools_0.2-20   
#>  [88] mi_1.1              cli_3.6.4           RcppParallel_5.1.10
#>  [91] rpart_4.1.24        xtable_1.8-4        Rdpack_2.6.3       
#>  [94] munsell_0.5.1       Rcpp_1.0.14         coda_0.19-4.1      
#>  [97] png_0.1-8           XML_3.99-0.18       parallel_4.4.2     
#> [100] jpeg_0.1-10         lme4_1.1-36         mvtnorm_1.3-3      
#> [103] openxlsx_4.2.8      rlang_1.1.5         multcomp_1.4-28    
#> [106] mnormt_2.1.1

Brown, T. A. (2015). Confirmatory factor analysis for applied research. Guilford publications.

Wechsler, D. (2008). Wechsler adult intelligence scale–Fourth Edition (WAIS–IV). San Antonio, TX: NCS Pearson, 22(498), 816–827.