11  L’errore standard della misurazione

Nella Teoria Classica dei Test, l’errore standard della misurazione (SEM, Standard Error of Measurement) è una stima della variabilità degli errori associati ai punteggi osservati di un test o strumento di misura. Indica quanto il punteggio di una persona potrebbe variare se il test fosse somministrato ripetutamente in condizioni identiche. Un SEM più basso implica che il punteggio osservato è una stima più precisa del punteggio “vero” dell’individuo, mentre un SEM più alto suggerisce una maggiore imprecisione. L’errore standard della misurazione è calcolato in base alla deviazione standard dei punteggi e alla affidabilità del test.

Prerequisiti

Concetti e Competenze Chiave

Preparazione del Notebook

here::here("code", "_common.R") |> source()

# Load packages
if (!requireNamespace("pacman")) install.packages("pacman")
pacman::p_load(psychometric)

11.1 Introduzione

I coefficienti di affidabilità che abbiamo discusso nel capitolo precedente rappresentano una misura proporzionale della varianza osservata di un test che è attribuibile alla varianza reale. Questi coefficienti sono fondamentali per confrontare l’affidabilità dei punteggi ottenuti da diverse procedure di valutazione. In generale, preferiremo selezionare il test che produce i punteggi con la migliore affidabilità. Tuttavia, una volta scelto il test, il nostro focus si sposta sull’interpretazione dei punteggi.

11.2 Errore Standard della Misurazione

L’Errore Standard della Misurazione (SEM) diventa una statistica più pratica quando l’attenzione è rivolta all’interpretazione dei punteggi di un test. Il SEM è definito come la deviazione standard della distribuzione dei punteggi che un individuo otterrebbe se fosse sottoposto a un numero infinito di forme parallele del test, costituite da item campionati casualmente dallo stesso dominio di contenuto.

Per comprendere meglio, immaginiamo di creare un numero infinito di forme parallele di un test e di far svolgere queste forme alla stessa persona, senza che vi siano effetti di trasferimento. La presenza dell’errore di misurazione impedirebbe alla persona di ottenere sempre lo stesso punteggio. Anche se ogni test rappresenta ugualmente bene il dominio di contenuto, il candidato potrebbe ottenere risultati migliori in alcuni test e peggiori in altri, semplicemente a causa di errori casuali (ad esempio, la fortuna nel conoscere le risposte agli item selezionati per una versione del test ma non per un’altra). Prendendo i punteggi ottenuti in tutti questi test, si otterrebbe una distribuzione di punteggi. La media di questa distribuzione rappresenta il punteggio vero (T) dell’individuo, mentre il SEM è la deviazione standard di questa distribuzione di punteggi di errore.

Ovviamente, non è possibile attuare questi procedimenti nella realtà, quindi dobbiamo stimare il SEM utilizzando le informazioni disponibili. Esamineremo qui l’approccio utilizzato dalla Teoria Classica dei Test (CTT) per raggiungere questo obiettivo.

11.3 Stima di SEM

Secondo Lord (1968), l’errore \(E = X - T\) rappresenta la variabile aleatoria di interesse primario nella CTT. L’obiettivo della CTT è stimare il punteggio vero di ogni rispondente e confrontare le stime ottenute per rispondenti diversi. La grandezza dell’errore \(E\) fornisce informazioni essenziali in questo contesto. La discrepanza tra il punteggio osservato e il punteggio vero può essere misurata utilizzando la deviazione standard degli errori \(E\), conosciuta appunto come “Errore Standard della Misurazione” o SEM. Il SEM è quindi lo strumento impiegato dalla CTT per stimare in che misura un punteggio osservato differisce dal punteggio vero.

Nel presente capitolo esploreremo come sia possibile stimare la deviazione standard dell’errore (\(\sigma_E\)) in un campione di osservazioni. Questo consente di comprendere meglio la precisione dei punteggi ottenuti attraverso un test psicometrico e di interpretare in modo più accurato i risultati.

11.4 L’incertezza della misura

In base alla CTT, è possibile stimare l’errore standard della misurazione utilizzando una formula che dipende dalla deviazione standard della distribuzione dei punteggi del test e dall’attendibilità del test. Mediante questa formula, è possibile ottenere una stima dell’errore standard associato a un singolo punteggio, il quale indica quanto il punteggio osservato può variare rispetto al vero punteggio di un individuo:

\[ \sigma_E = \sigma_X \sqrt{1 -\rho_{XX^\prime}}, \tag{11.1}\]

dove \(\sigma_X\) rappresenta la deviazione standard dei punteggi ottenuti da un campione di soggetti e \(\rho_{XX^\prime}\) è il coefficiente di attendibilità. Attraverso questo calcolo, si ottiene l’errore standard della misurazione sottraendo l’attendibilità del test da 1, quindi calcolando la radice quadrata del risultato e moltiplicandolo per la deviazione standard dei punteggi del test.

La logica alla base dell’errore standard della misurazione si fonda sull’assunzione che se una persona dovesse sostenere numerosi test equivalenti, i punteggi ottenuti seguirebbero una distribuzione normale con il vero punteggio dell’individuo come media. In altre parole, possiamo immaginare che l’individuo affronti ripetutamente versioni identiche del test, in circostanze simili e senza ricordare le risposte precedenti. In tale contesto ipotetico, l’errore standard della misurazione rappresenterebbe la deviazione standard tra queste misurazioni ripetute.

La formula sopra indicata evidenzia come l’errore standard della misurazione (\(\sigma_E\)) sia strettamente correlato all’attendibilità del test: all’aumentare dell’attendibilità del test, l’errore standard della misurazione diminuisce. Se l’attendibilità del test si avvicina a 0, l’errore standard della misurazione tende a diventare uguale alla deviazione standard dei punteggi osservati del test. In contrasto, se l’attendibilità del test raggiunge 1, l’errore standard della misurazione si riduce a zero: in una situazione di perfetta affidabilità, in cui non vi è alcun errore di misurazione, \(\sigma_E\) assume valore zero.

11.4.1 Interpretazione

La Teoria Classica dei Test (CTT) postula che, se un individuo dovesse ripetere un test un numero infinito di volte, mantenendo inalterate le condizioni di somministrazione, i punteggi ottenuti si distribuirebbero in maniera normale attorno al suo vero punteggio. L’errore standard di misura (SEM) viene quindi definito come la stima della deviazione standard di questa distribuzione ipotetica di punteggi. Di conseguenza, un SEM elevato indica una maggiore incertezza nell’utilizzo del test per valutare l’abilità latente dell’individuo.

Secondo McDonald, invece, il termine di errore (E) segue una distribuzione di propensione, che riflette le variazioni casuali nelle prestazioni di un individuo nel tempo a causa di test. Queste variazioni possono essere influenzate da fattori quali lo stato d’animo, la motivazione e altre variabili contestuali. L’errore standard di misura, in questo contesto, fornisce una quantificazione della deviazione standard dei punteggi attesi per un individuo, se fosse possibile testarlo un numero infinito di volte (o attraverso test equivalenti) in condizioni identiche, assumendo che il suo vero punteggio rimanga invariato.

Il coefficiente di attendibilità, la varianza dell’errore e l’errore standard di misura rappresentano metriche che riflettono la precisione di un test psicometrico, ciascuna fornendo un tipo di insight specifico sulla precisione:

  • L’errore standard di misura (SEM) offre una stima della precisione di un punteggio osservato per un individuo, offrendo una base per inferenze riguardo l’affidabilità di quel punteggio specifico. Al contrario, il coefficiente di attendibilità non si presta a una interpretazione così diretta in relazione ai punteggi individuali.
  • Il SEM è calcolato nell’unità di misura dei punteggi del test, facilitando la comprensione e l’interpretazione della variabilità attorno al punteggio osservato di un individuo. Diversamente, la varianza dell’errore è espressa come il quadrato delle unità di misura del punteggio, rendendola meno intuitiva per interpretazioni dirette riguardanti la precisione del punteggio.
  • Il coefficiente di attendibilità quantifica il rapporto tra la varianza dei punteggi veri e la varianza totale dei punteggi osservati, risultando in un indice senza unità di misura (adimensionale). Questo lo distingue dal SEM e dalla varianza dell’errore, in quanto l’attendibilità valuta la consistenza relativa dei punteggi all’interno dell’intero test piuttosto che la precisione di un singolo punteggio osservato.

Esempio 1. Consideriamo un esempio in cui un test di intelligenza fornisce un punteggio medio di 100 con una deviazione standard di 15. Supponiamo inoltre che l’attendibilità di questo test sia pari a 0.73. Vogliamo calcolare l’errore standard della misurazione.

Utilizzando la formula dell’errore standard della misurazione, otteniamo:

\[ \begin{equation} \begin{aligned} \sigma_E &= \sigma_X \sqrt{1 -\rho_{XX^\prime}} \notag\\ &= 15 \sqrt{1 - 0.73} \notag\\ &= 7.79.\notag \end{aligned} \end{equation} \]

Il valore 7.79 rappresenta l’errore standard atteso nei punteggi ottenuti da un singolo individuo se il test fosse somministrato più volte sotto identiche condizioni. In altre parole, ci aspettiamo che i punteggi variino in media di circa 8 punti tra diverse somministrazioni del test.

Inoltre, possiamo utilizzare l’errore standard della misurazione per calcolare un intervallo di confidenza intorno al vero punteggio del rispondente. Utilizzando la proprietà della distribuzione gaussiana, possiamo stimare che il 95% dei punteggi ottenuti da ripetute somministrazioni del test si troveranno nell’intervallo:

\[ \text{punteggio vero del rispondente} \pm 1.96 \cdot \text{errore standard della misurazione}. \]

Nel nostro caso, questo intervallo sarebbe pari a \(2 \cdot 1.96 \cdot 7.79 = 30.54\) punti. Quindi, ci aspettiamo che i punteggi del QI di un singolo rispondente varino all’interno di un intervallo di 30 punti se il test fosse somministrato molte volte sotto le stesse condizioni.

Questo esempio dimostra che se un test ha un’attendibilità di 0.73 e una deviazione standard dei punteggi di 15, la misurazione del test su un singolo individuo risulterebbe poco affidabile a causa dell’ampio errore di misurazione. A titolo di confronto, la Full Scale IQ (FSIQ) della WAIS-IV Wechsler (2008) ha un’attendibilità split-half di 0.98 e un errore standard di misurazione di 2.16.

L’errore standard della misurazione può anche essere calcolato utilizzando la funzione SE.Means() del pacchetto psychometric.

SE.Meas(15, .73)
7.79422863405995

Esempio 2. Continuando con l’esempio precedente, per gli ipotetici dati riportati sopra, poniamoci ora la seguente domanda: qual è la probabilità che un rispondente ottenga un punteggio minore o uguale a 116 nel test, se il suo punteggio vero fosse uguale a 120?

Il problema si risolve rendendosi conto che i punteggi del rispondente si distribuiscono normalmente attorno al punteggio vero di 120, con una deviazione standard uguale a 7.79. Dobbiamo dunque trovare l’area sottesa alla normale \(\mathcal{N}(120, 7.79)\) nell’intervallo \([-\infty, 116]\). Utilizzando R, la soluzione si trova nel modo seguente:

pnorm(116, 120, 7.79)
0.303808211691303

Se la variabile aleatoria che corrisponde al punteggio osservato segue una distribuzione \(\mathcal{N}(120, 7.79)\), la probabilità che il rispondente ottenga un punteggio minore o uguale a 116 è dunque uguale a 0.30.

Esempio 3. Sempre per l’esempio discusso, poniamoci ora la seguente domanda: quale intervallo di valori centrato sul punteggio vero contiene, con una probabilità di 0.95, i punteggi che il rispondente otterrebbe in ipotetiche somministrazioni ripetute del test sotto le stesse identiche condizioni?

Dobbiamo trovare i quantili della distribuzione \(\mathcal{N}(120, 7.79)\) a cui sono associate le probabilità di 0.025 e 0.975. La soluzione è data da:

qnorm(c(.025, .975), 120, 7.79)
  1. 104.731880560433
  2. 135.268119439567

L’intervallo cercato è dunque \([104.7, 135.3]\).

Esempio 4. Calcoliamo ora l’errore standard di misurazione utilizzando un campione di dati grezzi. Esamineremo un set di dati discusso da Brown (2015). Il set di dati grezzi contiene 9 indicatori utilizzati per misurare la depressione maggiore così come è definita nel DSM-IV:

  • MDD1: depressed mood;
  • MDD2: loss of interest in usual activities;
  • MDD3: weight/appetite change;
  • MDD4: sleep disturbance;
  • MDD5: psychomotor agitation/retardation;
  • MDD6: fatigue/loss of energy;
  • MDD7: feelings of worthlessness/guilt;
  • MDD8: concentration difficulties;
  • MDD9: thoughts of death/suicidality.

Importiamo i dati:

df <- readRDS(
    here::here("data", "mdd_sex.RDS")
) |>
    dplyr::select(-sex)

Ci sono 750 osservazioni:

dim(df) |> print()
[1] 750   9
head(df)
A data.frame: 6 x 9
mdd1 mdd2 mdd3 mdd4 mdd5 mdd6 mdd7 mdd8 mdd9
<int> <int> <int> <int> <int> <int> <int> <int> <int>
1 5 4 1 6 5 6 5 4 2
2 5 5 5 5 4 5 4 5 4
3 4 5 4 2 6 6 0 0 0
4 5 5 3 3 5 5 6 4 0
5 5 5 0 5 0 4 6 0 0
6 6 6 4 6 4 6 5 6 2

Calcoliamo il coefficiente di attendibilità \(\alpha\) di Cronbach con la funzione alpha() del pacchetto psych.

res <- psych::alpha(df)
alpha <- res$total$raw_alpha
alpha
0.753150463775787

Calcoliamo un vettore che contiene il punteggio totale del test per ciascun individuo:

total_score <- rowSums(df)

Troviamo l’errore standard di misurazione:

sd(total_score) * sqrt(1 - alpha)
5.29643177867088

Confrontiamo il risultato con quello ottenuto con la funzione SE.Meas():

SE.Meas(sd(total_score), alpha)
5.29643177867088

11.5 Dimostrazione

Esaminiamo ora la derivazione della formula per l’errore standard di misurazione, \(\sigma_E = \sigma_X \sqrt{1 - \rho_{XX^\prime}}\). Per arrivare a questa formula, seguiremo due passaggi chiave: innanzitutto, calcoleremo la varianza del punteggio vero e successivamente rappresenteremo il punteggio osservato come la somma della varianza del punteggio vero e la varianza dell’errore.

Iniziamo definendo il coefficiente di attendibilità come \(\rho_{XX^\prime} = \frac{\sigma^2_T}{\sigma^2_X}\), in cui \(\sigma^2_T\) è la varianza del punteggio vero e \(\sigma^2_X\) è la varianza del punteggio osservato. Utilizzando questa definizione, possiamo riscrivere \(\sigma^2_T\) come \(\sigma^2_T = \rho_{XX^\prime} \sigma^2_X\), considerando che \(X\) e \(X^\prime\) sono forme parallele di un test.

Dato che \(\sigma_X = \sigma_{X^\prime}\), possiamo scrivere l’equazione precedente come \(\sigma^2_T = \rho_{XX^\prime} \sigma_X \sigma_{X^\prime}\). Inoltre, la covarianza tra \(X\) e \(X^\prime\) è definita come \(\sigma_{XX^\prime} = \rho_{XX^\prime} \sigma_X \sigma_{X^\prime}\). Da qui, possiamo affermare che \(\sigma^2_T = \sigma_{XX^\prime}\), ovvero che la varianza del punteggio vero equivale alla covarianza tra due misurazioni parallele.

Ora, passiamo a calcolare la varianza dell’errore, \(\sigma^2_E\). La varianza del punteggio osservato è espressa come \(\sigma^2_X = \sigma^2_T + \sigma^2_E\). Utilizzando la definizione di attendibilità, possiamo riscrivere questa equazione come \(\sigma^2_X = \rho_{XX^\prime} \sigma^2_X + \sigma^2_E\), da cui otteniamo:

\[ \begin{equation} \begin{aligned} \sigma^2_E &= \sigma^2_X - \sigma^2_X \rho_{XX^\prime} \\ &= \sigma^2_X (1 - \rho_{XX^\prime}). \end{aligned} \end{equation} \]

Di conseguenza, la varianza dell’errore di misurazione, \(\sigma^2_E\), può essere espressa come il prodotto di due fattori: il primo rappresenta la varianza del punteggio osservato, mentre il secondo equivale a uno meno la correlazione tra le due forme parallele del test (\(\rho_{XX^\prime}\)). In conclusione, abbiamo calcolato l’incognita \(\sigma^2_E\) in termini di due quantità osservabili, \(\sigma^2_X\) e \(\rho_{XX^\prime}\).

11.6 Relazione tra Affidabilità e SEM

Si osserva che, all’aumentare dell’affidabilità di un test, l’Errore Standard di Misurazione (SEM) diminuisce. Questa relazione inversa è coerente con il fatto che il coefficiente di affidabilità riflette la proporzione della varianza dei punteggi osservati dovuta alla varianza dei punteggi veri, e il SEM è una stima dell’errore presente nei punteggi del test. Quindi, maggiore è l’affidabilità dei punteggi di un test, minore è il SEM, e maggior fiducia possiamo avere nella precisione dei punteggi del test. Viceversa, minore è l’affidabilità di un test, maggiore è il SEM, e minore è la nostra fiducia nella precisione dei punteggi del test.

Per esempio, con un coefficiente di affidabilità perfetto pari a 1.0, il SEM sarebbe uguale a 0, indicando l’assenza di errore nella misurazione e che il punteggio ottenuto rappresenta il punteggio vero. Un coefficiente di affidabilità pari a 0, invece, produrrebbe un SEM uguale alla deviazione standard (SD) dei punteggi ottenuti, indicando che tutta la varianza dei punteggi del test è dovuta a errori.

Il SEM è tradizionalmente utilizzato nel calcolo di intervalli o bande intorno ai punteggi osservati, all’interno dei quali ci si aspetta che cada il punteggio vero. Ora passeremo a questa applicazione del SEM.

11.7 Intervallo di Confidenza e Errore Standard di Misurazione (SEM)

L’intervallo di confidenza rappresenta un range di punteggi che include il vero punteggio di un individuo con una probabilità prescritta. Generalmente, utilizziamo il SEM per calcolare gli intervalli di confidenza. Il SEM fornisce informazioni sulla distribuzione dei punteggi osservati intorno ai punteggi veri.

Ad esempio, se un individuo ha un punteggio vero di 70 in un test con un SEM di 3, ci aspetteremmo che ottenga punteggi tra 67 e 73 due terzi delle volte, a patto che non ci siano cambiamenti nelle prestazioni a causa della ripetizione del test.

# Definiamo il punteggio vero e il SEM
punteggio_vero <- 70
SEM <- 3

pnorm(73, 70, 3) - pnorm(67, 70, 3)
0.682689492137086

Per ottenere un intervallo di confidenza del 95%, determiniamo il numero di deviazioni standard che comprendono il 95% dei punteggi in una distribuzione. Con un punteggio vero di 70 e un SEM di 3, l’intervallo di confidenza del 95% sarebbe 70 ± 3(1.96), ovvero 70 ± 5.88. Quindi, in questa situazione, ci aspetteremmo che il punteggio osservato dell’individuo sia tra 64.12 e 75.88, il 95% delle volte.

# Calcoliamo il valore critico Z per il livello di confidenza del 95%
livello_confidenza <- 0.95
z_critico <- qnorm((1 + livello_confidenza) / 2)

# Calcoliamo l'errore standard dell'intervallo
errore_standard_intervallo <- SEM * z_critico

# Calcoliamo l'intervallo di confidenza
intervallo_confidenza_inf <- punteggio_vero - errore_standard_intervallo
intervallo_confidenza_sup <- punteggio_vero + errore_standard_intervallo

# Stampiamo l'intervallo di confidenza
cat("L'intervallo di confidenza al 95% e' [", intervallo_confidenza_inf, ", ", intervallo_confidenza_sup, "]\n")
L'intervallo di confidenza al 95% e' [ 64.12011 ,  75.87989 ]

11.7.1 Relazione tra Affidabilità, SEM e Intervalli di Confidenza

È utile notare la relazione tra l’affidabilità di un punteggio di test, il SEM e gli intervalli di confidenza. Ricordiamo che all’aumentare dell’affidabilità dei punteggi, il SEM diminuisce. La stessa relazione esiste tra l’affidabilità dei punteggi di test e gli intervalli di confidenza. Man mano che l’affidabilità dei punteggi di test aumenta (denotando meno errore di misurazione), gli intervalli di confidenza diventano più piccoli (denotando maggiore precisione nella misurazione).

11.7.2 Vantaggio del SEM e dell’Uso degli Intervalli di Confidenza

Il SEM e l’utilizzo degli intervalli di confidenza forniscono ci ricordano che l’errore di misurazione è un elemento intrinseco a tutti i punteggi e che dovremmo interpretare tali punteggi con cautela. Troppo spesso, si tende a interpretare un singolo punteggio numerico come se fosse assolutamente preciso, trascurando la presenza di errori associati.

Per esempio, se si riporta che Alice ha un QI totale di 113, i suoi genitori potrebbero essere inclini a interpretare questo dato come un’indicazione precisa del QI di Alice, assumendo che sia esattamente 113. Tuttavia, anche quando si utilizzano test di alta qualità per misurare il QI, i punteggi ottenuti non sono privi di errore. Il SEM e gli intervalli di confidenza sono strumenti utili che ci consentono di quantificare e illustrare questa inevitabile incertezza associata ai punteggi di misurazione. Essi ci avvertono che ogni punteggio contiene una certa dose di errore e ci invitano a considerare i risultati con una visione più prudente e completa.

11.7.3 Problema nel Calcolare l’Intervallo di Confidenza

Un problema potenziale con l’approccio descritto sopra è che non conosciamo il vero punteggio dell’esaminato, ma solo il punteggio osservato. È comune usare il SEM per stabilire intervalli di confidenza intorno ai punteggi ottenuti. Tuttavia, è importante sottolineare che questa pratica non è corretta Charter (1996).

In spite of Dudek (1979)’s reminder that the SEM should not be used to construct confidence intervals, many test manuals, computer-scoring programs, and texts in psychology and education continue to do so. Because authors of many textbooks and manuals make these errors, it is understandable that those who learned from and look to these sources for guidance also make these errors. In summary, the SEM should not be used to construct confidence intervals for test scores (p. 1141).

È invece possibile costruire gli intervalli di confidenza basati su punteggi veri stimati e sull’errore standard della stima (SEE). Questo approccio verrà descritto nel prossimo capitolo.

11.8 Riflessioni Conclusive

Nel contesto della CTT, le stime di affidabilità si rivelano uno strumento fondamentale per valutare la coerenza dei test. Tuttavia, quando si affrontano decisioni relative al singolo individuo, come ad esempio determinare se un candidato supera un esame, diventa più vantaggioso fare riferimento all’errore standard di misurazione (SEM). Il SEM rende evidente quanto i punteggi di un test siano suscettibili di fluttuazioni casuali se lo stesso test venisse ripetuto più volte dallo stesso esaminando. In generale, un SEM più ridotto corrisponde a un intervallo di fluttuazioni casuali più stretto. Ciò implica che, grazie a un SEM più basso, i punteggi rifletteranno in modo più coerente le vere capacità dell’esaminando.

11.9 Session Info

sessionInfo()
R version 4.4.2 (2024-10-31)
Platform: aarch64-apple-darwin20
Running under: macOS Sequoia 15.1

Matrix products: default
BLAS:   /Library/Frameworks/R.framework/Versions/4.4-arm64/Resources/lib/libRblas.0.dylib 
LAPACK: /Library/Frameworks/R.framework/Versions/4.4-arm64/Resources/lib/libRlapack.dylib;  LAPACK version 3.12.0

locale:
[1] C

time zone: Europe/Rome
tzcode source: internal

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base     

other attached packages:
 [1] psychometric_2.4  multilevel_2.7    nlme_3.1-166      MASS_7.3-61      
 [5] viridis_0.6.5     viridisLite_0.4.2 ggpubr_0.6.0      ggExtra_0.10.1   
 [9] gridExtra_2.3     patchwork_1.3.0   bayesplot_1.11.1  semTools_0.5-6   
[13] semPlot_1.1.6     lavaan_0.6-19     psych_2.4.6.26    scales_1.3.0     
[17] markdown_1.13     knitr_1.49        lubridate_1.9.3   forcats_1.0.0    
[21] stringr_1.5.1     dplyr_1.1.4       purrr_1.0.2       readr_2.1.5      
[25] tidyr_1.3.1       tibble_3.2.1      ggplot2_3.5.1     tidyverse_2.0.0  
[29] here_1.0.1       

loaded via a namespace (and not attached):
  [1] rstudioapi_0.17.1   jsonlite_1.8.9      magrittr_2.0.3     
  [4] TH.data_1.1-2       estimability_1.5.1  farver_2.1.2       
  [7] nloptr_2.1.1        rmarkdown_2.29      vctrs_0.6.5        
 [10] minqa_1.2.8         base64enc_0.1-3     rstatix_0.7.2      
 [13] htmltools_0.5.8.1   broom_1.0.7         Formula_1.2-5      
 [16] htmlwidgets_1.6.4   plyr_1.8.9          sandwich_3.1-1     
 [19] emmeans_1.10.5      zoo_1.8-12          uuid_1.2-1         
 [22] igraph_2.1.1        mime_0.12           lifecycle_1.0.4    
 [25] pkgconfig_2.0.3     Matrix_1.7-1        R6_2.5.1           
 [28] fastmap_1.2.0       shiny_1.9.1         digest_0.6.37      
 [31] OpenMx_2.21.13      fdrtool_1.2.18      colorspace_2.1-1   
 [34] rprojroot_2.0.4     Hmisc_5.2-0         fansi_1.0.6        
 [37] timechange_0.3.0    abind_1.4-8         compiler_4.4.2     
 [40] withr_3.0.2         glasso_1.11         htmlTable_2.4.3    
 [43] backports_1.5.0     carData_3.0-5       ggsignif_0.6.4     
 [46] corpcor_1.6.10      gtools_3.9.5        tools_4.4.2        
 [49] pbivnorm_0.6.0      foreign_0.8-87      zip_2.3.1          
 [52] httpuv_1.6.15       nnet_7.3-19         glue_1.8.0         
 [55] quadprog_1.5-8      promises_1.3.0      lisrelToR_0.3      
 [58] grid_4.4.2          pbdZMQ_0.3-13       checkmate_2.3.2    
 [61] cluster_2.1.6       reshape2_1.4.4      generics_0.1.3     
 [64] gtable_0.3.6        tzdb_0.4.0          data.table_1.16.2  
 [67] hms_1.1.3           car_3.1-3           utf8_1.2.4         
 [70] sem_3.1-16          pillar_1.9.0        IRdisplay_1.1      
 [73] rockchalk_1.8.157   later_1.3.2         splines_4.4.2      
 [76] cherryblossom_0.1.0 lattice_0.22-6      survival_3.7-0     
 [79] kutils_1.73         tidyselect_1.2.1    miniUI_0.1.1.1     
 [82] pbapply_1.7-2       airports_0.1.0      stats4_4.4.2       
 [85] xfun_0.49           qgraph_1.9.8        arm_1.14-4         
 [88] stringi_1.8.4       pacman_0.5.1        boot_1.3-31        
 [91] evaluate_1.0.1      codetools_0.2-20    mi_1.1             
 [94] cli_3.6.3           RcppParallel_5.1.9  IRkernel_1.3.2     
 [97] rpart_4.1.23        xtable_1.8-4        repr_1.1.7         
[100] munsell_0.5.1       Rcpp_1.0.13-1       coda_0.19-4.1      
[103] png_0.1-8           XML_3.99-0.17       parallel_4.4.2     
[106] usdata_0.3.1        jpeg_0.1-10         lme4_1.1-35.5      
[109] mvtnorm_1.3-2       openxlsx_4.2.7.1    crayon_1.5.3       
[112] openintro_2.5.0     rlang_1.1.4         multcomp_1.4-26    
[115] mnormt_2.1.1