# Carica il file _common.R per impostazioni di pacchetti e opzioni
::here("code", "_common.R") |> source()
here
# Carica pacchetti aggiuntivi
::p_load(modelsummary, ltm) pacman
10 Metodi di stima dell’affidabilità
I punteggi dei test possano variare in base a differenze tra item, somministrazioni o valutazioni. Per misurare la stabilità e coerenza di questi punteggi, la Teoria Classica dei Test (CTT) introduce il concetto di affidabilità, che valuta l’effetto degli errori casuali.
Nel capitolo precedente abbiamo visto come l’affidabilità di un test riflette la proporzione di “punteggio vero” rispetto all’errore di misurazione, fornendo un criterio chiave per valutarne la qualità. La sfida successiva è quella di capire come stimare l’affidabilità in modo accurato, tenendo conto di queste considerazioni.
Prerequisiti
Concetti e Competenze Chiave
Preparazione del Notebook
10.1 Approcci per Stimare l’Affidabilità
Per stimare l’affidabilità (\(\rho_{TT'}\)), ci troviamo di fronte alla sfida di dover stimare una delle due componenti non direttamente osservabili: il punteggio vero o la varianza dell’errore. Ma come possiamo affrontare questa sfida? La risposta è complessa e dipende da come intendiamo concettualizzare la varianza dell’errore (\(\sigma^2_E\)).
Affidabilità delle Forme Parallele: Se il nostro interesse principale è misurare quanto accuratamente possiamo stimare il punteggio vero dai dati osservati, potrebbe essere più appropriato considerare \(\sigma^2_E\) come l’incertezza nella nostra stima attraverso ripetute somministrazioni di una misura equivalente. Questo approccio ci porta alla definizione di affidabilità delle forme parallele.
Consistenza Interna: Se invece vogliamo valutare se più elementi su una scala riflettono lo stesso costrutto sottostante, possiamo utilizzare un concetto simile all’Alpha di Cronbach (\(\alpha\)). Questo ci porta alla definizione di affidabilità come consistenza interna.
Coerenza Temporale (Affidabilità Test-Retest): Se ci interessa la coerenza di una misura nel tempo, allora \(\sigma^2_E\) potrebbe essere meglio interpretato come la varianza non comune attraverso diverse somministrazioni della stessa misura su un periodo di tempo arbitrario. Questo concetto ci conduce alla definizione di coerenza temporale o affidabilità test-retest.
In sostanza, le equazioni dell’affidabilità presentate in precedenza possono essere applicate a ciascuno dei tre tipi di affidabilità descritti sopra. La differenza fondamentale risiede nella nostra concezione e nel calcolo di \(\sigma^2_E\), che varia a seconda del contesto e degli obiettivi specifici dell’analisi.
10.2 Affidabilità come Consistenza Interna
Iniziamo esaminando tre scenari distinti che illustrano le possibili relazioni tra gli item di un test: quelli con indicatori congenerici, tau-equivalenti e paralleli. Nell’ambito della CTT, sono disponibili due indicatori principali per valutare l’affidabilità in termini di coerenza interna, a seconda del tipo di relazione tra gli item presunta: l’indice alpha di Cronbach per gli item tau-equivalenti e l’indice di Spearman-Brown per gli item paralleli.
Oltre alla consistenza interna, esistono altre misure di affidabilità, tra cui la affidabilità test-retest, la affidabilità tra forme alternative, la affidabilità tra valutatori, la affidabilità dei punteggi compositi e la affidabilità dei punteggi delle differenze.
Al centro della misurazione dell’affidabilità c’è l’errore di misurazione, e in precedenza abbiamo esaminato come lo standard error of measurement sia uno dei metodi per valutare l’errore di misurazione.
Va notato che ci riferiamo all’affidabilità come una stima, poiché l’affidabilità assoluta o precisa dei risultati della valutazione non può essere conosciuta con certezza. Proprio come ci sono sempre degli errori nei punteggi dei test, ci sono anche degli errori nei nostri tentativi di misurare l’affidabilità. Tuttavia, i metodi di stima dell’affidabilità che discuteremo sono considerati stime conservative e rappresentano il limite inferiore della vera affidabilità dei punteggi dei test. In altre parole, l’affidabilità effettiva dei punteggi dei test è almeno altrettanto alta, se non superiore, rispetto all’affidabilità stimata (Reynolds, 1999).
10.2.0.1 Coefficienti di consistenza interna
La CTT presenta il metodo delle forme parallele come un approccio parziale per stimare l’attendibilità dei test. Questo metodo prevede la somministrazione di due test distinti, indicati come \(X\) e \(X^\prime\), che valutano lo stesso costrutto, a un campione di individui nello stesso momento. In questo contesto, la correlazione tra i punteggi totali dei due test, \(\rho^2_{XT} = \rho_{XX^\prime}\), rappresenta l’indicatore principale dell’attendibilità. Tuttavia, è cruciale che le due versioni del test siano effettivamente parallele, secondo la definizione fornita dalla teoria classica dei test, affinché questa relazione sia valida.
Nella pratica, risulta impraticabile somministrare lo stesso test due volte agli stessi partecipanti “nelle stesse condizioni”, come richiesto dal metodo delle forme parallele. Di conseguenza, la stima dell’attendibilità deve basarsi sui dati raccolti attraverso una singola somministrazione del test. La CTT risponde a questa sfida introducendo specifici indicatori di coerenza interna, mirati a valutare l’affidabilità.
Questi indicatori di coerenza interna costituiscono la soluzione proposta dalla CTT per affrontare tale problematica. La loro logica si basa sull’idea che una correlazione tra i punteggi di diversi item che misurano lo stesso costrutto rifletta la varianza condivisa del punteggio reale, anziché la varianza condivisa dell’errore. Considerando che gli errori casuali dovrebbero mancare di una varianza condivisa, i coefficienti di coerenza interna riflettono la correlazione tra gli item all’interno del test, offrendo così un’indicazione dell’affidabilità generale della scala di misurazione.
Oltre a questo, gli item stessi possono rappresentare una fonte di errore nei punteggi dei test. Problemi come formulazioni confuse, item non coerenti con il costrutto, linguaggio poco comprensibile o item con risposte ambigue possono emergere quando gli item non sono formulati in modo adeguato. Tali problemi possono portare a risposte inconsistenti per due ragioni: innanzitutto, i partecipanti potrebbero reagire in modi diversi agli item problematici; in secondo luogo, tali item interferiscono con la capacità dei partecipanti di esprimere il loro reale livello del costrutto.
Per valutare la coerenza delle risposte tra gli item all’interno di una scala, vengono impiegati i coefficienti di consistenza interna. Questi coefficienti si basano sull’assunto che una correlazione tra due punteggi osservati, che misurano lo stesso costrutto, rifletta la varianza condivisa del punteggio reale, non la varianza condivisa dell’errore. Dal momento che gli errori casuali dovrebbero mancare di varianza condivisa, i coefficienti di consistenza interna riflettono la correlazione tra gli item del test e forniscono un’indicazione dell’affidabilità complessiva della scala.
Quando si valuta l’attendibilità con una singola somministrazione del test, sono disponibili vari approcci. In questo capitolo, esamineremo due metodi proposti dalla CTT: l’indice \(\alpha\) di Cronbach e il metodo di Spearman-Brown. L’indice \(\alpha\) è l’indicatore più comunemente usato per valutare l’attendibilità in termini di coerenza interna o omogeneità. Analizzeremo come questo indice rappresenta il valore minimo possibile dell’attendibilità di un test, sotto determinate ipotesi soddisfatte, e come, allo stesso tempo, può fornire una valutazione distorta dell’attendibilità se le assunzioni che delineeremo non sono rispettate.
Tuttavia, prima di esplorare dettagliatamente questi due diversi metodi di stima dell’attendibilità come coerenza interna, è essenziale distinguere tra tre diverse tipologie di relazioni tra gli item: item congenerici, item \(\tau\)-equivalenti e item paralleli.
10.2.0.2 Test paralleli
Simuliamo i punteggi di due test paralleli.
set.seed(2237) # setting the seed ensure reproducibility
<- 1000 # number of respondents
num_person # True scores for Test 1
<- rnorm(num_person, mean = 20, sd = 5)
t1 # Error scores for Test 1
<- rnorm(num_person, mean = 0, sd = 2)
e1 # Observed scores for Test 1
<- t1 + e1
x1 # True scores for Test 2
<- t1 # parallel tests have equal true scores
t2 # Error scores for Test 2
<- rnorm(num_person, mean = 0, sd = 2)
e2 # Observed scores for Test 2
<- t2 + e2
x2
# Merge into a data frame
<- data.frame(x1, x2)
test_df
<- datasummary(x1 + x2 ~ Mean + Var,
mv data = test_df,
output = "data.frame"
) mv
Mean | Var | |
---|---|---|
<chr> | <chr> | <chr> |
x1 | 20.41 | 29.20 |
x2 | 20.31 | 30.27 |
# Correlation
cor(test_df) |>
round(2)
x1 | x2 | |
---|---|---|
x1 | 1.00 | 0.87 |
x2 | 0.87 | 1.00 |
var(t1) / var(x1)
var(t2) / var(x2)
In conclusione, per test paralleli: - le medie e le varianze dei punteggi osservati sono statisticamente uguali; - la correlazione è uguale all’attendibilità.
10.2.0.3 Test \(\tau\)-equivalenti
# True scores for Test 3
<- 5 + t1 # essentially tau-equivalent tests
t3 # Error scores for Test 3 (larger error SDs)
<- rnorm(num_person, mean = 0, sd = 4)
e3 # Observed scores for Test 2
<- t3 + e3
x3
# Merge into a data frame
<- data.frame(x1, x3)
test_df2 # Get means and variances
<- datasummary(x1 + x3 ~ Mean + Var,
mv data = test_df2,
output = "data.frame"
) mv
Mean | Var | |
---|---|---|
<chr> | <chr> | <chr> |
x1 | 20.41 | 29.20 |
x3 | 25.41 | 41.50 |
# Correlation
cor(test_df2) |>
round(2)
x1 | x3 | |
---|---|---|
x1 | 1.00 | 0.72 |
x3 | 0.72 | 1.00 |
Se conosciamo i punteggi veri, l’attendibilità di X3 si trova come
# Reliability for x3
var(t3) / var(x3)
In conclusione, per test tau-equivalenti: - le medie e le varianze dei punteggi osservati sono diverse; - correlazione \(\neq\) attendibilità.
10.2.0.4 Test congenerici
# True scores for Test 4
<- 2 + 0.8 * t1
t4 # Error scores for Test 4 (larger error SDs)
<- rnorm(num_person, mean = 0, sd = 3)
e4 # Observed scores for Test 2
<- t4 + e4
x4
# Merge into a data frame
<- data.frame(x1, x4)
test_df3 # Get means and variances
<- datasummary(x1 + x4 ~ Mean + Var,
mv data = test_df3,
output = "data.frame"
) mv
Mean | Var | |
---|---|---|
<chr> | <chr> | <chr> |
x1 | 20.41 | 29.20 |
x4 | 18.27 | 24.23 |
# Correlation
cor(test_df3) |>
round(2)
x1 | x4 | |
---|---|---|
x1 | 1.00 | 0.73 |
x4 | 0.73 | 1.00 |
Se conosciamo i punteggi veri, l’attendibilità di X4 si trova come
# Reliability for x4
var(t4) / var(x4)
In conclusione, per test congenerici: - le medie e le varianze dei punteggi osservati sono diverse; - correlazione \(\neq\) attendibilità; - sono necessari più di due test per distinguere test congenerici e test \(\tau\)-equivalenti.
10.2.0.5 Coefficiente \(\alpha\) di Cronbach
Il coefficiente \(\alpha\) consente la stima dell’affidabilità nel contesto di indicatori \(\tau\)-equivalenti. In queste circostanze, l’attendibilità viene valutata utilizzando l’equazione:
\[ \alpha = \frac{{k}}{{k-1}} \left( 1 - \frac{{\sum_{i=1}^{k} \sigma_{X_i}^{2}}}{{\sigma_{X}^{2}}} \right) \]
dove: - \(k\) è il numero di item nel test, - \(\sigma_{i}^{2}\) rappresenta la varianza del punteggio dell’item \(i\), - \(\sigma_{X}^{2}\) è la varianza totale dei punteggi del test.
Una derivazione della formula del coefficiente alpha di Cronbach è fornita nel capitolo {ref}reliability-fa-notebook
.
Fu Guttman nel 1945 a scoprire questo coefficiente, anche se erroneamente attribuito a Cronbach. È spesso noto come coefficiente \(\alpha\) di Guttman-Cronbach o G-C \(\alpha\).
Quando il modello di \(\tau\)-equivalenza è applicabile, il coefficiente \(\alpha\) costituisce un limite inferiore dell’affidabilità, in altri termini, il coefficiente \(\alpha\) offre una stima prudente dell’affidabilità. Questa caratteristica è considerata uno dei principali vantaggi di questo indice. Tuttavia, è fondamentale notare che questa natura conservativa del coefficiente \(\alpha\) vale solo se le ipotesi del modello \(\tau\)-equivalente sono rispettate.
Il coefficiente di attendibilità \(\alpha\) è ampiamente utilizzato nell’ambito della psicometria. Tuttavia, come menzionato in precedenza, quando l’assunzione di \(\tau\)-equivalenza non è valida, \(\alpha\) può perdere la sua proprietà conservativa e sovrastimare l’attendibilità del test (Sijtsma, 2009). In tal caso, è necessario valutare attentamente l’adeguatezza dell’utilizzo del coefficiente \(\alpha\) come indicatore di affidabilità.
Esempio. Per illustrare la procedura di calcolo del coefficiente \(\alpha\), useremo i dati bfi
contenuti nel pacchetto psych
. Il dataframe bfi
comprende 25 item di autovalutazione della personalità. Sono riportati i dati di 2800 soggetti. Ci concentreremo qui sulla sottoscala Openness. - O1: Am full of ideas; - O2: Avoid difficult reading material; - O3: Carry the conversation to a higher level; - O4: Spend time reflecting on things; - O5: Will not probe deeply into a subject.
Leggiamo i dati in R.
data(bfi, package = "psych")
head(bfi[c("O1", "O2", "O3", "O4", "O5")])
O1 | O2 | O3 | O4 | O5 | |
---|---|---|---|---|---|
<int> | <int> | <int> | <int> | <int> | |
61617 | 3 | 6 | 3 | 4 | 3 |
61618 | 4 | 2 | 4 | 3 | 3 |
61620 | 4 | 2 | 5 | 5 | 2 |
61621 | 3 | 3 | 4 | 3 | 5 |
61622 | 3 | 3 | 4 | 3 | 3 |
61623 | 4 | 3 | 5 | 6 | 1 |
Esaminiamo la correlazione tra gli item della sottoscale Openness.
cor(bfi[c("O1", "O2", "O3", "O4", "O5")], use = "pairwise.complete.obs") |>
round(2)
O1 | O2 | O3 | O4 | O5 | |
---|---|---|---|---|---|
O1 | 1.00 | -0.21 | 0.40 | 0.18 | -0.24 |
O2 | -0.21 | 1.00 | -0.26 | -0.07 | 0.32 |
O3 | 0.40 | -0.26 | 1.00 | 0.19 | -0.31 |
O4 | 0.18 | -0.07 | 0.19 | 1.00 | -0.18 |
O5 | -0.24 | 0.32 | -0.31 | -0.18 | 1.00 |
È necessario ricodificare due item.
$O2r <- 7 - bfi$O2
bfi$O5r <- 7 - bfi$O5 bfi
cor(bfi[c("O1", "O2r", "O3", "O4", "O5r")], use = "pairwise.complete.obs") |>
round(2)
O1 | O2r | O3 | O4 | O5r | |
---|---|---|---|---|---|
O1 | 1.00 | 0.21 | 0.40 | 0.18 | 0.24 |
O2r | 0.21 | 1.00 | 0.26 | 0.07 | 0.32 |
O3 | 0.40 | 0.26 | 1.00 | 0.19 | 0.31 |
O4 | 0.18 | 0.07 | 0.19 | 1.00 | 0.18 |
O5r | 0.24 | 0.32 | 0.31 | 0.18 | 1.00 |
Consideriamo la matrice di varianze e covarianze della sottoscala Openness.
<- cov(bfi[c("O1", "O2r", "O3", "O4", "O5r")], use = "pairwise.complete.obs")
C |> round(2) C
O1 | O2r | O3 | O4 | O5r | |
---|---|---|---|---|---|
O1 | 1.28 | 0.38 | 0.54 | 0.25 | 0.36 |
O2r | 0.38 | 2.45 | 0.50 | 0.13 | 0.67 |
O3 | 0.54 | 0.50 | 1.49 | 0.29 | 0.50 |
O4 | 0.25 | 0.13 | 0.29 | 1.49 | 0.29 |
O5r | 0.36 | 0.67 | 0.50 | 0.29 | 1.76 |
Calcoliamo alpha:
<- 5
p <- (p / (p - 1)) * (1 - tr(C) / sum(C))
alpha alpha
Lo stesso risultato si ottiene utilizzando la funzione alpha()
contenuta nel pacchetto psych
:
::alpha(C) psych
Reliability analysis
Call: psych::alpha(x = C)
raw_alpha std.alpha G6(smc) average_r S/N median_r
0.6 0.61 0.57 0.24 1.5 0.23
95% confidence boundaries
lower alpha upper
Feldt -0.49 0.6 0.95
Reliability if an item is dropped:
raw_alpha std.alpha G6(smc) average_r S/N var.r med.r
O1 0.53 0.53 0.48 0.22 1.1 0.0092 0.23
O2r 0.57 0.57 0.51 0.25 1.3 0.0076 0.22
O3 0.50 0.50 0.44 0.20 1.0 0.0071 0.20
O4 0.61 0.62 0.56 0.29 1.6 0.0044 0.29
O5r 0.51 0.53 0.47 0.22 1.1 0.0115 0.20
Item statistics
r r.cor r.drop
O1 0.65 0.52 0.39
O2r 0.60 0.43 0.33
O3 0.69 0.59 0.45
O4 0.52 0.29 0.22
O5r 0.66 0.52 0.42
10.2.0.6 Metodi alternativi per la stima del coefficiente di attendibilità
Ci sono altri coefficienti di consistenza interna oltre al coefficiente alpha di Cronbach. Alcuni esempi includono il coefficiente KR-20 e il coefficiente KR-21, che vengono utilizzati con item dicotomici (ossia con risposte a due alternative, come vero/falso).
10.2.0.7 Coefficiente KR-20
La formula di Kuder-Richardson-20 (KR-20) è un caso particolare del coefficiente α. Se ogni item è dicotomico, il coefficiente α diventa il KR-20. Il coefficiente Coefficiente KR-20 si calcola con la formula:
\[ KR\_20 = \frac{{k}}{{k-1}} \left( 1 - \frac{{p(1-p)}}{{\sigma_{X}^{2}}} \right) \]
dove: - \(k\) è il numero di item nel test, - \(p\) è la proporzione di individui che rispondono correttamente all’item, - \(\sigma_{X}^{2}\) è la varianza totale dei punteggi del test.
Esempio. Per fare un esempio, consideriamo il data-set LSAT
contenuto nel pacchetto ltm
.
<- function(responses) {
KR20 # Get number of items (N) and individuals
<- ncol(responses)
n.items <- nrow(responses)
n.persons # get p_j for each item
<- colMeans(responses)
p # Get total scores (X)
<- rowSums(responses)
x # observed score variance
<- var(x) * (n.persons - 1) / n.persons
var.x # Apply KR-20 formula
<- (n.items / (n.items - 1)) * (1 - sum(p * (1 - p)) / var.x)
rel return(rel)
}
data(LSAT)
head(LSAT)
Item 1 | Item 2 | Item 3 | Item 4 | Item 5 | |
---|---|---|---|---|---|
<int> | <int> | <int> | <int> | <int> | |
1 | 0 | 0 | 0 | 0 | 0 |
2 | 0 | 0 | 0 | 0 | 0 |
3 | 0 | 0 | 0 | 0 | 0 |
4 | 0 | 0 | 0 | 0 | 1 |
5 | 0 | 0 | 0 | 0 | 1 |
6 | 0 | 0 | 0 | 0 | 1 |
KR20(LSAT)
10.2.0.8 Coefficiente KR-21
Il coefficiente Coefficiente KR-21 si calcola con la formula:
\[ KR\_21 = \frac{{k}}{{k-1}} \left( 1 - \frac{{\frac{{\sum_{i=1}^{k} p_{i}(1-p_{i})}}{{\sigma_{X}^{2}}}}}{{1 - \frac{{\sum_{i=1}^{k} p_{i}}}{k}}} \right) \]
dove: - \(k\) è il numero di item nel test, - \(p_{i}\) è la proporzione di individui che rispondono correttamente all’item \(i\), - \(\sigma_{X}^{2}\) è la varianza totale dei punteggi del test.
10.2.0.9 La formula “profetica” di Spearman-Brown
L’indice di Spearman-Brown stima l’attendibilità nel caso di \(p\) indicatori paralleli:
\[ \begin{equation} \rho_p = \frac{p \rho_1}{(p-1)\rho_1 + 1}, \end{equation} \] (eq-spearman-brown-der)
dove \(\rho_1\) rappresenta l’attendibilità di un singolo elemento.
Una derivazione della formula Spearman-Brown è fornita nel capitolo {ref}reliability-fa-notebook
.
L’equazione {eq}eq-spearman-brown-der
esprime l’attendibilità \(\rho_p\) di un test composto da \(p\) elementi paralleli in termini dell’attendibilità di un singolo elemento. Questa equazione è universalmente riconosciuta come la formula “profetica” di Spearman-Brown (Spearman-Brown prophecy formula).
Per fare un esempio concreto, poniamoci il problema di calcolare l’attendibilità della sottoscala Openness utilizzando la formula di Spearman-Brown. Ipotizziamo dunque che gli item della scala Openness siano paralleli. La matrice di correlazione è:
<- cor(bfi[c("O1", "O2r", "O3", "O4", "O5r")], use = "pairwise.complete.obs")
R |> round(2) R
O1 | O2r | O3 | O4 | O5r | |
---|---|---|---|---|---|
O1 | 1.00 | 0.21 | 0.40 | 0.18 | 0.24 |
O2r | 0.21 | 1.00 | 0.26 | 0.07 | 0.32 |
O3 | 0.40 | 0.26 | 1.00 | 0.19 | 0.31 |
O4 | 0.18 | 0.07 | 0.19 | 1.00 | 0.18 |
O5r | 0.24 | 0.32 | 0.31 | 0.18 | 1.00 |
Supponiamo di calcolare l’attendibilità di un singolo item (\(\rho_1\)) come la correlazione media tra gli item:
<- NULL
rr <- 5
p <- 1
k for (i in 1:p) {
for (j in 1:p) {
if (j != i) {
<- R[i, j]
rr[k]
}<- k + 1
k
}
}<- mean(rr, na.rm = TRUE)
ro_1 ro_1
Applicando la formula di Spearman-Brown, la stima dell’attendibilità del test diventa pari a
* ro_1) / ((p - 1) * ro_1 + 1) (p
10.3 Forme parallele del test
In alcune situazioni, è possibile avere a disposizione diverse versioni di un test che sono progettate per essere interscambiabili, in modo tale che la specifica versione del test non influenzi i punteggi ottenuti dai partecipanti. Queste forme alternative del test sono comuni soprattutto nel campo dell’educazione, dove spesso vengono preparate diverse versioni al fine di prevenire frodi o imbrogli. Inoltre, anche i ricercatori possono adottare forme alternative in studi che coinvolgono pre-test e post-test, al fine di evitare che i partecipanti beneficiino degli effetti di pratica o memoria. Tuttavia, è di fondamentale importanza determinare se i punteggi ottenuti da queste diverse versioni sono coerenti, poiché la mancanza di equivalenza tra le forme potrebbe condurre a conclusioni errate riguardo alle variazioni dei punteggi.
Le principali fonti di errore di misurazione per le forme alternative di test cognitivi derivano dalle differenze nei contenuti, nella difficoltà e nella complessità cognitiva degli item. Per quanto riguarda i test non-cognitivi, le differenze nei contenuti e nell’intensità degli item sono motivo di attenzione. Gli sviluppatori di forme alternative adottano diverse procedure al fine di garantire l’equivalenza tra le varie versioni, basandosi sulla stessa tabella di specifiche che stabilisce la proporzione di item per i diversi domini di contenuto e i livelli cognitivi o non-cognitivi. Inoltre, vengono appaiati gli item in base alla loro difficoltà e alla loro capacità discriminante.
I coefficienti di equivalenza, noti anche come affidabilità delle forme alternative, valutano la similitudine tra due o più versioni di un test. Per calcolare questi coefficienti, le diverse forme vengono somministrate agli stessi partecipanti e i punteggi ottenuti vengono correlati. Tuttavia, vi sono alcune considerazioni legate alla somministrazione dei test e alla possibile fatica dei partecipanti. Al fine di affrontare tali problematiche, possono essere adottate strategie come il bilanciamento dell’ordine di somministrazione e l’introduzione di un breve intervallo di tempo tra le diverse versioni. Inoltre, è importante considerare gli effetti della pratica o della memoria, i quali potrebbero influenzare i punteggi ottenuti nel secondo test somministrato. L’impiego del bilanciamento tra gruppi può contribuire a controllare tali effetti.
10.4 Attendibilità test-retest
Infine, esaminiamo il concetto di “affidabilità test-retest”, che si riferisce alla coerenza o stabilità dei punteggi di un test in diverse occasioni nel corso del tempo. Questo tipo di affidabilità riveste una particolare importanza nelle situazioni in cui i punteggi vengono ottenuti in momenti diversi e confrontati, come nel caso di test effettuati prima e dopo un intervento. Inoltre, è di rilievo quando i punteggi del test vengono utilizzati per prendere decisioni diagnostiche, di selezione o di collocazione. Tuttavia, è importante sottolineare che l’affidabilità test-retest non è adatta per valutare costrutti che non sono noti per la loro stabilità nel tempo. Ciò deriva dal fatto che l’analisi della stabilità di un test potrebbe essere influenzata da effettivi cambiamenti nei livelli veri del costrutto tra i partecipanti. Di conseguenza, è essenziale che i ricercatori siano consapevoli in anticipo della stabilità del costrutto che intendono misurare. È importante notare che molti costrutti di interesse nelle scienze sociali sono generalmente considerati stabili nel tempo, come ad esempio la creatività, l’abilità cognitiva e alcune caratteristiche della personalità.
10.5 Affidabilità dei punteggi compositi
L’affidabilità dei punteggi compositi si riferisce alla misura in cui più punteggi ottenuti da diverse fonti possono essere combinati per creare un punteggio complessivo. Ad esempio, nella valutazione educativa, la determinazione delle votazioni spesso si basa su un punteggio complessivo ottenuto da diverse prove e altre valutazioni somministrate durante un periodo di valutazione o un semestre. Molti test psicologici standardizzati includono diverse sottoscale che vengono combinate per formare un punteggio complessivo.
Il vantaggio dei punteggi compositi è che la loro affidabilità è generalmente maggiore rispetto a quella dei punteggi individuali delle sottoscale (o item) che contribuiscono al punteggio composto. Più precisamente, l’affidabilità di un punteggio composto è il risultato del numero di punteggi inclusi nel composto, dell’affidabilità dei punteggi individuali e della correlazione tra questi punteggi. Più punteggi sono inclusi nel composto, più alta è la correlazione tra di essi e maggiore è l’affidabilità individuale, maggiore è l’affidabilità del composto. Come abbiamo notato in precedenza, i test rappresentano semplicemente dei campioni del dominio che si intende misurare, e la combinazione di misurazioni multiple è analoga all’aumento del numero di osservazioni o della dimensione del campione.
Per fare un esempio, supponiamo di avere due variabili aleatorie, $ X $ e $ Y $, che rappresentano i punteggi di due subtest diversi. L’affidabilità (indicata come $ $) di un test è legata alla varianza del test stesso. Un modo per esprimere l’affidabilità è attraverso il rapporto tra la varianza del vero punteggio (quello che il test intende misurare) e la varianza totale del test. Supponendo che il vero punteggio e l’errore di misura siano indipendenti, la varianza totale del test è la somma della varianza del vero punteggio e della varianza dell’errore.
Quando combiniamo più subtest in un punteggio composito, stiamo in effetti aumentando la varianza del vero punteggio (poiché stiamo combinando più misurazioni del costrutto che vogliamo misurare) mentre l’errore di misura, supposto indipendente tra i subtest, si somma meno che proporzionalmente.
Per rendere queste affermazioni più concrete, consideriamo un esempio numerico nel quale supponiamo che i subtest siano correlati (il che è spesso il caso in psicometria, dove diversi subtest possono misurare aspetti correlati di un costrutto più ampio).
10.5.1 Calcolo per il Puniteggio Composito
Per esempio, dati due subtest con una varianza del vero punteggio di 25 ciascuno e una covarianza di 15 (dovuta al vero punteggio), la varianza del vero punteggio nel composito è data da:
\[ \text{Var}(Z_{vero}) = 25 + 25 + 2 \cdot 15 = 80 \]
La varianza totale nel composito, tenendo conto anche della varianza dell’errore di misura, sarà:
\[ \text{Var}(Z_{totale}) = 35 + 35 + 2 \cdot 15 = 100 \]
Il rapporto tra la varianza del vero punteggio e la varianza totale nel composito è:
\[ \text{Rapporto} = \frac{\text{Var}(Z_{vero})}{\text{Var}(Z_{totale})} = \frac{80}{100} = 0.8 \]
10.5.2 Confronto con un Singolo Subtest
La varianza del vero punteggio in un singolo subtest è data (come da ipotesi) da 25.
La varianza totale in un singolo subtest è la somma della varianza del vero punteggio e quella dell’errore di misura, quindi 35 (25 di vero punteggio + 10 di errore).
Il rapporto tra la varianza del vero punteggio e la varianza totale in un singolo subtest è:
\[ \text{Rapporto} = \frac{\text{Var}(X_{vero})}{\text{Var}(X_{totale})} = \frac{25}{35} \approx 0.714 \]
Il confronto mostra che l’affidabilità del punteggio composito (0.8) è maggiore di quella di un singolo subtest (circa 0.714). Questo esemplifica come la correlazione positiva tra i subtest possa effettivamente aumentare l’affidabilità del punteggio composito rispetto ai subtest individuali.
Quindi, il vantaggio di combinare i punteggi dai subtest in un punteggio composito emerge principalmente quando i subtest sono in qualche modo correlati e/o quando la varianza dell’errore di misura è ridotta rispetto alla varianza del vero punteggio. In pratica, l’uso di punteggi compositi è spesso giustificato dall’idea che essi forniscono una misura più completa e rappresentativa del costrutto di interesse, riducendo l’impatto dell’errore di misura specifico di ciascun subtest.
10.6 L’affidabilità dei Punteggi Differenza
Ci sono numerose situazioni in cui ricercatori e clinici vogliono considerare la differenza tra due punteggi. Qui, la variabile di interesse è un punteggio differenza che viene calcolato come:
\[ D = X - Y, \]
dove X è il punteggio su un test e Y su un altro. Ad esempio, un approccio alla diagnosi delle difficoltà di apprendimento prevede il calcolo dei punteggi differenza sottraendo il punteggio di un esaminando in un test di rendimento (ad esempio, comprensione della lettura) dal suo QI. Si presume che se la discrepanza è negativa e sufficientemente ampia (ad esempio, due o più deviazioni standard), l’esaminando non sta dimostrando un rendimento accademico commisurato all’attitudine. Se ulteriori valutazioni escludono una serie di spiegazioni come opportunità educative inadeguate o problemi sensoriali (ad esempio, problemi visivi o uditivi), la discrepanza potrebbe riflettere una difficoltà di apprendimento intrinseca.
Un altro esempio comune dell’utilizzo dei punteggi differenza si ha quando uno psicologo vuole considerare i guadagni (o le perdite) nella performance di un test nel tempo. Ad esempio, un ricercatore potrebbe voler determinare se un trattamento specifico ha portato a un miglioramento nelle prestazioni su un determinato compito. Ciò è spesso realizzato somministrando test prima e dopo l’intervento.
In queste situazioni, la variabile di interesse è un punteggio differenza. Quando si trattano punteggi differenza, è però importante ricordare che l’affidabilità dei punteggi differenza è tipicamente considerevolmente inferiore rispetto alle affidabilità dei punteggi individuali. Come regola generale, l’affidabilità dei punteggi differenza diminuisce all’aumentare della correlazione tra le misure individuali.
La formula per l’affidabilità dei punteggi differenza è data da:
\[ r_{dd} = \frac{0.5 (r_{xx} + r_{yy}) - r_{xy}}{1 - r_{xy}} \],
dove \(r_{xx}\) e \(r_{yy}\) sono le affidabilità delle due componenti della differenza e \(r_{xy}\) è la loro correlazione. Facciamo un esempio numerico varianza la correlazione tra le due componenti.
<- function(rxx, ryy, rxy) {
rdd 0.5 * (rxx + ryy) - rxy) / (1 - rxy)
(
}
seq(0.01, 0.81, by = 0.1)
- 0.01
- 0.11
- 0.21
- 0.31
- 0.41
- 0.51
- 0.61
- 0.71
- 0.81
<- 0.9
rxx <- 0.8
ryy
rdd(rxx, ryy, seq(0.01, 0.81, by = 0.1))
- 0.848484848484849
- 0.831460674157304
- 0.810126582278481
- 0.782608695652174
- 0.745762711864407
- 0.693877551020408
- 0.615384615384616
- 0.482758620689655
- 0.210526315789474
Si vede che, all’aumentare di \(r_{xy}\), l’affidabilità del punteggio differenza diminuisce.
In sintesi, si dovrebbe essere cauti nell’interpretare i punteggi differenza. L’affidabilità dei punteggi differenza è tipicamente considerevolmente inferiore rispetto alle affidabilità dei punteggi individuali. Per aggravare il problema, i punteggi differenza sono spesso calcolati utilizzando punteggi che hanno correlazioni piuttosto forti tra loro (ad esempio, punteggi di QI e di rendimento; punteggi pre e post test).
10.7 Scelta del Coefficiente di Affidabilità in Funzione del Contesto
La selezione di un coefficiente di affidabilità adeguato dipende da diversi fattori, tra cui la natura del costrutto psicologico misurato e l’uso che si intende fare dei risultati del test. È fondamentale considerare il contesto specifico in cui verrà applicato il test per identificare l’indice di affidabilità più appropriato.
10.7.1 Affidabilità Test-Retest
L’affidabilità test-retest è utile per test che vengono somministrati più volte agli stessi individui e misura la stabilità dei punteggi nel tempo. Questa misura è particolarmente importante per i test che potrebbero essere influenzati da errori di misurazione temporali. Ad esempio, in un test utilizzato per prevedere il comportamento futuro, l’affidabilità test-retest può fornire una stima affidabile della variabilità legata al tempo.
10.7.2 Affidabilità della Coerenza Interna
Per test somministrati una sola volta, è più rilevante considerare la coerenza interna. Si distinguono principalmente due metodi:
Affidabilità Split-Half: Questa stima dell’affidabilità valuta l’errore dovuto alla varianza del campionamento del contenuto, risultando utile in test con contenuti eterogenei. Ad esempio, in un test che misura costrutti multipli (depressione, ansia, rabbia, impulsività), l’approccio split-half può essere preferito, poiché divide idealmente il test in due parti equilibrate per ciascun costrutto.
Coefficienti Alfa e KR-20: Questi coefficienti stimano l’errore associato sia al campionamento del contenuto sia all’eterogeneità del costrutto misurato, risultando appropriati quando il test copre un singolo ambito di conoscenza o un unico tratto psicologico. Ad esempio, per un test sull’umore depressivo, l’alfa o il KR-20 sono indicati in quanto mirano a un dominio specifico e omogeneo.
10.7.3 Affidabilità delle Forme Alternate
Per test con diverse versioni, è necessario stimare l’affidabilità delle forme alternate per garantire la coerenza dei punteggi tra le varie versioni, assicurandosi che esse siano equivalenti e affidabili.
10.7.4 Affidabilità Inter-Valutatori
Quando il test richiede giudizi soggettivi da parte dei valutatori, diventa essenziale considerare l’affidabilità inter-valutatori. Questo tipo di affidabilità valuta la consistenza tra giudizi di diversi valutatori, assicurando che le valutazioni siano oggettive e riducendo la dipendenza dalle interpretazioni individuali.
In sintesi, la scelta del coefficiente di affidabilità dipende dal contesto del test, dalla natura del costrutto e dallo scopo del test. Una selezione accurata è cruciale per garantire la validità e l’accuratezza delle misurazioni psicologiche.
10.8 Linee Guida sulla Scelta e Valutazione dei Coefficienti di Affidabilità
La valutazione dei coefficienti di affidabilità in ambito psicometrico è influenzata da molteplici fattori.
10.8.1 Significato e Importanza dei Coefficienti di Affidabilità
I coefficienti di affidabilità rappresentano la proporzione della varianza dei punteggi attribuibile a differenze reali tra gli individui nel costrutto misurato. Ideale sarebbe raggiungere un valore di 1.0, suggerendo che tutta la varianza dei punteggi è legata a differenze effettive tra gli individui. Tuttavia, a causa dell’inevitabile errore di misurazione, una misura perfettamente affidabile è irrealizzabile. Un livello “accettabile” di affidabilità varia in base a costrutto, tempo disponibile, uso dei punteggi e metodo di stima.
10.8.2 Fattori da Considerare nella Valutazione dell’Affidabilità
Costrutto: Costrutti complessi come quelli legati alla personalità possono essere più difficili da misurare rispetto alle abilità cognitive. Un livello di affidabilità accettabile per una scala di “dipendenza” potrebbe non essere adeguato per una misura di intelligenza.
Tempo per il Test: Il tempo limitato influisce sull’affidabilità, poiché meno item aumentano l’errore di campionamento. Test brevi, come quelli per lo screening, richiedono standard di affidabilità diversi rispetto a quelli più lunghi.
Uso dei Punteggi del Test: Test diagnostici che influenzano decisioni cruciali richiedono standard di affidabilità elevati. Ad esempio, test sull’intelligenza utilizzati per diagnosi necessitano di alta affidabilità rispetto ai test usati per ricerche di gruppo o screening.
Metodo di Stima dell’Affidabilità: I metodi di stima influenzano la grandezza dei coefficienti. Ad esempio, KR-20 e alfa tendono a stimare affidabilità più bassa rispetto al metodo split-half.
10.8.3 Linee Guida Generali per i Coefficienti di Affidabilità
Ecco alcune linee guida generali:
- Decisioni importanti: Coefficienti ≥ 0.90, o persino 0.95, sono consigliabili.
- Test di rendimento e personalità: Coefficienti ≥ 0.80 sono generalmente accettabili.
- Test didattici o di screening: Coefficienti ≥ 0.70.
- Ricerca di gruppo: Coefficienti ≥ 0.60 possono essere accettabili, ma con cautela se sotto 0.70.
In conclusione, la valutazione dell’affidabilità di un test psicometrico richiede considerazioni dettagliate dei vari fattori chiave, con standard di accettabilità che variano in base al contesto del test e al suo scopo specifico.
10.9 Riflessioni Conclusive
In conclusione, la valutazione dell’affidabilità di un test richiede l’impiego di diversi coefficienti che tengono conto delle varie fonti di errore. I coefficienti di consistenza interna si concentrano sull’errore derivante dalle fluttuazioni delle risposte tra gli item, mentre quelli di equivalenza esaminano la coerenza dei punteggi tra diverse versioni del test. I coefficienti di stabilità misurano la coerenza dei punteggi nel corso del tempo. È di fondamentale importanza selezionare il tipo di affidabilità appropriato in base allo scopo del test, al fine di ottenere informazioni affidabili e utili per le decisioni basate sui punteggi ottenuti dal test.
10.10 Session Info
sessionInfo()
R version 4.3.3 (2024-02-29)
Platform: aarch64-apple-darwin20 (64-bit)
Running under: macOS Sonoma 14.4
Matrix products: default
BLAS: /Library/Frameworks/R.framework/Versions/4.3-arm64/Resources/lib/libRblas.0.dylib
LAPACK: /Library/Frameworks/R.framework/Versions/4.3-arm64/Resources/lib/libRlapack.dylib; LAPACK version 3.11.0
locale:
[1] C
time zone: Europe/Rome
tzcode source: internal
attached base packages:
[1] stats graphics grDevices utils datasets methods base
other attached packages:
[1] ltm_1.2-0 polycor_0.8-1 msm_1.7.1 MASS_7.3-60.0.1
[5] modelsummary_1.4.5 ggokabeito_0.1.0 viridis_0.6.5 viridisLite_0.4.2
[9] ggpubr_0.6.0 ggExtra_0.10.1 bayesplot_1.11.1 gridExtra_2.3
[13] patchwork_1.2.0 semTools_0.5-6 semPlot_1.1.6 lavaan_0.6-17
[17] psych_2.4.1 scales_1.3.0 markdown_1.12 knitr_1.45
[21] lubridate_1.9.3 forcats_1.0.0 stringr_1.5.1 dplyr_1.1.4
[25] purrr_1.0.2 readr_2.1.5 tidyr_1.3.1 tibble_3.2.1
[29] ggplot2_3.5.0 tidyverse_2.0.0 here_1.0.1
loaded via a namespace (and not attached):
[1] rstudioapi_0.15.0 jsonlite_1.8.8 magrittr_2.0.3
[4] nloptr_2.0.3 rmarkdown_2.26 vctrs_0.6.5
[7] minqa_1.2.6 base64enc_0.1-3 rstatix_0.7.2
[10] htmltools_0.5.7 broom_1.0.5 Formula_1.2-5
[13] htmlwidgets_1.6.4 plyr_1.8.9 uuid_1.2-0
[16] admisc_0.35 igraph_2.0.2 mime_0.12
[19] lifecycle_1.0.4 pkgconfig_2.0.3 Matrix_1.6-5
[22] R6_2.5.1 fastmap_1.1.1 shiny_1.8.0
[25] digest_0.6.34 OpenMx_2.21.11 fdrtool_1.2.17
[28] colorspace_2.1-0 rprojroot_2.0.4 Hmisc_5.1-1
[31] fansi_1.0.6 timechange_0.3.0 abind_1.4-5
[34] compiler_4.3.3 withr_3.0.0 glasso_1.11
[37] htmlTable_2.4.2 backports_1.4.1 carData_3.0-5
[40] ggsignif_0.6.4 corpcor_1.6.10 gtools_3.9.5
[43] tools_4.3.3 pbivnorm_0.6.0 foreign_0.8-86
[46] zip_2.3.1 httpuv_1.6.14 nnet_7.3-19
[49] glue_1.7.0 quadprog_1.5-8 nlme_3.1-164
[52] promises_1.2.1 lisrelToR_0.3 grid_4.3.3
[55] pbdZMQ_0.3-11 checkmate_2.3.1 cluster_2.1.6
[58] reshape2_1.4.4 generics_0.1.3 gtable_0.3.4
[61] tzdb_0.4.0 data.table_1.15.2 hms_1.1.3
[64] car_3.1-2 utf8_1.2.4 tables_0.9.17
[67] sem_3.1-15 pillar_1.9.0 IRdisplay_1.1
[70] rockchalk_1.8.157 later_1.3.2 splines_4.3.3
[73] lattice_0.22-5 survival_3.5-8 kutils_1.73
[76] tidyselect_1.2.0 miniUI_0.1.1.1 pbapply_1.7-2
[79] stats4_4.3.3 xfun_0.42 expm_0.999-9
[82] qgraph_1.9.8 arm_1.13-1 stringi_1.8.3
[85] boot_1.3-29 evaluate_0.23 mi_1.1
[88] cli_3.6.2 RcppParallel_5.1.7 IRkernel_1.3.2
[91] rpart_4.1.23 xtable_1.8-4 repr_1.1.6
[94] munsell_0.5.0 Rcpp_1.0.12 coda_0.19-4.1
[97] png_0.1-8 XML_3.99-0.16.1 parallel_4.3.3
[100] ellipsis_0.3.2 jpeg_0.1-10 lme4_1.1-35.1
[103] mvtnorm_1.2-4 insight_0.19.8 openxlsx_4.2.5.2
[106] crayon_1.5.2 rlang_1.1.3 mnormt_2.1.1