Metodi di stima dell’affidabilità

11. Metodi di stima dell’affidabilità#

Nel capitolo precedente abbiamo evidenziato come i punteggi dei test possano variare in diverse situazioni, ad esempio, in relazione alle differenze tra insiemi di item o alle variazioni tra diverse somministrazioni o valutazioni. A tal fine, sono stati sviluppati vari metodi per valutare l’affidabilità, o quanto i risultati del test siano stabili e coerenti, considerando diversi tipi di errori casuali.

11.1. La Definizione di Attendibilità#

La Teoria Classica dei Test (CTT) assume che il “punteggio osservato” $X$ sia composto da due componenti: il “punteggio vero” $T$ e l’errore di misurazione $E$. Formalmente, questa relazione può essere espressa come $X = T + E$, dove $E$ rappresenta l’errore di misurazione che si sovrappone al “punteggio vero” $T$.

Secondo questa definizione, l’errore per una singola misurazione è dato dalla differenza tra il “punteggio osservato” e il “punteggio vero”, cioè $E = X - T$. È importante notare che l’errore atteso è zero ($E(X) = 0$), e che non vi è alcuna correlazione o covarianza tra l’errore e il “punteggio vero” ($Cov(E,T) = 0$).

Con queste premesse, l’affidabilità può essere definita come il quadrato della correlazione tra il “punteggio vero” e il “punteggio osservato”, ossia $\rho^2_{XT}$. In altre parole, rappresenta la frazione di varianza del “punteggio osservato” che è spiegata dal “punteggio vero”. Un’alta affidabilità ($\rho^2_{XT} = 1$) indica che l’errore di misurazione è praticamente assente, mentre un valore inferiore indica la presenza di un errore significativo.

Un’altra prospettiva per comprendere l’affidabilità è considerare la relazione tra le varianze del “punteggio osservato”, del “punteggio vero” e dell’errore. Secondo l’assunzione di indipendenza tra l’errore e il “punteggio vero”, le varianze osservate, vere e di errore sono correlate secondo l’equazione $\sigma^2_X = \sigma^2_T + \sigma^2_E$. Di conseguenza, $\rho^2_{XT}$ può essere interpretato come la proporzione di varianza del “punteggio osservato” spiegata dal “punteggio vero”, o come 1 meno il rapporto della varianza dell’errore rispetto alla varianza del “punteggio osservato”.

In sintesi, l’affidabilità di un test può essere concepita in diversi modi, riflettendo la sua relazione con il concetto di “punteggio vero” e l’errore di misurazione. La sfida successiva è quella di stimare l’affidabilità in modo accurato, tenendo conto di queste considerazioni.

11.2. Approcci per Stimare l’Affidabilità#

Per stimare l’affidabilità ($\rho_{TT'}$), ci troviamo di fronte alla sfida di dover stimare una delle due componenti non direttamente osservabili: il punteggio vero o la varianza dell’errore. Ma come possiamo affrontare questa sfida? La risposta è complessa e dipende da come intendiamo concettualizzare la varianza dell’errore ($\sigma^2_E$).

Affidabilità delle Forme Parallele: Se il nostro interesse principale è misurare quanto accuratamente possiamo stimare il punteggio vero dai dati osservati, potrebbe essere più appropriato considerare $\sigma^2_E$ come l’incertezza nella nostra stima attraverso ripetute somministrazioni di una misura equivalente. Questo approccio ci porta alla definizione di affidabilità delle forme parallele.
Consistenza Interna: Se invece vogliamo valutare se più elementi su una scala riflettono lo stesso costrutto sottostante, possiamo utilizzare un concetto simile all’Alpha di Cronbach ($\alpha$). Questo ci porta alla definizione di affidabilità come consistenza interna.
Coerenza Temporale (Affidabilità Test-Retest): Se ci interessa la coerenza di una misura nel tempo, allora $\sigma^2_E$ potrebbe essere meglio interpretato come la varianza non comune attraverso diverse somministrazioni della stessa misura su un periodo di tempo arbitrario. Questo concetto ci conduce alla definizione di coerenza temporale o affidabilità test-retest.

In sostanza, le equazioni dell’affidabilità presentate in precedenza possono essere applicate a ciascuno dei tre tipi di affidabilità descritti sopra. La differenza fondamentale risiede nella nostra concezione e nel calcolo di $\sigma^2_E$, che varia a seconda del contesto e degli obiettivi specifici dell’analisi.

11.2.1. Affidabilità come Consistenza Interna#

Iniziamo esaminando tre scenari distinti che illustrano le possibili relazioni tra gli item di un test: quelli con indicatori congenerici, tau-equivalenti e paralleli. Nell’ambito della CTT, sono disponibili due indicatori principali per valutare l’affidabilità in termini di coerenza interna, a seconda del tipo di relazione tra gli item presunta: l’indice alpha di Cronbach per gli item tau-equivalenti e l’indice di Spearman-Brown per gli item paralleli.

Oltre alla consistenza interna, esistono altre misure di affidabilità, tra cui la affidabilità test-retest, la affidabilità tra forme alternative, la affidabilità tra valutatori, la affidabilità dei punteggi compositi e la affidabilità dei punteggi delle differenze.

Al centro della misurazione dell’affidabilità c’è l’errore di misurazione, e in precedenza abbiamo esaminato come lo standard error of measurement sia uno dei metodi per valutare l’errore di misurazione.

Va notato che ci riferiamo all’affidabilità come una stima, poiché l’affidabilità assoluta o precisa dei risultati della valutazione non può essere conosciuta con certezza. Proprio come ci sono sempre degli errori nei punteggi dei test, ci sono anche degli errori nei nostri tentativi di misurare l’affidabilità. Tuttavia, i metodi di stima dell’affidabilità che discuteremo sono considerati stime conservative e rappresentano il limite inferiore della vera affidabilità dei punteggi dei test. In altre parole, l’affidabilità effettiva dei punteggi dei test è almeno altrettanto alta, se non superiore, rispetto all’affidabilità stimata (Reynolds, 1999).

11.2.1.1. Coefficienti di consistenza interna#

La CTT presenta il metodo delle forme parallele come un approccio parziale per stimare l’attendibilità dei test. Questo metodo prevede la somministrazione di due test distinti, indicati come $X$ e $X^\prime$, che valutano lo stesso costrutto, a un campione di individui nello stesso momento. In questo contesto, la correlazione tra i punteggi totali dei due test, $\rho^2_{XT} = \rho_{XX^\prime}$, rappresenta l’indicatore principale dell’attendibilità. Tuttavia, è cruciale che le due versioni del test siano effettivamente parallele, secondo la definizione fornita dalla teoria classica dei test, affinché questa relazione sia valida.

Nella pratica, risulta impraticabile somministrare lo stesso test due volte agli stessi partecipanti “nelle stesse condizioni”, come richiesto dal metodo delle forme parallele. Di conseguenza, la stima dell’attendibilità deve basarsi sui dati raccolti attraverso una singola somministrazione del test. La CTT risponde a questa sfida introducendo specifici indicatori di coerenza interna, mirati a valutare l’affidabilità.

Questi indicatori di coerenza interna costituiscono la soluzione proposta dalla CTT per affrontare tale problematica. La loro logica si basa sull’idea che una correlazione tra i punteggi di diversi item che misurano lo stesso costrutto rifletta la varianza condivisa del punteggio reale, anziché la varianza condivisa dell’errore. Considerando che gli errori casuali dovrebbero mancare di una varianza condivisa, i coefficienti di coerenza interna riflettono la correlazione tra gli item all’interno del test, offrendo così un’indicazione dell’affidabilità generale della scala di misurazione.

Oltre a questo, gli item stessi possono rappresentare una fonte di errore nei punteggi dei test. Problemi come formulazioni confuse, item non coerenti con il costrutto, linguaggio poco comprensibile o item con risposte ambigue possono emergere quando gli item non sono formulati in modo adeguato. Tali problemi possono portare a risposte inconsistenti per due ragioni: innanzitutto, i partecipanti potrebbero reagire in modi diversi agli item problematici; in secondo luogo, tali item interferiscono con la capacità dei partecipanti di esprimere il loro reale livello del costrutto.

Per valutare la coerenza delle risposte tra gli item all’interno di una scala, vengono impiegati i coefficienti di consistenza interna. Questi coefficienti si basano sull’assunto che una correlazione tra due punteggi osservati, che misurano lo stesso costrutto, rifletta la varianza condivisa del punteggio reale, non la varianza condivisa dell’errore. Dal momento che gli errori casuali dovrebbero mancare di varianza condivisa, i coefficienti di consistenza interna riflettono la correlazione tra gli item del test e forniscono un’indicazione dell’affidabilità complessiva della scala.

Quando si valuta l’attendibilità con una singola somministrazione del test, sono disponibili vari approcci. In questo capitolo, esamineremo due metodi proposti dalla CTT: l’indice $\alpha$ di Cronbach e il metodo di Spearman-Brown. L’indice $\alpha$ è l’indicatore più comunemente usato per valutare l’attendibilità in termini di coerenza interna o omogeneità. Analizzeremo come questo indice rappresenta il valore minimo possibile dell’attendibilità di un test, sotto determinate ipotesi soddisfatte, e come, allo stesso tempo, può fornire una valutazione distorta dell’attendibilità se le assunzioni che delineeremo non sono rispettate.

Tuttavia, prima di esplorare dettagliatamente questi due diversi metodi di stima dell’attendibilità come coerenza interna, è essenziale distinguere tra tre diverse tipologie di relazioni tra gli item: item congenerici, item $\tau$-equivalenti e item paralleli.

11.2.1.2. Test paralleli#

Simuliamo i punteggi di due test paralleli.

set.seed(2237) # setting the seed ensure reproducibility
num_person <- 1000 # number of respondents
# True scores for Test 1
t1 <- rnorm(num_person, mean = 20, sd = 5)
# Error scores for Test 1
e1 <- rnorm(num_person, mean = 0, sd = 2)
# Observed scores for Test 1
x1 <- t1 + e1
# True scores for Test 2
t2 <- t1 # parallel tests have equal true scores
# Error scores for Test 2
e2 <- rnorm(num_person, mean = 0, sd = 2)
# Observed scores for Test 2
x2 <- t2 + e2

# Merge into a data frame
test_df <- data.frame(x1, x2)

mv <- datasummary(x1 + x2 ~ Mean + Var,
    data = test_df,
    output = "data.frame"
)
mv

A data.frame: 2 × 3
	Mean	Var
<chr>	<chr>	<chr>
x1	20.41	29.20
x2	20.31	30.27

# Correlation
cor(test_df) |>
    round(2)

A matrix: 2 × 2 of type dbl
	x1	x2
x1	1.00	0.87
x2	0.87	1.00

var(t1) / var(x1)

0.878424313030747

var(t2) / var(x2)

0.847351804948915

In conclusione, per test paralleli:

le medie e le varianze dei punteggi osservati sono statisticamente uguali;
la correlazione è uguale all’attendibilità.

11.2.1.3. Test $\tau$-equivalenti#

# True scores for Test 3
t3 <- 5 + t1 # essentially tau-equivalent tests
# Error scores for Test 3 (larger error SDs)
e3 <- rnorm(num_person, mean = 0, sd = 4)
# Observed scores for Test 2
x3 <- t3 + e3

# Merge into a data frame
test_df2 <- data.frame(x1, x3)
# Get means and variances
mv <- datasummary(x1 + x3 ~ Mean + Var,
    data = test_df2,
    output = "data.frame"
)
mv

A data.frame: 2 × 3
	Mean	Var
<chr>	<chr>	<chr>
x1	20.41	29.20
x3	25.41	41.50

# Correlation
cor(test_df2) |>
    round(2)

A matrix: 2 × 2 of type dbl
	x1	x3
x1	1.00	0.72
x3	0.72	1.00

Se conosciamo i punteggi veri, l’attendibilità di X3 si trova come

# Reliability for x3
var(t3) / var(x3)

0.618012243898734

In conclusione, per test tau-equivalenti:

le medie e le varianze dei punteggi osservati sono diverse;
correlazione $\neq$ attendibilità.

11.2.1.4. Test congenerici#

# True scores for Test 4
t4 <- 2 + 0.8 * t1
# Error scores for Test 4 (larger error SDs)
e4 <- rnorm(num_person, mean = 0, sd = 3)
# Observed scores for Test 2
x4 <- t4 + e4

# Merge into a data frame
test_df3 <- data.frame(x1, x4)
# Get means and variances
mv <- datasummary(x1 + x4 ~ Mean + Var,
    data = test_df3,
    output = "data.frame"
)
mv

A data.frame: 2 × 3
	Mean	Var
<chr>	<chr>	<chr>
x1	20.41	29.20
x4	18.27	24.23

# Correlation
cor(test_df3) |>
    round(2)

A matrix: 2 × 2 of type dbl
	x1	x4
x1	1.00	0.73
x4	0.73	1.00

Se conosciamo i punteggi veri, l’attendibilità di X4 si trova come

# Reliability for x4
var(t4) / var(x4)

0.677398252481377

In conclusione, per test congenerici:

le medie e le varianze dei punteggi osservati sono diverse;
correlazione $\neq$ attendibilità;
sono necessari più di due test per distinguere test congenerici e test $\tau$-equivalenti.

11.2.1.5. Coefficiente $\alpha$ di Cronbach#

Il coefficiente $\alpha$ consente la stima dell’affidabilità nel contesto di indicatori $\tau$-equivalenti. In queste circostanze, l’attendibilità viene valutata utilizzando l’equazione:

\[ \alpha = \frac{{k}}{{k-1}} \left( 1 - \frac{{\sum_{i=1}^{k} \sigma_{X_i}^{2}}}{{\sigma_{X}^{2}}} \right) \]

dove:

$k$ è il numero di item nel test,
$\sigma_{i}^{2}$ rappresenta la varianza del punteggio dell’item $i$,
$\sigma_{X}^{2}$ è la varianza totale dei punteggi del test.

Una derivazione della formula del coefficiente alpha di Cronbach è fornita nel capitolo Punteggio totale e modello fattoriale.

Fu Guttman nel 1945 a scoprire questo coefficiente, anche se erroneamente attribuito a Cronbach. È spesso noto come coefficiente $\alpha$ di Guttman-Cronbach o G-C $\alpha$.

Quando il modello di $\tau$-equivalenza è applicabile, il coefficiente $\alpha$ costituisce un limite inferiore dell’affidabilità, in altri termini, il coefficiente $\alpha$ offre una stima prudente dell’affidabilità. Questa caratteristica è considerata uno dei principali vantaggi di questo indice. Tuttavia, è fondamentale notare che questa natura conservativa del coefficiente $\alpha$ vale solo se le ipotesi del modello $\tau$-equivalente sono rispettate.

Il coefficiente di attendibilità $\alpha$ è ampiamente utilizzato nell’ambito della psicometria. Tuttavia, come menzionato in precedenza, quando l’assunzione di $\tau$-equivalenza non è valida, $\alpha$ può perdere la sua proprietà conservativa e sovrastimare l’attendibilità del test (Sijtsma, 2009). In tal caso, è necessario valutare attentamente l’adeguatezza dell’utilizzo del coefficiente $\alpha$ come indicatore di affidabilità.

Esempio. Per illustrare la procedura di calcolo del coefficiente $\alpha$, useremo i dati bfi contenuti nel pacchetto psych. Il dataframe bfi comprende 25 item di autovalutazione della personalità. Sono riportati i dati di 2800 soggetti. Ci concentreremo qui sulla sottoscala Openness.

O1: Am full of ideas;
O2: Avoid difficult reading material;
O3: Carry the conversation to a higher level;
O4: Spend time reflecting on things;
O5: Will not probe deeply into a subject.

Leggiamo i dati in R.

data(bfi, package = "psych")
head(bfi[c("O1", "O2", "O3", "O4", "O5")])

A data.frame: 6 × 5
	O1	O2	O3	O4	O5
	<int>	<int>	<int>	<int>	<int>
61617	3	6	3	4	3
61618	4	2	4	3	3
61620	4	2	5	5	2
61621	3	3	4	3	5
61622	3	3	4	3	3
61623	4	3	5	6	1

Esaminiamo la correlazione tra gli item della sottoscale Openness.

cor(bfi[c("O1", "O2", "O3", "O4", "O5")], use = "pairwise.complete.obs") |>
    round(2)

A matrix: 5 × 5 of type dbl
	O1	O2	O3	O4	O5
O1	1.00	-0.21	0.40	0.18	-0.24
O2	-0.21	1.00	-0.26	-0.07	0.32
O3	0.40	-0.26	1.00	0.19	-0.31
O4	0.18	-0.07	0.19	1.00	-0.18
O5	-0.24	0.32	-0.31	-0.18	1.00

È necessario ricodificare due item.

bfi$O2r <- 7 - bfi$O2
bfi$O5r <- 7 - bfi$O5

cor(bfi[c("O1", "O2r", "O3", "O4", "O5r")], use = "pairwise.complete.obs") |>
    round(2)

A matrix: 5 × 5 of type dbl
	O1	O2r	O3	O4	O5r
O1	1.00	0.21	0.40	0.18	0.24
O2r	0.21	1.00	0.26	0.07	0.32
O3	0.40	0.26	1.00	0.19	0.31
O4	0.18	0.07	0.19	1.00	0.18
O5r	0.24	0.32	0.31	0.18	1.00

Consideriamo la matrice di varianze e covarianze della sottoscala Openness.

C <- cov(bfi[c("O1", "O2r", "O3", "O4", "O5r")], use = "pairwise.complete.obs")
C |> round(2)

A matrix: 5 × 5 of type dbl
	O1	O2r	O3	O4	O5r
O1	1.28	0.38	0.54	0.25	0.36
O2r	0.38	2.45	0.50	0.13	0.67
O3	0.54	0.50	1.49	0.29	0.50
O4	0.25	0.13	0.29	1.49	0.29
O5r	0.36	0.67	0.50	0.29	1.76

Calcoliamo alpha:

p <- 5
alpha <- (p / (p - 1)) * (1 - tr(C) / sum(C))
alpha

0.600172514820215

Lo stesso risultato si ottiene utilizzando la funzione alpha() contenuta nel pacchetto psych:

psych::alpha(C)

Reliability analysis   
Call: psych::alpha(x = C)

  raw_alpha std.alpha G6(smc) average_r S/N median_r
       0.6      0.61    0.57      0.24 1.5     0.23

    95% confidence boundaries 
      lower alpha upper
Feldt -0.49   0.6  0.95

 Reliability if an item is dropped:
    raw_alpha std.alpha G6(smc) average_r S/N  var.r med.r
O1       0.53      0.53    0.48      0.22 1.1 0.0092  0.23
O2r      0.57      0.57    0.51      0.25 1.3 0.0076  0.22
O3       0.50      0.50    0.44      0.20 1.0 0.0071  0.20
O4       0.61      0.62    0.56      0.29 1.6 0.0044  0.29
O5r      0.51      0.53    0.47      0.22 1.1 0.0115  0.20

 Item statistics 
       r r.cor r.drop
O1  0.65  0.52   0.39
O2r 0.60  0.43   0.33
O3  0.69  0.59   0.45
O4  0.52  0.29   0.22
O5r 0.66  0.52   0.42

11.2.1.6. Metodi alternativi per la stima del coefficiente di attendibilità#

Ci sono altri coefficienti di consistenza interna oltre al coefficiente alpha di Cronbach. Alcuni esempi includono il coefficiente KR-20 e il coefficiente KR-21, che vengono utilizzati con item dicotomici (ossia con risposte a due alternative, come vero/falso).

11.2.1.7. Coefficiente KR-20#

La formula di Kuder-Richardson-20 (KR-20) è un caso particolare del coefficiente α. Se ogni item è dicotomico, il coefficiente α diventa il KR-20. Il coefficiente Coefficiente KR-20 si calcola con la formula:

\[ KR\_20 = \frac{{k}}{{k-1}} \left( 1 - \frac{{p(1-p)}}{{\sigma_{X}^{2}}} \right) \]

dove:

$k$ è il numero di item nel test,
$p$ è la proporzione di individui che rispondono correttamente all’item,
$\sigma_{X}^{2}$ è la varianza totale dei punteggi del test.

Esempio. Per fare un esempio, consideriamo il data-set LSAT contenuto nel pacchetto ltm.

KR20 <- function(responses) {
    # Get number of items (N) and individuals
    n.items <- ncol(responses)
    n.persons <- nrow(responses)
    # get p_j for each item
    p <- colMeans(responses)
    # Get total scores (X)
    x <- rowSums(responses)
    # observed score variance
    var.x <- var(x) * (n.persons - 1) / n.persons
    # Apply KR-20 formula
    rel <- (n.items / (n.items - 1)) * (1 - sum(p * (1 - p)) / var.x)
    return(rel)
}

data(LSAT)
head(LSAT)

A data.frame: 6 × 5
	Item 1	Item 2	Item 3	Item 4	Item 5
	<int>	<int>	<int>	<int>	<int>
1	0	0	0	0	0
2	0	0	0	0	0
3	0	0	0	0	0
4	0	0	0	0	1
5	0	0	0	0	1
6	0	0	0	0	1

KR20(LSAT)

0.294997192215944

11.2.1.8. Coefficiente KR-21#

Il coefficiente Coefficiente KR-21 si calcola con la formula:

\[ KR\_21 = \frac{{k}}{{k-1}} \left( 1 - \frac{{\frac{{\sum_{i=1}^{k} p_{i}(1-p_{i})}}{{\sigma_{X}^{2}}}}}{{1 - \frac{{\sum_{i=1}^{k} p_{i}}}{k}}} \right) \]

dove:

$k$ è il numero di item nel test,
$p_{i}$ è la proporzione di individui che rispondono correttamente all’item $i$,
$\sigma_{X}^{2}$ è la varianza totale dei punteggi del test.

11.2.1.9. La formula “profetica” di Spearman-Brown#

L’indice di Spearman-Brown stima l’attendibilità nel caso di $p$ indicatori paralleli:

(11.1)#\[ \begin{equation} \rho_p = \frac{p \rho_1}{(p-1)\rho_1 + 1}, \end{equation} \]

dove $\rho_1$ rappresenta l’attendibilità di un singolo elemento.

Una derivazione della formula Spearman-Brown è fornita nel capitolo Punteggio totale e modello fattoriale.

L’equazione (31.13) esprime l’attendibilità $\rho_p$ di un test composto da $p$ elementi paralleli in termini dell’attendibilità di un singolo elemento. Questa equazione è universalmente riconosciuta come la formula “profetica” di Spearman-Brown (Spearman-Brown prophecy formula).

Per fare un esempio concreto, poniamoci il problema di calcolare l’attendibilità della sottoscala Openness utilizzando la formula di Spearman-Brown. Ipotizziamo dunque che gli item della scala Openness siano paralleli. La matrice di correlazione è:

R <- cor(bfi[c("O1", "O2r", "O3", "O4", "O5r")], use = "pairwise.complete.obs")
R |> round(2)

A matrix: 5 × 5 of type dbl
	O1	O2r	O3	O4	O5r
O1	1.00	0.21	0.40	0.18	0.24
O2r	0.21	1.00	0.26	0.07	0.32
O3	0.40	0.26	1.00	0.19	0.31
O4	0.18	0.07	0.19	1.00	0.18
O5r	0.24	0.32	0.31	0.18	1.00

Supponiamo di calcolare l’attendibilità di un singolo item ($\rho_1$) come la correlazione media tra gli item:

rr <- NULL
p <- 5
k <- 1
for (i in 1:p) {
    for (j in 1:p) {
        if (j != i) {
            rr[k] <- R[i, j]
        }
        k <- k + 1
    }
}
ro_1 <- mean(rr, na.rm = TRUE)
ro_1

0.236538319550859

Applicando la formula di Spearman-Brown, la stima dell’attendibilità del test diventa pari a

(p * ro_1) / ((p - 1) * ro_1 + 1)

0.60770732243972

11.2.2. Forme parallele del test#

In alcune situazioni, è possibile avere a disposizione diverse versioni di un test che sono progettate per essere interscambiabili, in modo tale che la specifica versione del test non influenzi i punteggi ottenuti dai partecipanti. Queste forme alternative del test sono comuni soprattutto nel campo dell’educazione, dove spesso vengono preparate diverse versioni al fine di prevenire frodi o imbrogli. Inoltre, anche i ricercatori possono adottare forme alternative in studi che coinvolgono pre-test e post-test, al fine di evitare che i partecipanti beneficiino degli effetti di pratica o memoria. Tuttavia, è di fondamentale importanza determinare se i punteggi ottenuti da queste diverse versioni sono coerenti, poiché la mancanza di equivalenza tra le forme potrebbe condurre a conclusioni errate riguardo alle variazioni dei punteggi.

Le principali fonti di errore di misurazione per le forme alternative di test cognitivi derivano dalle differenze nei contenuti, nella difficoltà e nella complessità cognitiva degli item. Per quanto riguarda i test non-cognitivi, le differenze nei contenuti e nell’intensità degli item sono motivo di attenzione. Gli sviluppatori di forme alternative adottano diverse procedure al fine di garantire l’equivalenza tra le varie versioni, basandosi sulla stessa tabella di specifiche che stabilisce la proporzione di item per i diversi domini di contenuto e i livelli cognitivi o non-cognitivi. Inoltre, vengono appaiati gli item in base alla loro difficoltà e alla loro capacità discriminante.

I coefficienti di equivalenza, noti anche come affidabilità delle forme alternative, valutano la similitudine tra due o più versioni di un test. Per calcolare questi coefficienti, le diverse forme vengono somministrate agli stessi partecipanti e i punteggi ottenuti vengono correlati. Tuttavia, vi sono alcune considerazioni legate alla somministrazione dei test e alla possibile fatica dei partecipanti. Al fine di affrontare tali problematiche, possono essere adottate strategie come il bilanciamento dell’ordine di somministrazione e l’introduzione di un breve intervallo di tempo tra le diverse versioni. Inoltre, è importante considerare gli effetti della pratica o della memoria, i quali potrebbero influenzare i punteggi ottenuti nel secondo test somministrato. L’impiego del bilanciamento tra gruppi può contribuire a controllare tali effetti.

11.2.3. Attendibilità test-retest#

Infine, esaminiamo il concetto di “affidabilità test-retest”, che si riferisce alla coerenza o stabilità dei punteggi di un test in diverse occasioni nel corso del tempo. Questo tipo di affidabilità riveste una particolare importanza nelle situazioni in cui i punteggi vengono ottenuti in momenti diversi e confrontati, come nel caso di test effettuati prima e dopo un intervento. Inoltre, è di rilievo quando i punteggi del test vengono utilizzati per prendere decisioni diagnostiche, di selezione o di collocazione. Tuttavia, è importante sottolineare che l’affidabilità test-retest non è adatta per valutare costrutti che non sono noti per la loro stabilità nel tempo. Ciò deriva dal fatto che l’analisi della stabilità di un test potrebbe essere influenzata da effettivi cambiamenti nei livelli veri del costrutto tra i partecipanti. Di conseguenza, è essenziale che i ricercatori siano consapevoli in anticipo della stabilità del costrutto che intendono misurare. È importante notare che molti costrutti di interesse nelle scienze sociali sono generalmente considerati stabili nel tempo, come ad esempio la creatività, l’abilità cognitiva e alcune caratteristiche della personalità.

11.3. Affidabilità dei punteggi compositi#

L’affidabilità dei punteggi compositi si riferisce alla misura in cui più punteggi ottenuti da diverse fonti possono essere combinati per creare un punteggio complessivo. Ad esempio, nella valutazione educativa, la determinazione delle votazioni spesso si basa su un punteggio complessivo ottenuto da diverse prove e altre valutazioni somministrate durante un periodo di valutazione o un semestre. Molti test psicologici standardizzati includono diverse sottoscale che vengono combinate per formare un punteggio complessivo.

Il vantaggio dei punteggi compositi è che la loro affidabilità è generalmente maggiore rispetto a quella dei punteggi individuali delle sottoscale (o item) che contribuiscono al punteggio composto. Più precisamente, l’affidabilità di un punteggio composto è il risultato del numero di punteggi inclusi nel composto, dell’affidabilità dei punteggi individuali e della correlazione tra questi punteggi. Più punteggi sono inclusi nel composto, più alta è la correlazione tra di essi e maggiore è l’affidabilità individuale, maggiore è l’affidabilità del composto. Come abbiamo notato in precedenza, i test rappresentano semplicemente dei campioni del dominio che si intende misurare, e la combinazione di misurazioni multiple è analoga all’aumento del numero di osservazioni o della dimensione del campione.

Per fare un esempio, supponiamo di avere due variabili aleatorie, $ X $ e $ Y $, che rappresentano i punteggi di due subtest diversi. L’affidabilità (indicata come $ \rho $) di un test è legata alla varianza del test stesso. Un modo per esprimere l’affidabilità è attraverso il rapporto tra la varianza del vero punteggio (quello che il test intende misurare) e la varianza totale del test. Supponendo che il vero punteggio e l’errore di misura siano indipendenti, la varianza totale del test è la somma della varianza del vero punteggio e della varianza dell’errore.

Quando combiniamo più subtest in un punteggio composito, stiamo in effetti aumentando la varianza del vero punteggio (poiché stiamo combinando più misurazioni del costrutto che vogliamo misurare) mentre l’errore di misura, supposto indipendente tra i subtest, si somma meno che proporzionalmente.

Per rendere queste affermazioni più concrete, consideriamo un esempio numerico nel quale supponiamo che i subtest siano correlati (il che è spesso il caso in psicometria, dove diversi subtest possono misurare aspetti correlati di un costrutto più ampio).

11.3.1. Calcolo per il Puniteggio Composito#

Per esempio, dati due subtest con una varianza del vero punteggio di 25 ciascuno e una covarianza di 15 (dovuta al vero punteggio), la varianza del vero punteggio nel composito è data da:

\[ \text{Var}(Z_{vero}) = 25 + 25 + 2 \cdot 15 = 80 \]

La varianza totale nel composito, tenendo conto anche della varianza dell’errore di misura, sarà:

\[ \text{Var}(Z_{totale}) = 35 + 35 + 2 \cdot 15 = 100 \]

Il rapporto tra la varianza del vero punteggio e la varianza totale nel composito è:

\[ \text{Rapporto} = \frac{\text{Var}(Z_{vero})}{\text{Var}(Z_{totale})} = \frac{80}{100} = 0.8 \]

11.3.2. Confronto con un Singolo Subtest#

La varianza del vero punteggio in un singolo subtest è data (come da ipotesi) da 25.

La varianza totale in un singolo subtest è la somma della varianza del vero punteggio e quella dell’errore di misura, quindi 35 (25 di vero punteggio + 10 di errore).

Il rapporto tra la varianza del vero punteggio e la varianza totale in un singolo subtest è:

\[ \text{Rapporto} = \frac{\text{Var}(X_{vero})}{\text{Var}(X_{totale})} = \frac{25}{35} \approx 0.714 \]

Il confronto mostra che l’affidabilità del punteggio composito (0.8) è maggiore di quella di un singolo subtest (circa 0.714). Questo esemplifica come la correlazione positiva tra i subtest possa effettivamente aumentare l’affidabilità del punteggio composito rispetto ai subtest individuali.

Quindi, il vantaggio di combinare i punteggi dai subtest in un punteggio composito emerge principalmente quando i subtest sono in qualche modo correlati e/o quando la varianza dell’errore di misura è ridotta rispetto alla varianza del vero punteggio. In pratica, l’uso di punteggi compositi è spesso giustificato dall’idea che essi forniscono una misura più completa e rappresentativa del costrutto di interesse, riducendo l’impatto dell’errore di misura specifico di ciascun subtest.

11.4. L’affidabilità dei Punteggi Differenza#

Ci sono numerose situazioni in cui ricercatori e clinici vogliono considerare la differenza tra due punteggi. Qui, la variabile di interesse è un punteggio differenza che viene calcolato come:

\[ D = X - Y, \]

dove X è il punteggio su un test e Y su un altro. Ad esempio, un approccio alla diagnosi delle difficoltà di apprendimento prevede il calcolo dei punteggi differenza sottraendo il punteggio di un esaminando in un test di rendimento (ad esempio, comprensione della lettura) dal suo QI. Si presume che se la discrepanza è negativa e sufficientemente ampia (ad esempio, due o più deviazioni standard), l’esaminando non sta dimostrando un rendimento accademico commisurato all’attitudine. Se ulteriori valutazioni escludono una serie di spiegazioni come opportunità educative inadeguate o problemi sensoriali (ad esempio, problemi visivi o uditivi), la discrepanza potrebbe riflettere una difficoltà di apprendimento intrinseca.

Un altro esempio comune dell’utilizzo dei punteggi differenza si ha quando uno psicologo vuole considerare i guadagni (o le perdite) nella performance di un test nel tempo. Ad esempio, un ricercatore potrebbe voler determinare se un trattamento specifico ha portato a un miglioramento nelle prestazioni su un determinato compito. Ciò è spesso realizzato somministrando test prima e dopo l’intervento.

In queste situazioni, la variabile di interesse è un punteggio differenza. Quando si trattano punteggi differenza, è però importante ricordare che l’affidabilità dei punteggi differenza è tipicamente considerevolmente inferiore rispetto alle affidabilità dei punteggi individuali. Come regola generale, l’affidabilità dei punteggi differenza diminuisce all’aumentare della correlazione tra le misure individuali.

La formula per l’affidabilità dei punteggi differenza è data da:

$$ r_{dd} = \frac{0.5 (r_{xx} + r_{yy}) - r_{xy}}{1 - r_{xy}} $$,

dove $r_{xx}$ e $r_{yy}$ sono le affidabilità delle due componenti della differenza e $r_{xy}$ è la loro correlazione. Facciamo un esempio numerico varianza la correlazione tra le due componenti.

rdd <- function(rxx, ryy, rxy) {
    (0.5 * (rxx + ryy) - rxy) / (1 - rxy)
}

seq(0.01, 0.81, by = 0.1)

0.01
0.11
0.21
0.31
0.41
0.51
0.61
0.71
0.81

rxx <- 0.9
ryy <- 0.8

rdd(rxx, ryy, seq(0.01, 0.81, by = 0.1))

0.848484848484849
0.831460674157304
0.810126582278481
0.782608695652174
0.745762711864407
0.693877551020408
0.615384615384616
0.482758620689655
0.210526315789474

Si vede che, all’aumentare di $r_{xy}$, l’affidabilità del punteggio differenza diminuisce.

In sintesi, si dovrebbe essere cauti nell’interpretare i punteggi differenza. L’affidabilità dei punteggi differenza è tipicamente considerevolmente inferiore rispetto alle affidabilità dei punteggi individuali. Per aggravare il problema, i punteggi differenza sono spesso calcolati utilizzando punteggi che hanno correlazioni piuttosto forti tra loro (ad esempio, punteggi di QI e di rendimento; punteggi pre e post test).

11.5. Scelta del Coefficiente di Affidabilità in Funzione del Contesto#

La selezione di un coefficiente di affidabilità adeguato dipende da vari fattori, inclusa la natura del costrutto psicologico e l’utilizzo previsto dei punteggi del test. È essenziale considerare il contesto specifico in cui il test verrà impiegato per determinare l’indice di affidabilità più appropriato.

11.5.1. Affidabilità Test-Retest#

L’affidabilità test-retest è rilevante quando un test viene somministrato ripetutamente agli stessi soggetti. Questo tipo di affidabilità misura la stabilità dei punteggi nel tempo, rendendola particolarmente utile per test che sono sensibili agli errori di misurazione legati al tempo. Ad esempio, se un test è impiegato per predire il comportamento futuro di un individuo, l’affidabilità test-retest fornisce una stima significativa dell’errore dovuto alla variabilità temporale.

11.5.2. Affidabilità della Coerenza Interna#

Quando un test è previsto per essere somministrato una sola volta, è più pertinente considerare la coerenza interna. Ci sono due approcci principali:

Affidabilità Split-Half: Questo metodo stima l’errore dovuto alla varianza del campionamento del contenuto. È adatto per test con contenuti eterogenei, dove l’eterogeneità è intenzionale. Ad esempio, in un test che valuta più costrutti psicologici (come depressione, ansia, rabbia, impulsività), l’approccio split-half può essere preferibile. Qui, si divide idealmente il test in due parti, con un numero equo di item per ogni tratto o caratteristica in ciascuna metà.
Coefficienti Alfa e KR-20: Questi coefficienti stimano l’errore dovuto sia al campionamento del contenuto che all’eterogeneità di questo. Sono applicabili quando il test misura un’area di conoscenza omogenea o un singolo tratto. Per esempio, un test che valuta specificamente l’umore depressivo potrebbe avvalersi efficacemente del coefficiente alfa o del KR-20, poiché si focalizza su un dominio omogeneo.

11.5.3. Affidabilità delle Forme Alternate#

Se esistono diverse forme di un test, è importante stimare l’affidabilità delle forme alternate. Questo approccio misura la consistenza dei punteggi tra diverse versioni del test, garantendo che le varie forme siano equivalenti e affidabili.

11.5.4. Affidabilità Intervalutatori#

Nel caso in cui il test richieda un giudizio soggettivo da parte dei valutatori, diventa cruciale considerare l’affidabilità intervalutatori. Questo tipo di affidabilità valuta la consistenza dei giudizi tra diversi valutatori, assicurando che le valutazioni siano obiettive e non dipendano significativamente dall’interpretazione individuale.

In sintesi, la scelta del coefficiente di affidabilità dipende dal contesto specifico del test, dalla natura del costrutto da misurare e dall’uso previsto dei risultati del test. È fondamentale valutare attentamente questi fattori per garantire la validità e l’accuratezza delle misurazioni psicologiche.

11.6. Linee Guida sulla Scelta e Valutazione dei Coefficienti di Affidabilità#

La scelta e la valutazione dei coefficienti di affidabilità in ambito psicometrico sono processi complessi influenzati da diversi fattori.

11.6.1. Significato e Importanza dei Coefficienti di Affidabilità#

I coefficienti di affidabilità possono essere interpretati come la proporzione della varianza dei punteggi di un test attribuibile a differenze reali tra gli individui nel costrutto valutato. Idealmente, vorremmo che questi coefficienti raggiungessero il valore di 1.0, indicando che il 100% della varianza dei punteggi di test è dovuto a vere differenze tra gli individui. Tuttavia, a causa dell’errore di misurazione, una misura perfettamente affidabile non esiste. Non vi è una risposta univoca su quale sia un livello accettabile di affidabilità; ciò dipende da vari fattori come il costrutto misurato, il tempo disponibile per il test, l’uso dei punteggi e il metodo di stima dell’affidabilità.

11.6.2. Fattori da Considerare nella Valutazione dell’Affidabilità#

11.6.2.1. Il Costrutto#

Alcuni costrutti sono più difficili da misurare rispetto ad altri a causa della complessità del dominio degli item. Ad esempio, le variabili di personalità sono generalmente più difficili da misurare rispetto alle abilità cognitive. Pertanto, un livello di affidabilità accettabile per un test sulla “dipendenza” potrebbe essere inadeguato per un test sull’intelligenza. È importante considerare la natura del costrutto e la sua difficoltà di misurazione.

11.6.2.2. Tempo Disponibile per il Test#

Se il tempo disponibile per il test è limitato, ciò può influenzare l’affidabilità. Un numero limitato di item può aumentare l’errore nel campionamento del dominio del test. Ad esempio, test rapidi per lo screening dei problemi di lettura richiederanno standard di affidabilità diversi rispetto a test più lunghi, come quelli per l’intelligenza.

11.6.2.3. Uso dei Punteggi del Test#

L’uso previsto dei punteggi del test è un altro fattore cruciale. Test diagnostici che influenzano decisioni importanti su un individuo richiedono standard di affidabilità più elevati rispetto ai test utilizzati per ricerche di gruppo o screening. Ad esempio, test sull’intelligenza utilizzati nella diagnosi di disabilità intellettuali richiedono un’alta affidabilità.

11.6.2.4. Metodo di Stima dell’Affidabilità#

Il metodo scelto per stimare l’affidabilità può influenzare la grandezza dei coefficienti di affidabilità. Alcuni metodi, come KR-20 e il coefficiente alfa, tendono a produrre stime di affidabilità minori rispetto al metodo split-half. È importante considerare il metodo utilizzato quando si valutano e si confrontano l’affidabilità di diversi test.

11.6.3. Linee Guida Generali per i Coefficienti di Affidabilità#

Sebbene molti fattori meritino considerazione, possiamo fornire alcune linee guida generali:

Per decisioni importanti che hanno un impatto significativo e non facilmente reversibile sugli individui, si dovrebbero aspettare coefficienti di affidabilità di 0.90 o addirittura 0.95.
Stime di affidabilità di 0.80 o superiori sono generalmente accettabili per molti test di rendimento e personalità.
Per test creati da insegnanti o usati per lo screening, si aspettano stime di affidabilità di almeno 0.70.
Alcuni suggeriscono che coefficienti di affidabilità fino a 0.60 possano essere accettabili per ricerche di gruppo, ma è consigliabile cautela nell’usare test con affidabilità al di sotto di 0.70.

In sintesi, la valutazione dell’affidabilità di un test psicometrico richiede un’attenta considerazione di diversi fattori chiave, e gli standard di accettabilità variano in base al contesto specifico del test e al suo uso previsto.

11.7. Considerazioni conclusive#

In conclusione, la valutazione dell’affidabilità di un test richiede l’impiego di diversi coefficienti che tengono conto delle varie fonti di errore. I coefficienti di consistenza interna si concentrano sull’errore derivante dalle fluttuazioni delle risposte tra gli item, mentre quelli di equivalenza esaminano la coerenza dei punteggi tra diverse versioni del test. I coefficienti di stabilità misurano la coerenza dei punteggi nel corso del tempo. È di fondamentale importanza selezionare il tipo di affidabilità appropriato in base allo scopo del test, al fine di ottenere informazioni affidabili e utili per le decisioni basate sui punteggi ottenuti dal test.

11.8. Session Info#

sessionInfo()

R version 4.3.3 (2024-02-29)
Platform: x86_64-apple-darwin20 (64-bit)
Running under: macOS Sonoma 14.4

Matrix products: default
BLAS:   /Library/Frameworks/R.framework/Versions/4.3-x86_64/Resources/lib/libRblas.0.dylib 
LAPACK: /Library/Frameworks/R.framework/Versions/4.3-x86_64/Resources/lib/libRlapack.dylib;  LAPACK version 3.11.0

locale:
[1] en_US.UTF-8/UTF-8/en_US.UTF-8/C/en_US.UTF-8/en_US.UTF-8

time zone: Europe/Rome
tzcode source: internal

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base     

other attached packages:
 [1] ltm_1.2-0          polycor_0.8-1      msm_1.7.1          MASS_7.3-60.0.1   
 [5] modelsummary_1.4.5 ggokabeito_0.1.0   viridis_0.6.5      viridisLite_0.4.2 
 [9] ggpubr_0.6.0       ggExtra_0.10.1     bayesplot_1.11.1   gridExtra_2.3     
[13] patchwork_1.2.0    semTools_0.5-6.920 semPlot_1.1.6      lavaan_0.6-17     
[17] psych_2.4.3        scales_1.3.0       markdown_1.12      knitr_1.45        
[21] lubridate_1.9.3    forcats_1.0.0      stringr_1.5.1      dplyr_1.1.4       
[25] purrr_1.0.2        readr_2.1.5        tidyr_1.3.1        tibble_3.2.1      
[29] ggplot2_3.5.0      tidyverse_2.0.0    here_1.0.1        

loaded via a namespace (and not attached):
  [1] rstudioapi_0.15.0  jsonlite_1.8.8     magrittr_2.0.3    
  [4] TH.data_1.1-2      estimability_1.5   nloptr_2.0.3      
  [7] rmarkdown_2.26     vctrs_0.6.5        minqa_1.2.6       
 [10] base64enc_0.1-3    rstatix_0.7.2      htmltools_0.5.7   
 [13] broom_1.0.5        Formula_1.2-5      htmlwidgets_1.6.4 
 [16] plyr_1.8.9         sandwich_3.1-0     emmeans_1.10.0    
 [19] zoo_1.8-12         uuid_1.2-0         admisc_0.35       
 [22] igraph_2.0.3       mime_0.12          lifecycle_1.0.4   
 [25] pkgconfig_2.0.3    Matrix_1.6-5       R6_2.5.1          
 [28] fastmap_1.1.1      shiny_1.8.0        digest_0.6.35     
 [31] OpenMx_2.21.11     fdrtool_1.2.17     colorspace_2.1-0  
 [34] rprojroot_2.0.4    Hmisc_5.1-2        fansi_1.0.6       
 [37] timechange_0.3.0   abind_1.4-5        compiler_4.3.3    
 [40] withr_3.0.0        glasso_1.11        htmlTable_2.4.2   
 [43] backports_1.4.1    carData_3.0-5      ggsignif_0.6.4    
 [46] corpcor_1.6.10     gtools_3.9.5       tools_4.3.3       
 [49] pbivnorm_0.6.0     foreign_0.8-86     zip_2.3.1         
 [52] httpuv_1.6.14      nnet_7.3-19        glue_1.7.0        
 [55] quadprog_1.5-8     nlme_3.1-164       promises_1.2.1    
 [58] lisrelToR_0.3      grid_4.3.3         pbdZMQ_0.3-11     
 [61] checkmate_2.3.1    cluster_2.1.6      reshape2_1.4.4    
 [64] generics_0.1.3     gtable_0.3.4       tzdb_0.4.0        
 [67] data.table_1.15.2  hms_1.1.3          car_3.1-2         
 [70] utf8_1.2.4         tables_0.9.17      sem_3.1-15        
 [73] pillar_1.9.0       IRdisplay_1.1      rockchalk_1.8.157 
 [76] later_1.3.2        splines_4.3.3      lattice_0.22-6    
 [79] survival_3.5-8     kutils_1.73        tidyselect_1.2.1  
 [82] miniUI_0.1.1.1     pbapply_1.7-2      stats4_4.3.3      
 [85] xfun_0.42          expm_0.999-9       qgraph_1.9.8      
 [88] arm_1.13-1         stringi_1.8.3      boot_1.3-30       
 [91] evaluate_0.23      codetools_0.2-19   mi_1.1            
 [94] cli_3.6.2          RcppParallel_5.1.7 IRkernel_1.3.2    
 [97] rpart_4.1.23       xtable_1.8-4       repr_1.1.6        
[100] munsell_0.5.0      Rcpp_1.0.12        coda_0.19-4.1     
[103] png_0.1-8          XML_3.99-0.16.1    parallel_4.3.3    
[106] ellipsis_0.3.2     jpeg_0.1-10        lme4_1.1-35.1     
[109] mvtnorm_1.2-4      insight_0.19.9     openxlsx_4.2.5.2  
[112] crayon_1.5.2       rlang_1.1.3        multcomp_1.4-25   
[115] mnormt_2.1.1      

Metodi di stima dell’affidabilità

Contents

11. Metodi di stima dell’affidabilità#

11.1. La Definizione di Attendibilità#

11.2. Approcci per Stimare l’Affidabilità#

11.2.1. Affidabilità come Consistenza Interna#

11.2.1.1. Coefficienti di consistenza interna#

11.2.1.2. Test paralleli#

11.2.1.3. Test \(\tau\)-equivalenti#

11.2.1.4. Test congenerici#

11.2.1.5. Coefficiente \(\alpha\) di Cronbach#

11.2.1.6. Metodi alternativi per la stima del coefficiente di attendibilità#

11.2.1.7. Coefficiente KR-20#

11.2.1.8. Coefficiente KR-21#

11.2.1.9. La formula “profetica” di Spearman-Brown#

11.2.2. Forme parallele del test#

11.2.3. Attendibilità test-retest#

11.3. Affidabilità dei punteggi compositi#

11.3.1. Calcolo per il Puniteggio Composito#

11.3.2. Confronto con un Singolo Subtest#

11.4. L’affidabilità dei Punteggi Differenza#

11.5. Scelta del Coefficiente di Affidabilità in Funzione del Contesto#

11.5.1. Affidabilità Test-Retest#

11.5.2. Affidabilità della Coerenza Interna#

11.5.3. Affidabilità delle Forme Alternate#

11.5.4. Affidabilità Intervalutatori#

11.6. Linee Guida sulla Scelta e Valutazione dei Coefficienti di Affidabilità#

11.6.1. Significato e Importanza dei Coefficienti di Affidabilità#

11.6.2. Fattori da Considerare nella Valutazione dell’Affidabilità#

11.6.2.1. Il Costrutto#

11.6.2.2. Tempo Disponibile per il Test#

11.6.2.3. Uso dei Punteggi del Test#

11.6.2.4. Metodo di Stima dell’Affidabilità#

11.6.3. Linee Guida Generali per i Coefficienti di Affidabilità#

11.7. Considerazioni conclusive#

11.8. Session Info#