12.2 Validità

La validità può essere esaminato in molti modi e quantificare l’evidenza di validità è abbastanza semplice con R. Una forma comune di evidenza di validità è l’opinione di un esperto. Le opinioni degli esperti possono aiutare a valutare l’adeguatezza del contenuto degli item, se lo strumento sta campionando adeguatamente tutte le dimensioni del dominio del costrutto e se gli item sono necessari per misurare il costrutto. Un modo per quantificare questo tipo di validità è con il content validity ratio, CVR (Lawshe, 1975). Il CVR è definito come:

\[ CVR = \frac{n_e - (N/2)}{N/2}, \]

dove \(n_e\) è il numero di esperti che ritengono essenziale l’item e \(N\) è il numero totale di esperti. Ad esempio, possiamo costruire uno strumento che interroghi i genitori sull’aggressività nei loro figli. Un item potrebbe chiedere: “Tuo figlio morde altri bambini?” Se chiediamo a 20 esperti se pensano che questo elemento sia essenziale per misurare l’aggressività nei bambini e 17 concordano che lo sia, allora il CVR può essere calcolato usando la funzione cvr di hemp:

cvr(N = 20, n_e = 17)
#> [1] 0.7

Scopriamo che il CVR è 0.70 per questo particolare item, ma non sappiamo se 0.70 sia abbastanza grande da mantenere l’item nello strumento. La tabella 1 in Lawshe (1975) fornisce valori soglia di CVR dato un determinato numero di esperti. Per 20 esperti, il CVR minimo è 0.42 e per cui potremmo concludere che gli esperti ritengono che questo item sia utile e potremmo mantenere questo item nel nostro strumento.

Altre forme di prova di validità valutano la misura in cui i punteggi del test si riferiscono a qualche criterio esterno (validità di criterio). Il supporto statistico per questa forma di validità può comportare il calcolo di correlazioni semplici o l’uso della regressione.

Esaminiamo il set di dati interest, un set di dati artificiale che contiene misure di personalità, di capacità cognitive e di interessi vocazionali. Per questi dati potremmo aspettarci che il test del vocabolario (vocab) sia correlato con valutazioni che misurano la comprensione della lettura (reading) e il completamento di frasi (sent-comp). Pertanto, possiamo utilizzare la funzione cor per calcolare la correlazione di Pearson tra queste variabili.

cor(interest[, c("vocab", "reading", "sentcomp")])
#>              vocab   reading  sentcomp
#> vocab    1.0000000 0.8030912 0.8132765
#> reading  0.8030912 1.0000000 0.7252155
#> sentcomp 0.8132765 0.7252155 1.0000000

La correlazione di Pearson tra vocab e reading è 0.803, mentre la correlazione tra vocab e sentcomp è 0.813. Ciò rappresenterebbe una prova di validità concorrente se i test di vocabolario fossero somministrati al momento della valutazione della lettura e del completamento della frase. Se il test del vocabolario precede i test di lettura e di completamento della frase, allora la correlazione di Pearson rappresenta una prova a sostegno della validità predittiva.

mmaginiamo di voler determinare se la comprensione della lettura può fornire informazioni aggiuntive sulla predisposizione di qualcuno a diventare un insegnante, oltre alla sola misura della personalità del dominio sociale. In altre parole, stiamo cercando di capire se la comprensione della lettura ha un valore predittivo incrementale rispetto alla misura della personalità.

Per fare ciò, useremo l’analisi di regressione, che ci permetterà di valutare se la comprensione della lettura è in grado di fornire informazioni aggiuntive e significative sulla predisposizione a diventare insegnanti. In particolare, utilizzeremo l’analisi di regressione per stabilire se la comprensione della lettura è in grado di predire l’interesse a diventare insegnanti, una volta tenuta in considerazione la misura della personalità del dominio sociale. Questo ci consentirà di valutare se la comprensione della lettura ha una validità incrementale nella predizione dell’interesse a diventare insegnanti, rispetto alla sola misura della personalità del dominio sociale.

mod_old <- lm(teacher ~ socdom, interest)
mod_new <- lm(teacher ~ socdom + reading, interest)

I modelli mod_new e mod_old sono nidificati, il che significa che mod_new include le stesse variabili indipendenti e dipendenti di mod_old, ma aggiunge la variabile reading. Per valutare il contributo di reading rispetto a socdom nella previsione di teacher, possiamo confrontare i due modelli esaminando il cambiamento del valore R-quadrato (R2).

Per fare ciò, possiamo utilizzare la funzione anova in R per confrontare statisticamente i due modelli. Questo test ci dirà se la variazione di R2 tra i due modelli è statisticamente significativa (cioè, se R2 > 0). Se la variazione di R2 risulta essere statisticamente significativa, allora possiamo affermare che la variabile reading spiega una quota aggiuntiva di varianza nella variabile dipendente teacher, al di là di ciò che viene spiegato dalla variabile socdom, laddove questo incremento non può essere attribuito al caso soltanto. In altre parole, reading aggiunge un valore predittivo incrementale nella previsione dell’interesse a diventare insegnanti, rispetto alla sola misura della personalità del dominio sociale socdom.

summary(mod_new)$r.squared - summary(mod_old)$r.squared
#> [1] 0.09125979
anova(mod_old, mod_new)
#> Analysis of Variance Table
#> 
#> Model 1: teacher ~ socdom
#> Model 2: teacher ~ socdom + reading
#>   Res.Df    RSS Df Sum of Sq      F    Pr(>F)    
#> 1    248 244.98                                  
#> 2    247 221.03  1    23.951 26.765 4.754e-07 ***
#> ---
#> Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Dall’output sopra, vediamo che la valutazione della comprensione della lettura ha una validità incrementale oltre la sola misura di dominanza sociale (p <.001) e che spiega circa il 9% in più di variabilità nell’interesse per la professione di insegnante.

summary(mod_old)
#> 
#> Call:
#> lm(formula = teacher ~ socdom, data = interest)
#> 
#> Residuals:
#>     Min      1Q  Median      3Q     Max 
#> -4.0679 -0.6690  0.0823  0.6271  2.6064 
#> 
#> Coefficients:
#>             Estimate Std. Error t value Pr(>|t|)    
#> (Intercept) -0.03279    0.06318  -0.519    0.604    
#> socdom       0.26392    0.06276   4.205 3.64e-05 ***
#> ---
#> Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#> 
#> Residual standard error: 0.9939 on 248 degrees of freedom
#> Multiple R-squared:  0.06657,    Adjusted R-squared:  0.0628 
#> F-statistic: 17.69 on 1 and 248 DF,  p-value: 3.641e-05

summary(mod_new)
#> 
#> Call:
#> lm(formula = teacher ~ socdom + reading, data = interest)
#> 
#> Residuals:
#>     Min      1Q  Median      3Q     Max 
#> -4.3686 -0.6218  0.0592  0.6590  2.3245 
#> 
#> Coefficients:
#>             Estimate Std. Error t value Pr(>|t|)    
#> (Intercept) -0.07399    0.06066  -1.220    0.224    
#> socdom       0.25320    0.05977   4.237 3.21e-05 ***
#> reading      0.31329    0.06056   5.174 4.75e-07 ***
#> ---
#> Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#> 
#> Residual standard error: 0.946 on 247 degrees of freedom
#> Multiple R-squared:  0.1578, Adjusted R-squared:  0.151 
#> F-statistic: 23.14 on 2 and 247 DF,  p-value: 6.124e-10