17 La Validità del test

In questo capitolo imparerai a

Identificare le principali minacce alla validità.
Distinguere e comprendere le diverse tipologie di validità.
Analizzare le conseguenze intenzionali e non intenzionali dei test.
Integrare diverse prove di validità per una valutazione complessiva.

Prerequisiti

Leggere il capitolo 4, Validity, del testo Principles of psychological assessment di Petersen (2024).
Leggere A Short Tutorial on Validation in Educational and Psychological Assessment (Arias, 2024).
Leggere Disrupting white supremacy in assessment: Toward a justice-oriented, antiracist validity framework (Randall et al., 2023).
Leggere “Color-neutral” is not a thing: Redefining construct definition and representation through a justice-oriented critical antiracist lens (Randall, 2021).

17.1 Introduzione

Oltre all’affidabilità, la validità rappresenta la seconda caratteristica essenziale che uno strumento psicometrico deve avere. La validità è una proprietà psicometrica fondamentale dei test psicologici. La definizione degli Standards for educational and psychological testing (American Educational Research Association et al., 2014) è la seguente:

Validity refers to the degree to which evidence and theory support the interpretations of test scores for proposed uses of tests.

In altre parole, la validità riguarda sia il significato dei punteggi del test che il modo in cui li utilizziamo. Pertanto, la validità è giustamente “la considerazione più fondamentale nello sviluppo e nella valutazione dei test”, come indicato negli Standards (p. 11).

Il concetto di validità, un tempo circoscritto alla triade contenuto-criterio-costrutto, si è evoluto in un quadro concettuale più ampio e dinamico. Gli Standards affermano:

Validity is a unitary concept. It is the degree to which all the accumulated evidence supports the intended interpretation of test scores for the proposed use. Like the 1999 Standards, this edition refers to types of validity evidence, rather than distinct types of validity. To emphasize this distinction, the treatment that follows does not follow historical nomenclature (i.e., the use of the terms content validity or predictive validity). (2014, p. 14)

Di conseguenza, la maggior parte delle concezioni moderne di validità enfatizzano un’integrazione di tutte le forme di evidenza utili a chiarire il significato(i) che possono essere attribuiti ai punteggi del test. Spetta all’utente del test valutare le prove disponibili per giudicare in che misura la sua interpretazione o utilizzo previsto sia appropriato.

Nel campo della psicometria, esiste un consenso sul fatto che i concetti tradizionali di validità, legati direttamente a un test, siano stati superati. Oggi si riconosce che la validità non riguarda il test in sé, ma l’adeguatezza e l’accuratezza delle interpretazioni dei punteggi ottenuti. In altre parole, non è corretto parlare di “validità di un test”. La validità si riferisce alle interpretazioni che vengono fatte dei punteggi del test.

Pertanto, non è corretto chiedere: “Il Wechsler Intelligence Scale for Children—Quinta Edizione (WISC-V) è un test valido?”. La domanda più appropriata è: “È valida l’interpretazione delle prestazioni sul WISC-V come misura dell’intelligenza?”. La validità dipende sempre dal contesto dell’interpretazione: cosa significa ottenere un certo punteggio su questo test? La validità si applica all’interpretazione di questo risultato, non al test stesso.

17.2 Minacce alla Validità

La validità di un test può essere compromessa quando esso non misura in modo completo il costrutto di interesse, oppure quando include aspetti non pertinenti al costrutto stesso. Anche test con alta affidabilità possono risultare vulnerabili a queste problematiche, con il rischio di interpretazioni distorte dei risultati.

In questa sezione, analizzeremo i principali tipi di validità e le evidenze associate, evidenziando come le diverse fonti di prova possano essere integrate per costruire un argomento solido a sostegno della validità di un test. L’obiettivo è fornire una panoramica chiara e pratica su come riconoscere e affrontare le potenziali minacce alla validità nella valutazione psicometrica.

17.2.1 Sotto-Rappresentazione del Costrutto

La sotto-rappresentazione del costrutto si verifica quando il test non riesce a misurare aspetti cruciali del costrutto target. Ad esempio, un test di matematica per la terza elementare che valuta solo la divisione non rappresenta adeguatamente tutte le competenze matematiche previste per quel livello scolastico. Per affrontare questa lacuna, è necessario ampliare il contenuto del test per includere tutte le abilità matematiche rilevanti nel curriculum della terza elementare.

17.2.2 Varianza Estranea al Costrutto

La varianza estranea al costrutto si verifica quando un test, oltre a valutare il costrutto di interesse, misura involontariamente altre caratteristiche o competenze non pertinenti. Ad esempio, un test di matematica che richiede un elevato livello di comprensione del testo potrebbe finire per valutare anche le capacità di lettura, anziché concentrarsi esclusivamente sulle competenze matematiche.

Per minimizzare questa varianza estranea, è fondamentale progettare il test con attenzione, utilizzando istruzioni chiare e un linguaggio accessibile, adeguato al livello di comprensione della popolazione di riferimento. Questo garantisce che il test misuri il costrutto target in modo più preciso e riduca il rischio di interferenze da fattori non rilevanti.

17.2.3 Altri Fattori Che Influenzano la Validità

Oltre alle caratteristiche intrinseche del test, ci sono fattori esterni che possono influenzare la validità delle interpretazioni dei risultati. Questi includono:

Caratteristiche dell’Esaminando:
- Fattori personali, come ansia, bassa motivazione o distrazioni, possono influenzare le prestazioni e ridurre la validità delle interpretazioni dei punteggi.
Procedure di Amministrazione e Valutazione:
- Qualsiasi deviazione dalle procedure standard di somministrazione può compromettere la validità. Anche gli adattamenti per esigenze speciali devono essere gestiti con cura per garantire che le interpretazioni dei risultati rimangano valide.
Istruzione e Coaching:
- Istruzioni o coaching specifici prima del test possono alterare la validità, soprattutto se gli esaminandi vengono addestrati a rispondere a particolari tipologie di domande, distorcendo così l’interpretazione delle loro competenze reali.

Infine, la validità delle interpretazioni basate su punteggi norm-referenced (cioè confronti rispetto a un gruppo di riferimento) dipende dall’adeguatezza e rappresentatività del campione di riferimento utilizzato per il confronto.

In sintesi, le minacce alla validità richiedono un’attenta valutazione. Solo affrontando questi fattori sarà possibile garantire che le interpretazioni dei risultati del test siano appropriate. Il processo di validazione deve quindi considerare sia il contenuto e la struttura del test sia le influenze esterne che possono distorcere le conclusioni tratte dai punteggi.

17.3 Tipologie di Validità

17.3.1 Evoluzione Storica e Cambiamenti Concettuali

La definizione e l’applicazione della validità nei test psicologici hanno subito un’evoluzione sostanziale nel tempo, come documentato negli Standards for Educational and Psychological Testing del 2014 (American Educational Research Association et al., 2014). In passato, la validità era suddivisa in tre categorie principali: validità di contenuto, validità criteriale e validità di costrutto (Messick, 1989). Questa distinzione serviva a fornire una struttura per interpretare i punteggi dei test. Tuttavia, si è successivamente adottato un approccio più integrato, in cui ogni evidenza di validità contribuisce collettivamente a sostenere le interpretazioni dei punteggi.

17.3.2 Le Tre Categorie Tradizionali di Validità

Validità di Contenuto
Valuta quanto il contenuto del test rappresenti adeguatamente il dominio teorico del costrutto.
- Esempio: Un test di geometria deve coprire i principali concetti previsti dal curriculum.
- Metodo: Giudizi esperti analizzano l’aderenza del contenuto al costrutto teorico.
Validità Criteriale
Esamina la relazione tra i punteggi del test e un criterio esterno rilevante.
- Esempio: Un test di selezione deve predire con precisione le prestazioni lavorative.
- Analisi: Correlazioni e regressioni tra il test e i criteri esterni.
Validità di Costrutto
Verifica quanto il test misuri il costrutto teorico di riferimento.
- Evidenze chiave:
  - Coerenza con modelli teorici.
  - Correlazioni con misure simili (validità convergente).
  - Correlazioni ridotte con misure di costrutti diversi (validità divergente).
  - Analisi fattoriale per confermare la struttura teorica.
  - Capacità predittiva in relazione a comportamenti o fenomeni legati al costrutto.

17.3.3 Il Passaggio a un Modello Unitario

Con l’introduzione degli Standards del 1985 (APA et al., 1985), le tre categorie di validità sono state superate in favore di un approccio unitario. La validità è ora intesa come il grado in cui tutte le evidenze disponibili supportano l’interpretazione prevista dei punteggi di un test per uno scopo specifico.

Gli Standards del 2014 (American Educational Research Association et al., 2014) hanno formalizzato questa prospettiva, organizzando le evidenze di validità in cinque categorie principali:

Prove Basate sul Contenuto del Test
Valutano se il contenuto riflette accuratamente il costrutto teorico.
Prove Basate sui Processi di Risposta
Analizzano i processi cognitivi e comportamentali adottati dagli esaminandi per rispondere agli item.
Prove Basate sulla Struttura Interna
Esaminano la coerenza tra la struttura empirica del test (es. fattori o dimensioni) e il modello teorico.
Prove Basate sulle Relazioni con Altre Variabili
Esplorano le connessioni tra i punteggi del test e altre variabili esterne pertinenti.
Prove Basate sulle Conseguenze del Test
Considerano gli effetti derivanti dall’utilizzo del test, inclusi impatti sociali o educativi.

In conclusione, l’evoluzione concettuale della validità testimonia il passaggio da un approccio frammentato a una prospettiva integrata. L’obiettivo è garantire che l’interpretazione dei punteggi sia supportata da un insieme di evidenze complementari, fornendo così una base solida e scientificamente fondata per l’utilizzo dei test psicologici.

17.4 Ottenere Evidenze di Validità

La validità si definisce come il grado in cui evidenze empiriche e teoria sostengono le interpretazioni dei punteggi di un test per gli scopi previsti. Questa definizione implica che non è possibile ottenere prove per tutte le interpretazioni o applicazioni possibili di un test. Pertanto, il primo passo cruciale nel processo di validazione consiste nel definire chiaramente le interpretazioni e gli utilizzi specifici per cui il test è stato progettato.

Gli Standards for Educational and Psychological Testing del 2014 (American Educational Research Association et al., 2014) suddividono le evidenze di validità in cinque categorie principali, che offrono una struttura sistematica per raccogliere e organizzare prove a supporto delle interpretazioni e degli utilizzi previsti. Di seguito, ciascuna categoria viene analizzata nel dettaglio, evidenziando il loro ruolo nel processo di validazione.

1. Prove Basate sul Contenuto del Test

Le prove basate sul contenuto si concentrano sulla misura in cui il contenuto di un test riflette accuratamente il dominio teorico che si propone di valutare. Tuttavia, nella pratica, è raro che un test riesca a coprire integralmente il dominio di un costrutto. Questo limite può generare due problemi principali: la sotto-rappresentazione del costrutto, che si verifica quando il test non include aspetti fondamentali del dominio, e la presenza di varianza estranea, causata da elementi non pertinenti che interferiscono con la misurazione. Entrambi i problemi rappresentano potenziali minacce alla validità.

Per ridurre tali rischi, il contenuto del test deve essere pianificato con cura, garantendo una selezione bilanciata e rappresentativa degli item. Il processo di validazione coinvolge spesso giudizi esperti, i quali valutano due criteri essenziali:

Rilevanza degli item: Ogni item deve essere pertinente al costrutto che si intende misurare.
Ampiezza della copertura: L’insieme degli item deve rappresentare in modo sufficientemente completo le varie dimensioni del costrutto.

Un aspetto correlato è la validità di facciata, che si riferisce alla percezione, da parte di non esperti o degli esaminandi, della plausibilità del test come misura del costrutto. Sebbene non costituisca una prova tecnica di validità, può influenzare la motivazione e la collaborazione degli esaminandi durante la somministrazione.

2. Prove Basate sui Processi di Risposta

Questo tipo di evidenza valuta se i processi cognitivi che gli esaminandi utilizzano per rispondere al test riflettono il costrutto che il test intende misurare. Per esempio, in un test di ragionamento matematico, è essenziale che i partecipanti applichino strategie di risoluzione dei problemi piuttosto che semplici procedure meccaniche.

I processi di risposta possono essere valutati tramite interviste, analisi dei tempi di risposta, o monitoraggio dei movimenti oculari. Anche i criteri utilizzati dai valutatori nel punteggio possono essere inclusi in questo tipo di evidenza. L’obiettivo è garantire che il processo di risoluzione degli item sia coerente con il costrutto che si desidera misurare.

3. Prove Basate sulla Struttura Interna

L’evidenza basata sulla struttura interna si concentra sulle relazioni tra gli elementi del test e la loro coerenza con le dimensioni teoriche del costrutto. L’analisi fattoriale è uno strumento chiave per esaminare se la struttura interna del test riflette le dimensioni ipotizzate. Questo tipo di evidenza è particolarmente importante per i test multidimensionali, come quelli di personalità, in cui ci si aspetta che diverse dimensioni siano rappresentate coerentemente dagli item.

4. Prove Basate sulle Relazioni con Altre Variabili.

Le evidenze ottenute da relazioni con altre variabili permettono di valutare se un test misura effettivamente il costrutto target e come i suoi punteggi si collegano a misure esterne rilevanti. Queste relazioni includono correlazioni con strumenti simili, criteri di riferimento o variabili teoricamente associate. Tra le principali tipologie di evidenze troviamo la validità convergente, discriminante e criteriale.

Validità Convergente e Discriminante. La validità convergente indica quanto i punteggi di un test correlano con quelli di altre misure che valutano lo stesso costrutto o costrutti correlati. Ad esempio, un nuovo test di intelligenza dovrebbe mostrare una forte correlazione con strumenti consolidati che misurano lo stesso costrutto, dimostrando coerenza e supportando l’ipotesi che stia misurando ciò che dichiara.

Al contrario, la validità discriminante verifica che i punteggi del test non siano correlati con misure di costrutti teoricamente distinti. Per esempio, un test di abilità verbali non dovrebbe mostrare un’alta correlazione con un test di abilità motorie. Questo conferma che il test è specifico per il dominio che intende misurare, evitando influenze estranee.

Validità Criteriale. La validità criteriale esamina la relazione tra i punteggi del test e un criterio esterno rilevante, articolandosi in:

Validità predittiva, che valuta la capacità del test di prevedere risultati futuri legati al costrutto. Ad esempio, un test di selezione dovrebbe prevedere con precisione la performance lavorativa.
Validità concorrente, che analizza se i punteggi del test concordano con una misura esistente raccolta nello stesso momento. Per esempio, un test di abilità sociali dovrebbe produrre risultati coerenti con quelli di strumenti già consolidati.

Entrambe le tipologie si basano su analisi statistiche come correlazioni e regressioni per quantificare la relazione tra test e criterio.

Confronto tra Gruppi. Un’altra fonte di evidenze deriva dall’analisi delle differenze tra gruppi. Se un test misura correttamente il costrutto, ci si aspetta che i suoi punteggi varino tra gruppi con caratteristiche rilevanti. Ad esempio, un test di intelligenza dovrebbe produrre punteggi più elevati in individui con alti livelli di istruzione rispetto a quelli con livelli più bassi. Questa sensibilità alle differenze teoricamente attese rafforza l’affidabilità del test.

Sensibilità e Specificità. Nel contesto della classificazione o diagnosi, è essenziale valutare:

Sensibilità, ossia la capacità del test di identificare correttamente i casi positivi (ad esempio, individui con una determinata condizione).
Specificità, che misura la capacità di escludere correttamente i casi negativi.

Un test efficace bilancia sensibilità e specificità, riducendo al minimo errori di classificazione.

Generalizzazione della Validità. La validità di un test deve essere confermata anche in nuovi contesti, popolazioni o condizioni, un processo noto come generalizzazione della validità. Studi come le meta-analisi aiutano a identificare come differenze nei risultati possano derivare da variazioni metodologiche o artefatti statistici, offrendo una base per estendere l’uso del test.

In conclusione, le relazioni con altre variabili forniscono evidenze fondamentali per dimostrare che un test misura accuratamente il costrutto target e si comporta come previsto in relazione a criteri esterni, misure correlate e differenze tra gruppi. Attraverso analisi di validità convergente, discriminante e criteriale, nonché grazie a metriche come sensibilità e specificità, queste evidenze sostengono l’utilità e l’affidabilità del test in molteplici applicazioni.

5. Prove Basate sulle Conseguenze del Test

Le conseguenze derivanti dall’uso di un test, sia previste che non previste, rappresentano un aspetto critico della validità. Queste conseguenze includono l’impatto diretto sui singoli individui e le implicazioni più ampie per la società, come nel caso di test di ammissione scolastica o di strumenti psicologici impiegati in ambito forense. Anche gli effetti indesiderati, come l’uso improprio del test o l’amplificazione di disuguaglianze, devono essere attentamente valutati per garantire l’integrità e l’etica del processo di misurazione.

Gli Standards distinguono tra conseguenze intenzionali, legate agli obiettivi dichiarati del test, e conseguenze non intenzionali, che emergono come effetti collaterali non previsti. Entrambe le categorie sono essenziali per una valutazione completa della validità e per promuovere un uso responsabile dei test.

Conseguenze Intenzionali. Le conseguenze intenzionali si riferiscono ai risultati attesi e desiderati per cui il test è stato progettato.

Esempio: Un test di selezione del personale è progettato per individuare i candidati più qualificati per un ruolo specifico. Analogamente, un test di rendimento scolastico mira a valutare le competenze degli studenti rispetto a uno standard educativo.
Valutazione della validità consequenziale: Questo tipo di analisi esamina se il test raggiunge gli obiettivi dichiarati, come migliorare i processi decisionali o ridurre costi organizzativi, e garantisce che il suo utilizzo sia giustificato dai benefici ottenuti.

Conseguenze Non Intenzionali. Le conseguenze non intenzionali si manifestano quando l’uso di un test genera effetti non previsti, che possono minacciare l’equità o l’utilità del test.

Esempio: Un test valido per la selezione del personale potrebbe penalizzare sistematicamente candidati appartenenti a gruppi socioeconomici svantaggiati, evidenziando una potenziale distorsione culturale o metodologica.
Rilevanza: Questi effetti collaterali devono essere monitorati per garantire che il test non introduca disparità ingiustificate, induca ansia nei partecipanti o sia utilizzato in modi non appropriati al contesto.

Valutazione delle Conseguenze. Gli Standards sottolineano che il monitoraggio delle conseguenze, sia intenzionali che non intenzionali, deve essere parte integrante del processo di validazione. Ciò include:

Monitoraggio continuo: Verifica dell’impatto del test nel tempo, sia sui singoli individui che sul sistema sociale.
Analisi etica: Considerazione degli effetti potenziali sull’equità, sull’accesso alle opportunità e sulla riduzione dei pregiudizi sistemici.

Conseguenze Sociali e Politiche. L’utilizzo dei test può avere implicazioni più ampie, che vanno oltre la validità tecnica e riguardano questioni sociali e politiche. Ad esempio, i test standardizzati possono influenzare le politiche di accesso all’istruzione o al lavoro.

Distinzione chiara: Sebbene queste conseguenze siano importanti, gli Standards suggeriscono di trattarle separatamente dalle evidenze strettamente legate alla validità del test. Ciò evita di sovrapporre questioni tecniche con considerazioni di valore più ampie, pur riconoscendone l’importanza etica.

Considerazione delle Alternative. Valutare le conseguenze di un test implica anche considerare gli effetti dell’assenza di un test o dell’uso di approcci alternativi.

Esempio: L’eliminazione di test strutturati potrebbe portare a decisioni basate su criteri meno oggettivi, come valutazioni soggettive o pregiudizi personali.
Equilibrio: Pur con i loro limiti, i test standardizzati spesso offrono una maggiore equità rispetto a processi meno formalizzati, che possono amplificare distorsioni culturali o di genere.

Responsabilità Etica e Validità Consequenziale. Gli sviluppatori e gli utilizzatori di test hanno la responsabilità di garantire che l’uso del test generi benefici giustificati e minimizzi le conseguenze negative. Questo richiede:

Revisione continua: Aggiornamento dei test per adattarli a nuove esigenze e contesti.
Promozione dell’equità: Minimizzazione degli effetti collaterali negativi e attenzione ai principi di giustizia ed etica.

La validità consequenziale non si limita alla misurazione accurata di un costrutto, ma si estende all’analisi degli effetti pratici e morali dell’uso del test.

In sintesi, le prove basate sulle conseguenze del test rappresentano un aspetto fondamentale per valutare la validità di uno strumento psicometrico. Considerare sia le conseguenze intenzionali che quelle non intenzionali consente di garantire che il test non solo misuri accuratamente il costrutto di interesse, ma contribuisca anche in modo etico e positivo agli scopi dichiarati. Monitorare costantemente gli effetti di un test è essenziale per preservarne l’efficacia, l’integrità e l’equità nell’applicazione.

17.5 Integrazione delle Prove di Validità

Gli Standards descrivono la validità come un processo continuo di costruzione di un argomento coerente e supportato da evidenze a favore dell’interpretazione e dell’uso dei punteggi di un test. L’integrazione delle diverse prove di validità è cruciale per garantire che le interpretazioni dei risultati siano appropriate e sostenute da evidenze robuste.

L’integrazione delle prove di validità comporta la combinazione di diverse fonti di evidenza per costruire un argomento completo e coerente che giustifichi l’uso del test per uno scopo specifico. Questo processo si realizza raccogliendo diverse linee di prova, che possono includere prove basate sul contenuto, sulla struttura interna, sui processi di risposta, sulle relazioni con altre variabili e sulle conseguenze del test.

L’integrazione non avviene in modo meccanico, ma richiede una riflessione critica su come ogni prova contribuisca all’argomento complessivo. Ogni tipo di prova fornisce un’informazione parziale, e il loro insieme contribuisce a creare un quadro completo della validità del test. Ad esempio, se un test mostra coerenza interna ma non è in grado di predire accuratamente i criteri per cui è stato progettato, la validità potrebbe essere compromessa. Viceversa, l’integrazione di evidenze positive da più fonti rafforza la giustificazione per l’uso del test.

L’integrazione delle prove di validità serve a supportare l’argomento secondo cui i punteggi del test sono appropriati per l’interpretazione e l’uso previsto. Questo approccio consente di ottenere una visione olistica della validità del test e di garantire che le diverse dimensioni della validità siano state considerate in modo approfondito. L’obiettivo finale è dimostrare che il test è non solo tecnicamente affidabile, ma anche giustificato eticamente e utilizzabile per prendere decisioni informate.

La validazione non è mai un processo singolare o statico. Un argomento di validità ben costruito considera come le diverse evidenze interagiscono per confermare o smentire l’uso del test in contesti specifici. Gli Standards sottolineano che la validità non è una proprietà del test in sé, ma riguarda le interpretazioni e gli utilizzi dei punteggi. Pertanto, ogni volta che il test viene applicato in un nuovo contesto o con un obiettivo diverso, è necessario rivalutare la validità delle interpretazioni, raccogliendo nuove prove se necessario.

L’integrazione delle prove di validità non si conclude con lo sviluppo iniziale del test. Al contrario, è un processo continuo che si evolve con il tempo, man mano che vengono condotte nuove ricerche o che cambiano i contesti d’uso del test. Gli Standards evidenziano che, oltre alle prove fornite dai creatori del test, la ricerca indipendente svolge un ruolo fondamentale nel mantenere e aggiornare l’argomento di validità. Studi successivi all’adozione del test, condotti da ricercatori indipendenti, possono rafforzare, modificare o persino contraddire le evidenze iniziali, contribuendo così a una comprensione più completa della validità.

In sintesi, l’integrazione delle prove di validità è un processo critico per costruire un argomento solido a sostegno dell’uso e dell’interpretazione dei punteggi di un test. Essa comporta la raccolta e la sintesi di diverse linee di evidenza, ciascuna delle quali contribuisce a illuminare un aspetto particolare della validità. L’obiettivo finale è garantire che i test siano non solo tecnicamente adeguati, ma anche utili e giustificabili per gli scopi previsti, e che continuino a esserlo nel tempo grazie alla continua ricerca e revisione.

17.6 Riflessioni Conclusive

Nel campo della psicometria, la validità rappresenta un concetto dinamico, sfaccettato e complesso, che richiede un’integrazione critica di molteplici forme di evidenza. Questo capitolo ha esplorato le diverse dimensioni della validità, mettendo in luce l’importanza di un approccio olistico per garantire che l’interpretazione dei punteggi dei test sia appropriata e significativa. L’analisi della validità va ben oltre la semplice coerenza tra il contenuto del test e il costrutto target; essa include un esame rigoroso della struttura interna del test, dei processi cognitivi e comportamentali attivati nei rispondenti e delle conseguenze – sia attese che inattese – del suo utilizzo.

Gli Standards sottolineano come la validità non sia un attributo fisso del test stesso, ma una proprietà delle interpretazioni e degli utilizzi dei punteggi del test. Questo implica che il processo di validazione deve essere continuo, assimilando nuove ricerche e aggiornamenti man mano che emergono nuove evidenze. La validità si costruisce attraverso l’integrazione di diverse linee di prova – dalle relazioni con altre variabili, alla struttura interna, ai processi di risposta, fino alle conseguenze del test – ognuna delle quali contribuisce a consolidare l’argomento di validità.

L’integrazione delle prove non si esaurisce con lo sviluppo iniziale del test, ma continua nel tempo, con una costante attenzione critica che deve accompagnare ogni nuovo contesto d’uso. Gli psicologi, pertanto, hanno la responsabilità di valutare e rivalutare l’uso dei test nel loro specifico contesto professionale, garantendo che le decisioni prese siano informate, etiche e giustificate da prove solide.

In conclusione, la validazione di un test psicometrico deve essere intesa come un processo evolutivo e dinamico. Non si tratta di un’analisi statica, ma di una valutazione continua della capacità del test di produrre interpretazioni affidabili e pertinenti nei diversi contesti applicativi. Questo richiede un costante impegno da parte dei professionisti nel garantire che i test siano non solo strumenti tecnicamente validi, ma anche adeguati e responsabili dal punto di vista etico e pratico. La validità, dunque, è il risultato di un’interazione tra prove empiriche, teoria e pratica, che richiede una continua revisione e miglioramento per mantenere l’efficacia e l’integrità del test nel tempo.

17.7 Esercizi

Presentazione in classe dei lavori di Randall et al. (2023) e Randall (2021).

American Educational Research Association, American Psychological Association, & National Council on Measurement in Education. (2014). Standards for Educational and Psychological Testing. American Educational Research Association.

Arias, A. (2024). A Short Tutorial on Validation in Educational and Psychological Assessment. Teaching Quantitative Methods Vignettes, 20(3).

Petersen, I. T. (2024). Principles of psychological assessment: With applied examples in R. CRC Press.

Randall, J. (2021). «Color-neutral» is not a thing: Redefining construct definition and representation through a justice-oriented critical antiracist lens. Educational Measurement: Issues and Practice, 40(4), 82–90.

Randall, J., Slomp, D., Poe, M., & Oliveri, E. (2023). Disrupting white supremacy in assessment: Toward a justice-oriented, antiracist validity framework. In Twin Pandemics (pp. 78–86). Routledge.